JP2016206823A - Document data extraction system - Google Patents

Document data extraction system Download PDF

Info

Publication number
JP2016206823A
JP2016206823A JP2015085755A JP2015085755A JP2016206823A JP 2016206823 A JP2016206823 A JP 2016206823A JP 2015085755 A JP2015085755 A JP 2015085755A JP 2015085755 A JP2015085755 A JP 2015085755A JP 2016206823 A JP2016206823 A JP 2016206823A
Authority
JP
Japan
Prior art keywords
data
item
keyword
character string
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015085755A
Other languages
Japanese (ja)
Inventor
哲夫 芝
Tetsuo Shiba
哲夫 芝
加藤 真
Makoto Kato
真 加藤
松本 浩二
Koji Matsumoto
浩二 松本
史生 長谷川
Fumio Hasegawa
史生 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ADVANCED APPLICATION KK
Original Assignee
ADVANCED APPLICATION KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ADVANCED APPLICATION KK filed Critical ADVANCED APPLICATION KK
Priority to JP2015085755A priority Critical patent/JP2016206823A/en
Publication of JP2016206823A publication Critical patent/JP2016206823A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a document data extraction system capable of extracting: necessary item data, necessary period data; and correspondence data corresponding to those pieces of data from a plurality of pieces of various data displayed on a plurality of various documents prepared in various formats irrespective of presence/absence of ruled lines.SOLUTION: A document data extraction system 10 acquires all character strings included in images of documents while acquiring the images, extracts character strings identical to an item keyword and a period keyword as item keyword character strings and period keyword character strings from the acquired character strings, selects item keyword character strings and period keyword character strings satisfying selection conditions as item data and period data, extracts item data whose position is specified while specifying a position of the selected item data in the documents, extracts period data whose position is specified while specifying a position of the selected period data in the documents near the item data whose position is specified, and extracts character strings existing in a cross over area between the item data whose position is specified and the period data whose position is specified as correspondence data.SELECTED DRAWING: Figure 1

Description

本発明は、コンピュータ資源を利用し、各種の形式で作られた各種複数の帳票に表示された各種複数のデータから必要な項目データと項目データに対応する対応データとを抽出する帳票データ抽出システムに関する。   The present invention relates to a form data extraction system that extracts necessary item data and corresponding data corresponding to item data from a plurality of various data displayed on a plurality of various forms created in various formats using computer resources. About.

保険の医務査定を行う場合、各種の形式で作られた各種複数の健康診断表16(帳票)に表示された各種複数のデータから必要な検査項目データと検査項目データに対応する検査結果データとを抽出する作業が必要になる。健康診断表16からの検査項目や検査結果の抽出作業では、保険会社の社員が健康診断表16から必要な検査項目と検査結果とを選別し、選別した検査項目や検査結果をキーボードやマウス等の入力装置を使用してコンピュータに入力する。入力作業において、必要な検査項目と検査結果とを選別する際に選別ミスが発生し、不要な検査項目や検査結果が入力される場合があるとともに、入力ミスが発生し、誤った検査項目や誤った検査結果が入力される場合がある。また、入力作業や入力後の確認作業に長時間を要するとともに、作業を行う社員の人件費が発生し、医務査定に時間とコストとがかかっていた。   When conducting a medical assessment of insurance, necessary test item data and test result data corresponding to the test item data from various types of data displayed on various types of medical examination tables 16 (forms) made in various formats, Work to extract is necessary. In the work of extracting the inspection items and test results from the health checkup table 16, the insurance company employees select the necessary test items and test results from the health checkup table 16, and the selected test items and test results are displayed on the keyboard and mouse. Input to the computer using the input device. When selecting necessary inspection items and inspection results during input work, a selection error may occur, and unnecessary inspection items and inspection results may be input. Incorrect test results may be entered. In addition, a long time is required for the input work and the confirmation work after the input, and the labor cost of the employee who performs the work is generated, which takes time and cost for the medical assessment.

そのような問題を解決するために、特許文献1の文書読取装置が開示されている。この文書読取装置は、罫線で区切られた複数の文字枠を有する文書の画像データを画素に分解して読み取る画像読取手段と、画像読取手段で読み取られた画像データから、縦方向および横方向の罫線を抽出する罫線抽出手段と、罫線抽出手段で抽出された縦方向および横方向の罫線で囲まれた文字枠を抽出する文字枠抽出手段と、文字枠抽出手段で抽出された文字枠の中に記載された文字または文字列を認識して文字コードに変換する文字認識手段と、読み取り対象となる項目の名称が項目名として登録された項目名辞書を参照し、文字認識手段で認識された文字枠中の文字または文字列が項目名辞書に登録されている項目記載枠を検出する項目枠検出手段と、項目枠検出手段で検出された項目記載枠と同じ並びの右側または下側の文字枠で、項目名辞書に登録されていない文字または文字列のデータが記載されたデータ記載枠を検出するデータ枠検出手段と、項目枠検出手段で検出された項目記載枠とデータ枠検出手段で検出されたデータ記載枠とを対応付けるとともに、項目記載枠中に複数の項目名が記載され、かつ、データ記載枠中に複数のデータが記載されている場合に、その記載された順番に従って項目名とデータとを対応付けて識別するデータ識別手段とを備えている(特許文献1参照)。   In order to solve such a problem, a document reading apparatus disclosed in Patent Document 1 is disclosed. The document reading apparatus includes an image reading unit that reads image data of a document having a plurality of character frames divided by ruled lines into pixels, and a vertical direction and a horizontal direction from the image data read by the image reading unit. A ruled line extracting unit for extracting ruled lines, a character frame extracting unit for extracting a character frame surrounded by vertical and horizontal ruled lines extracted by the ruled line extracting unit, and a character frame extracted by the character frame extracting unit The character recognition means that recognizes the character or character string described in the above and converts it into a character code, and the item name dictionary in which the name of the item to be read is registered as the item name is recognized by the character recognition means. Item frame detection means for detecting an item description frame whose character or character string is registered in the item name dictionary, and characters on the right or lower side of the same line as the item description frame detected by the item frame detection means In a frame Data frame detection means for detecting data description frames in which data of characters or character strings not registered in the item name dictionary is described, and item description frames detected by the item frame detection means and detected by the data frame detection means In addition to associating with the data description frame, when multiple item names are described in the item description frame and multiple data are described in the data description frame, the item name and data are And data identification means for identifying them in association with each other (see Patent Document 1).

特開2000−29983号公報JP 2000-29983 A

前記特許文献1に開示の文書読取装置は、1つの文字枠の中に複数の項目名やデータが記載された非定型の帳票を読み取ることができる。しかし、この文書読取装置は、縦方向および横方向の罫線を抽出し、抽出した縦方向および横方向の罫線で囲まれた文字枠を抽出するとともに、抽出された文字枠の中に記載された文字または文字列を認識して文字コードに変換するから、読み取った帳票から最初に罫線情報を取得する必要がある。したがって、罫線がない帳票から罫線情報を取得することはできず、そのような帳票から文字または文字列を抽出することができない。   The document reading device disclosed in Patent Document 1 can read a non-standard form in which a plurality of item names and data are described in one character frame. However, this document reading device extracts the vertical and horizontal ruled lines, extracts the character frame surrounded by the extracted vertical and horizontal ruled lines, and describes the extracted character frame. Since a character or character string is recognized and converted into a character code, it is necessary to first obtain ruled line information from the read form. Therefore, ruled line information cannot be acquired from a form without a ruled line, and characters or character strings cannot be extracted from such a form.

本発明の目的は、罫線の有無にかかわらず、各種の形式で作られた各種複数の帳票に表示された各種複数のデータから必要な項目データおよび必要な時期データとそれらデータに対応する対応データとを抽出することができる帳票データ抽出システムを提供することにある。本発明の他の目的は、帳票に表示された各種複数のデータから不要な項目データや不要な時期データ、不要な対応データが抽出されることがなく、帳票に表示された各種複数のデータから必要な項目データおよび必要な時期データと必要な対応データとを自動的かつ短時間に抽出することができ、項目データや時期データ、対応データの抽出にかかる手間やコストを省くことができる帳票データ抽出システムを提供することにある。   The object of the present invention is to provide necessary item data and necessary time data from various data displayed on various forms created in various formats regardless of the presence or absence of ruled lines, and corresponding data corresponding to these data It is to provide a form data extraction system that can extract. Another object of the present invention is that unnecessary item data, unnecessary time data, and unnecessary corresponding data are not extracted from various data displayed on the form, and from various data displayed on the form. Necessary item data and necessary time data and necessary correspondence data can be extracted automatically and in a short time, and form data that can save labor and cost for extracting item data, time data and correspondence data To provide an extraction system.

前記課題を解決するための本発明の前提は、コンピュータ資源を利用し、各種の形式で作られた各種複数の帳票に表示された各種複数のデータから必要な項目データと項目データの帳票への表示時期を表す時期データとを抽出するとともに、項目データおよび時期データに対応する対応データを抽出する帳票データ抽出システムである。   The premise of the present invention to solve the above-mentioned problems is to use computer resources to convert necessary item data and item data to a form from various kinds of data displayed in various forms created in various formats. This is a form data extraction system that extracts time data representing display time and extracts corresponding data corresponding to item data and time data.

前記前提における本発明の特徴は、帳票データ抽出システムが、各種複数の帳票を読み取って各帳票の画像を取得する画像取得手段と、画像に含まれるすべての字列を取得する字列取得手段と、取得した字列からあらかじめ設定された項目キーワードと同一の字列を項目キーワード字列として抽出する項目キーワード字列抽出手段と、取得した字列からあらかじめ設定された時期キーワードと同一の字列を時期キーワード字列として抽出する時期キーワード字列抽出手段と、所定の選択条件を項目キーワード字列に適用し、選択条件を満たす項目キーワード字列を項目データとして選定する項目データ選定手段と、所定の選択条件を時期キーワード字列に適用し、選択条件を満たす時期キーワード字列を時期データとして選定する時期データ選定手段と、項目データ選定手段によって選定した項目データの帳票における位置を特定しつつ、位置が特定された項目データを抽出する項目データ抽出手段と、項目データ抽出手段によって位置が特定された項目データの近傍であって時期データ選定手段によって選定された時期データの帳票における位置を特定しつつ、位置が特定された時期データを抽出する時期データ抽出手段と、項目データ抽出手段によって位置が特定された項目データと時期データ抽出手段によって位置が特定された時期データとの交差領域に存在する字列を対応データとして抽出する対応データ抽出手段とを有することにある。   The feature of the present invention based on the above premise is that the form data extraction system acquires an image of each form by reading a plurality of various forms, and a character string acquisition means for acquiring all the character strings included in the image. Item keyword string extraction means for extracting the same character string as the item keyword preset from the acquired character string as the item keyword character string, and the same character string as the time keyword preset from the acquired character string A time keyword character string extracting means for extracting as a time keyword character string; an item data selecting means for applying a predetermined selection condition to the item keyword character string and selecting an item keyword character string satisfying the selection condition as item data; Time data that applies selection conditions to time keyword strings and selects time keyword strings that satisfy the selection conditions as time data Item data extracting means for extracting item data whose position is specified while specifying the position of the item data selected by the item data selecting means in the form, and item data whose position is specified by the item data extracting means The position of the time data selected by the time data selection means is specified in the form, and the position is specified by the item data extraction means and the time data extraction means for extracting the time data whose position is specified. There is a correspondence data extraction means for extracting a character string existing in an intersecting area between the item data and the time data whose position is specified by the time data extraction means as corresponding data.

本発明の一例としては、画像取得手段が各帳票のカラーイメージ画像の2値化画像と各帳票のカラーイメージ画像から特定の色情報を除去した画像の2値化画像と各帳票の白黒反転画像とを取得し、字列取得手段がカラーイメージ画像の2値化画像とカラーイメージ画像から特定の色情報を除去した画像の2値化画像と白黒反転画像とに含まれるすべての字列を取得する。   As an example of the present invention, a binary image of a color image image of each form, a binary image of an image obtained by removing specific color information from the color image image of each form, and a black and white inverted image of each form The character string acquisition means acquires all character strings included in the binary image of the color image image, the binary image of the image obtained by removing specific color information from the color image image, and the black-and-white inverted image To do.

本発明の他の一例としては、帳票データ抽出システムが、字列取得手段によって取得したそれら字列の字列テキストを作成する字列テキスト作成手段と、項目キーワード字列抽出手段と時期キーワード字列抽出手段とによって抽出した項目キーワード字列および時期キーワード字列のキーワード字列テキストを作成するキーワード字列テキスト作成手段とを含み、項目キーワード字列抽出手段と時期キーワード字列抽出手段とが字列テキストに存在する字列から項目キーワード字列と時期キーワード字列とを抽出し、項目データ選定手段と時期データ選定手段とがキーワード字列テキストに存在する項目キーワード字列および時期キーワード字列に選択条件を適用し、選択条件を満たす項目キーワード字列および時期キーワード字列を項目データおよび時期データとして選定する。   As another example of the present invention, the form data extraction system includes character string text creating means for creating character string text of those character strings obtained by the character string obtaining means, item keyword character string extracting means, and time keyword character string. A keyword string text creating means for creating a keyword string text of the item keyword string and the time keyword string extracted by the extracting means, and the item keyword string extracting means and the time keyword string extracting means are character strings The item keyword string and the time keyword string are extracted from the text existing in the text, and the item data selection means and the time data selection means are selected as the item keyword string and the time keyword string existing in the keyword string text. Apply the condition and select the item keyword string and the time keyword string that satisfy the selection condition. It is selected as the data and timing data.

本発明の他の一例としては、帳票データ抽出システムが字列取得手段によって取得したそれら字列を形成する1字毎の座標と縦横寸法とを取得する座標・寸法取得手段を含み、項目キーワード字列抽出手段と時期キーワード字列抽出手段とが、座標・寸法取得手段によって取得した字列の1字毎の縦横寸法を参照しつつ、項目キーワード字列および時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれと異なる場合、その字を含む字列を項目キーワード字列および時期キーワード字列から除外する。   As another example of the present invention, the form data extraction system includes coordinate / size acquisition means for acquiring the coordinates and vertical / horizontal dimensions for each character forming the character strings acquired by the character string acquisition means, and the item keyword character The column extraction means and the time keyword character string extraction means refer to the vertical and horizontal dimensions for each character of the character string acquired by the coordinate / size acquisition means, and the predetermined character of the item keyword character string and the time keyword character string. When the vertical and horizontal dimensions of the character are different from those of other characters, the character string including the character is excluded from the item keyword character string and the time keyword character string.

本発明の他の一例としては、帳票データ抽出システムが項目キーワードに対応する対応データの形式を各項目キーワード毎に定義する対応データ形式定義手段を含み、対応データ抽出手段が対応データ形式定義手段によって定義された形式に合致した対応データを抽出する。   As another example of the present invention, the form data extracting system includes corresponding data format defining means for defining the format of corresponding data corresponding to the item keyword for each item keyword, and the corresponding data extracting means is defined by the corresponding data format defining means. Extract correspondence data that matches the defined format.

本発明の他の一例としては、項目キーワード字列抽出手段と時期キーワード字列抽出手段とが、抽出した項目キーワード字列および時期キーワード字列を囲繞する矩形座標とその矩形座標の縦横寸法とを取得し、所定の項目キーワード字列および所定の時期キーワード字列の矩形座標の縦横寸法があらかじめ設定した矩形座標の縦横寸法未満または縦横寸法を超過する場合、その矩形座標に囲繞された字列を項目キーワード字列および時期キーワード字列から除外する。   As another example of the present invention, the item keyword character string extracting means and the time keyword character string extracting means determine the rectangular coordinates surrounding the extracted item keyword character string and the time keyword character string, and the vertical and horizontal dimensions of the rectangular coordinates. If the vertical and horizontal dimensions of the rectangular coordinates of the specified item keyword character string and the predetermined time keyword character string are less than the vertical and horizontal dimensions of the rectangular coordinates set in advance or exceed the vertical and horizontal dimensions, the character string enclosed by the rectangular coordinates is acquired. Exclude from item keyword strings and time keyword strings.

本発明の他の一例として、字列テキスト作成手段によって作成された字列テキストには、座標・寸法取得手段によって取得した座標と縦横寸法とが含まれ、項目キーワード字列抽出手段と時期キーワード字列抽出手段とが、字列テキストから項目キーワード字列および時期キーワード字列の1字毎の座標と縦横寸法とを取得するとともに、項目キーワード字列および時期キーワード字列の1字毎の座標と縦横寸法とを利用して項目キーワード字列および時期キーワード字列の矩形座標とその矩形座標の縦横寸法とを取得する。   As another example of the present invention, the character string text created by the character string text creating means includes the coordinates and vertical and horizontal dimensions acquired by the coordinate / dimension acquiring means, and the item keyword character string extracting means and the time keyword character The column extracting means obtains the coordinates and vertical and horizontal dimensions of the item keyword character string and the time keyword character string from the character string text, and the coordinates for each character of the item keyword character string and the time keyword character string. Using the vertical and horizontal dimensions, the rectangular coordinates of the item keyword character string and the time keyword character string and the vertical and horizontal dimensions of the rectangular coordinates are acquired.

本発明の他の一例としては、項目データ選定手段における選択条件が、各項目キーワード字列を比較するとともに各項目キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の項目キーワード字列が複数存在する場合、1つの項目キーワード字列を項目データとして採用し、その他の項目キーワード字列を削除し、時期データ選定手段における選択条件が、各時期キーワード字列を比較するとともに各時期キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の時期キーワード字列が複数存在する場合、1つの時期キーワード字列を時期データとして採用し、その他の時期キーワード字列を削除する。   As another example of the present invention, the selection condition in the item data selection means compares each item keyword character string and also compares the rectangular coordinates of each item keyword character string, and the same item keyword existing at the same rectangular coordinate When there are multiple character strings, one item keyword character string is adopted as item data, the other item keyword character strings are deleted, and the selection conditions in the time data selection means compare each time keyword character string and When the rectangular coordinates of the period keyword strings are compared, and there are multiple identical period keyword strings that exist at the same rectangular coordinates, one period keyword string is used as the period data, and the other period keyword strings are delete.

本発明の他の一例としては、項目データ選定手段における選択条件が、1つの項目キーワード字列の中に字数の多い項目キーワード字列と字数の少ない項目キーワード字列とが含まれる場合、字数の多い項目キーワード字列と同一の項目キーワード字列を項目データとして採用し、時期データ選定手段における選択条件が、1つの時期キーワード字列の中に字数の多い時期キーワード字列と字数の少ない時期キーワード字列とが含まれる場合、字数の多い時期キーワード字列と同一の時期キーワード字列を時期データとして採用する。   As another example of the present invention, when the selection condition in the item data selection means includes an item keyword character string with a large number of characters and an item keyword character string with a small number of characters in one item keyword character string, The same item keyword character string as many item keyword character strings is adopted as item data, and the selection condition in the time data selection means is a time keyword character string with a large number of characters in one time keyword character string and a time keyword with a small number of characters. When a character string is included, the same time keyword character string as the time keyword character string having a large number of characters is adopted as the time data.

本発明の他の一例としては、項目データ選定手段における選択条件が、1つの項目キーワード字列の中に字列が重なる複数の項目キーワード字列が含まれる場合、横書きの項目キーワード字列では1番左に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、縦書きの項目キーワード字列では1番上に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、時期データ選定手段における選択条件が、1つの時期キーワード字列の中に字列が重なる複数の時期キーワード字列が含まれる場合、横書きの時期キーワード字列では1番左に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除し、縦書きの時期キーワード字列では1番上に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除する。   As another example of the present invention, when the selection condition in the item data selection means includes a plurality of item keyword strings in which character strings overlap in one item keyword character string, 1 for horizontal item keyword strings The item keyword character string located on the left is adopted as the item data while the other item keyword character strings are deleted, and the item keyword character string located at the top is adopted as the item data in the vertical item keyword character string. While the other item keyword strings are deleted and the selection condition in the period data selection means includes a plurality of period keyword strings in which the period strings overlap in one period keyword string, the horizontally written period keyword strings Now, the time keyword string located at the left is adopted as the time data, while the other time keyword strings are deleted, and the vertical time key In over de string to remove the other time keyword string of while adopting the time keyword string which is located at the top as time data.

本発明の他の一例として、時期データ抽出手段では、項目データ抽出手段によって位置が特定された項目データから最も近くであって、その項目データの右方かつその項目データの上方の矩形座標を時期データ選定手段によって選定された時期データの位置として定義し、対応データ抽出手段が、項目データ抽出手段によって位置が特定された項目データの矩形座標から右方に延ばした座標軸と時期データ抽出手段によって位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中に存在する字列を対応データとして抽出する。   As another example of the present invention, the time data extracting means uses the rectangular coordinates closest to the item data whose position is specified by the item data extracting means and to the right of the item data and above the item data. It is defined as the position of the time data selected by the data selecting means, and the corresponding data extracting means is positioned by the coordinate axis extending to the right from the rectangular coordinates of the item data whose position is specified by the item data extracting means and the time data extracting means. The character string existing in the rectangular coordinates of the intersecting region where the coordinate axis extending downward from the rectangular coordinates of the specified time data is extracted as corresponding data.

本発明の他の一例として、時期データ抽出手段では、項目データ抽出手段によって位置が特定された項目データから最も近くであって、その項目データの右方かつその項目データの上方の矩形座標を時期データ選定手段によって選定された時期データの位置として定義し、対応データ抽出手段が、項目データ抽出手段によって位置が特定された項目データの矩形座標から右方に延ばした座標軸と時期データ抽出手段によって位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域において項目データの縦横寸法のいずれか一方と時期データの縦横寸法のいずれか他方とを採用した矩形座標を設定し、その矩形座標の中に存在する字列を対応データとして抽出する。   As another example of the present invention, the time data extracting means uses the rectangular coordinates closest to the item data whose position is specified by the item data extracting means and to the right of the item data and above the item data. It is defined as the position of the time data selected by the data selecting means, and the corresponding data extracting means is positioned by the coordinate axis extending to the right from the rectangular coordinates of the item data whose position is specified by the item data extracting means and the time data extracting means. In the intersecting area where the coordinate axis extending downward from the rectangular coordinate of the specified time data intersects, set the rectangular coordinate that adopts either the vertical or horizontal dimension of the item data and the vertical or horizontal dimension of the time data The character string existing in the rectangular coordinates is extracted as corresponding data.

本発明の他の一例としては、項目データ抽出手段が、項目データ選定手段によって選定した項目データのうち、同一の第1項目データが異なる矩形座標に存在する場合、それら第1項目データを中心に縦方向と横方向とのいずれか一方へ向かって第1項目データと同一のカテゴリーに含まれる他の第2項目データを検索し、第1項目データを中心として縦方向または横方向へ並ぶ第2項目データの多少を判断しつつ、第2項目データが多く並ぶ方の第1項目データを項目データとして抽出し、抽出した項目データの矩形座標を帳票における項目データの位置とする。   As another example of the present invention, when the item data extraction unit has the same first item data at different rectangular coordinates among the item data selected by the item data selection unit, the item data extraction unit focuses on the first item data. Search for other second item data included in the same category as the first item data in either the vertical direction or the horizontal direction, and the second items arranged in the vertical direction or the horizontal direction centering on the first item data The first item data in which more second item data are arranged is extracted as item data while judging the amount of item data, and the rectangular coordinates of the extracted item data are set as the position of the item data in the form.

本発明の他の一例としては、帳票データ抽出システムが、項目データおよび時期データに関連する各種複数のカテゴリーと、それらカテゴリーにつながって項目データに関連する各種複数の項目キーワードと、それらカテゴリーにつながって時期データに関連する各種複数の時期キーワードとから形成されたツリー構造辞書を記憶する辞書記憶手段を含み、帳票データ抽出システムでは、カテゴリーと項目キーワードと時期キーワードとを何時でも任意に追加・変更・削除可能である。   As another example of the present invention, the form data extraction system includes a plurality of categories related to item data and time data, a plurality of item keywords related to the item data connected to the categories, and a connection to the categories. Including a dictionary storage means for storing a tree structure dictionary formed from various time keywords related to time data, and the form data extraction system can arbitrarily add / change categories, item keywords, and time keywords at any time・ Can be deleted.

本発明の他の一例としては、ツリー構造辞書が、それら項目キーワードにつながって各項目キーワードに関連する類似項目キーワードと、それら時期キーワードにつながって各時期キーワードに関連する類似時期キーワードとを含み、項目キーワード字列抽出手段が、取得した字列から項目キーワードおよび類似項目キーワードと同一の字列を項目キーワード字列として抽出し、時期キーワード字列抽出手段が、取得した字列から時期キーワードおよび類似時期キーワードと同一の字列を時期キーワード字列として抽出する。   As another example of the present invention, the tree structure dictionary includes similar item keywords related to the item keywords connected to the item keywords, and similar time keywords related to the time keywords connected to the time keywords, The item keyword string extraction means extracts the same character string as the item keyword and similar item keyword from the acquired character string as the item keyword character string, and the time keyword string extraction means extracts the time keyword and similar from the acquired character string. The same character string as the time keyword is extracted as the time keyword character string.

本発明の他の一例としては、帳票が各種の形式で作られた非定型の複数の健康診断表であり、項目データが健康診断表に表示された検査項目データであり、時期データが健康診断表に表示された検査時期データであり、対応データが検査項目データと検査時期データとに対応する検査結果データである。   As another example of the present invention, the form is a plurality of atypical health checkup tables created in various formats, the item data is inspection item data displayed on the health checkup table, and the time data is a health checkup The inspection time data is displayed in the table, and the corresponding data is inspection result data corresponding to the inspection item data and the inspection time data.

本発明にかかる帳票データ抽出システムによれば、読み取った帳票の画像に含まれるすべての字列を取得し、取得した字列から項目キーワード字列および時期キーワード字列を抽出し、選択条件を満たす項目キーワード字列や時期キーワード字列を項目データおよび時期データとして選定するとともに、選定した項目データの帳票における位置を特定しつつ、位置が特定された項目データを抽出し、選定された時期データの前記帳票における位置を特定しつつ、位置が特定された時期データを抽出し、抽出した項目データと抽出した時期データとの交差領域に存在する字列を対応データとして抽出するから、取得した帳票の字列のみから必要な項目データや時期データを抽出することができ、罫線の有無にかかわらず、各種の形式で作られた各種複数の帳票に表示された各種複数のデータから必要な項目データおよび時期データとそれらデータに対応する対応データとを抽出することができる。帳票データ抽出システムは、各種複数の帳票を読み取るだけで、帳票に表示された必要な項目データおよび時期データと必要な対応データとを抽出することができるから、帳票に表示された各種複数のデータから項目キーワードに対応しつつ選択条件を満たした必要な項目データを自動的かつ短時間に抽出することができ、時期キーワードに対応しつつ選択条件を満たした必要な時期データを自動的かつ短時間に抽出することができる。帳票データ抽出システムは、項目キーワードや時期キーワード、選択条件を利用することで、帳票に表示された各種複数のデータからの不要な項目データや不要な時期データの抽出を防ぐことができ、不要な項目データや不要な時期データに対応する対応データの抽出を防ぐことができるとともに、時期がずれた対応データの抽出を防ぐことができる。帳票データ抽出システムは、社員が帳票に表示されたデータを入力装置を介して入力する必要はなく、項目データや時期データ、対応データの入力や抽出にかかる時間やコストを省くことができるとともに、帳票に表示されたデータを入力することによる項目データや時期データ、対応データの選別ミスや入力ミスの発生を防ぐことができる。   According to the form data extraction system according to the present invention, all the character strings included in the read form image are acquired, the item keyword character string and the time keyword character string are extracted from the acquired character strings, and the selection condition is satisfied. While selecting item keyword strings and time keyword strings as item data and time data, while extracting the position of the selected item data in the form, the item data with the specified position is extracted, and the selected time data While identifying the position in the form, the time data for which the position is specified is extracted, and the character string existing in the intersection area between the extracted item data and the extracted time data is extracted as the corresponding data. Necessary item data and time data can be extracted only from the character string, and it was created in various formats with or without ruled lines. It can be extracted and the corresponding data corresponding to the item data and timing data and their required data from the various plurality of data displayed on the species plurality of form. The form data extraction system can extract the necessary item data and time data displayed on the form and the necessary corresponding data by simply reading the various forms, so the various data displayed on the form can be extracted. Necessary item data that satisfies the selection condition while corresponding to the item keyword can be extracted automatically and in a short time, and necessary period data that satisfies the selection condition while corresponding to the time keyword is automatically and quickly extracted Can be extracted. By using item keywords, time keywords, and selection conditions, the form data extraction system can prevent unnecessary item data and unnecessary time data from being extracted from multiple types of data displayed on the form. Extraction of corresponding data corresponding to item data and unnecessary time data can be prevented, and extraction of corresponding data out of time can be prevented. The form data extraction system eliminates the need for employees to input the data displayed on the form via an input device, saves time and costs for the input and extraction of item data, time data, and corresponding data. It is possible to prevent occurrence of selection errors and input mistakes of item data, time data, and corresponding data caused by inputting data displayed on the form.

各帳票のカラーイメージ画像の2値化画像と各帳票のカラーイメージ画像から特定の色情報を除去した画像の2値化画像と各帳票の白黒反転画像とを取得し、カラーイメージ画像の2値化画像とカラーイメージ画像から特定の色情報を除去した画像の2値化画像と白黒反転画像とに含まれるすべての字列を取得する帳票データ抽出システムは、各帳票をカラーイメージ画像やカラーイメージ画像から特定の色情報を除去した画像の2値化画像、白黒反転画像として取得し、それら画像に含まれるすべての字列を取得するから、帳票に表示された字列の抽出不足を防ぐことができ、帳票からそれに表示された字列のすべてを取得することができる。帳票データ抽出システムは、帳票に表示された字列のすべてを取得することができるから、それら字列を利用して帳票に表示された各種複数のデータから必要な項目データと必要な対応データとを漏らすことなく抽出することができる。   A binary image of a color image image of each form, a binary image of an image obtained by removing specific color information from the color image image of each form, and a black-and-white inverted image of each form are obtained, and the binary of the color image image A form data extraction system that obtains all character strings contained in a binary image and a black-and-white inverted image of an image obtained by removing specific color information from a digitized image and a color image image. Obtained as a binary image or black-and-white inverted image of an image from which specific color information has been removed from the image, and obtains all character strings contained in those images, thus preventing insufficient extraction of the character strings displayed in the form You can get all of the strings displayed on it from the form. Since the form data extraction system can acquire all of the character strings displayed on the form, the necessary item data and the necessary corresponding data from the various data displayed on the form using these character strings Can be extracted without leaking.

取得したそれら字列の字列テキストと抽出した項目キーワード字列および時期キーワード字列のキーワード字列テキストとを作成し、字列テキストに存在する字列から項目キーワード字列と時期キーワード字列とを抽出するとともに、キーワード字列テキストに存在する項目キーワード字列および時期キーワード字列に選択条件を適用し、選択条件を満たす項目キーワード字列および時期キーワード字列を項目データおよび時期データとして選定する帳票データ抽出システムは、帳票から取得した各種複数の字列が存在する字列テキストを利用することで、取得した字列から項目キーワードや時期キーワードと同一のすべての項目キーワード字列および時期キーワード字列を漏らすことなく確実に抽出することができ、項目キーワード字列および時期キーワード字列が存在するキーワード字列テキストを利用することで、抽出した項目キーワード字列および時期キーワード字列から選択条件を満たす項目データや時期データを漏らすことなく選定することができる。   Create the character string text of those character strings and the keyword character string text of the extracted item keyword character string and the time keyword character string, and the item keyword character string and the time keyword character string from the character string existing in the character string text. Are extracted, and the selection condition is applied to the item keyword string and the period keyword string existing in the keyword string text, and the item keyword string and the period keyword string satisfying the selection condition are selected as the item data and the period data. The form data extraction system uses string text that contains multiple strings obtained from a form, so that all item keyword strings and time keyword letters that are the same as item keywords and time keywords from the obtained strings. It can be extracted reliably without leaking columns, By using the keyword string text is present beauty timing keyword string, it can be selected without the extracted item keyword string and timing keyword string to leak selection criteria item data and timing data.

取得したそれら字列を形成する1字毎の座標と縦横寸法とを取得し、取得した字列の1字毎の縦横寸法を参照しつつ、項目キーワード字列および時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれと異なる場合、その字を含む字列を項目キーワード字列および時期キーワード字列から除外する帳票データ抽出システムは、字列の中の所定の字の縦横寸法が他の字のそれよりも大きくまたは他の字のそれよりも小さい場合、その字を含む字列が正常でない可能性が高く、その字を含む字列を項目キーワード字列および時期キーワード字列から除外することで、取得した字列から必要かつ適正な項目キーワード字列および時期キーワード字列を抽出することができ、その結果、帳票に表示された各種複数のデータから必要な項目データおよび必要な時期データとそれらデータに対応する必要な対応データとを確実に抽出することができる。   Acquire the coordinates and vertical and horizontal dimensions of each character that form the acquired character strings, and refer to the vertical and horizontal dimensions of each character of the acquired character strings, and select a predetermined one of the item keyword character string and the time keyword character string. If the vertical and horizontal dimensions of the character are different from those of other characters, the form data extraction system that excludes the character string that includes the character from the item keyword character string and the time keyword character string is the vertical and horizontal dimension of the given character in the character string. If is larger than that of other characters or smaller than that of other characters, it is highly likely that the character string that contains the character is not normal, and the character string that includes that character is the item keyword character string and the time keyword character string. The necessary and appropriate item keyword strings and time keyword strings can be extracted from the acquired strings, and as a result, necessary item data can be extracted from the various data displayed in the form. And required time data and the required corresponding data corresponding to these data can be reliably extracted.

項目キーワードに対応する対応データの形式を各項目キーワード毎に定義し、定義された形式に合致した対応データを抽出する帳票データ抽出システムは、項目キーワードの種類によって対応データの形式が異なる場合、項目キーワードに対応する対応データの形式を各項目キーワード毎に定義し、形式に合致した対応データのみを抽出することで、定義された形式以外の形式の対応データが抽出されることはなく、項目キーワード(項目データ)に確実に対応した対応データのみを抽出することができ、必要な対応データを確実に抽出することができる。   A form data extraction system that defines the format of the corresponding data corresponding to the item keyword for each item keyword and extracts the corresponding data that matches the defined format. By defining the format of the corresponding data corresponding to the keyword for each item keyword and extracting only the corresponding data that matches the format, the corresponding data in a format other than the defined format is not extracted, and the item keyword Only the corresponding data corresponding to (item data) can be extracted reliably, and the necessary corresponding data can be extracted reliably.

抽出した項目キーワード字列および時期キーワード字列を囲繞する矩形座標とその矩形座標の縦横寸法とを取得し、所定の項目キーワード字列および所定の時期キーワード字列の矩形座標の縦横寸法があらかじめ設定した矩形座標の縦横寸法未満または縦横寸法を超過する場合、その矩形座標に囲繞された字列を項目キーワード字列および時期キーワード字列から除外する帳票データ抽出システムは、項目キーワード字列や時期キーワード字列を囲繞する矩形座標の縦横寸法が設定された矩形座標のそれよりも小さくまたは設定された矩形座標のそれよりも大きい場合、その矩形座標に囲繞された字列が正常でない可能性が高く、その矩形座標に囲繞された字列を項目キーワード字列および時期キーワード字列から除外することで、取得した字列から必要かつ適正な項目キーワード字列および時期キーワード字列を抽出することができ、その結果、帳票に表示された各種複数のデータから必要な項目データおよび必要な時期データとそれらデータに対応する必要な対応データとを確実に抽出することができる。   Get the rectangular coordinates surrounding the extracted item keyword string and time keyword string and the vertical and horizontal dimensions of the rectangular coordinate, and set the vertical and horizontal dimensions of the rectangular coordinates of the predetermined item keyword string and predetermined time keyword string in advance The form data extraction system that excludes the character string enclosed by the rectangular coordinate from the item keyword character string and the time keyword character string when the rectangular coordinate is less than the vertical and horizontal dimensions or exceeds the vertical and horizontal dimensions, the item keyword character string and the time keyword If the vertical and horizontal dimensions of the rectangular coordinates that enclose the character string are smaller than that of the set rectangular coordinates or larger than that of the set rectangular coordinates, the character string enclosed by the rectangular coordinates is likely not normal. , Obtained by excluding the character string surrounded by the rectangular coordinates from the item keyword character string and the time keyword character string Necessary and appropriate item keyword character strings and time keyword character strings can be extracted from the columns, and as a result, necessary item data and necessary time data from various types of data displayed in the form and corresponding to those data Necessary correspondence data can be reliably extracted.

取得した座標と縦横寸法とが字列テキストに含まれ、字列テキストから項目キーワード字列および時期キーワード字列の1字毎の座標と縦横寸法とを取得するとともに、項目キーワード字列および時期キーワード字列の1字毎の座標と縦横寸法とを利用して項目キーワード字列および時期キーワード字列の矩形座標とその矩形座標の縦横寸法とを取得する帳票データ抽出システムは、字列テキストに存在する1字毎の座標を利用することで、各項目キーワード字列および各時期キーワード字列の矩形座標を容易に取得することができ、字列テキストに存在する1字毎の縦横寸法を利用することで、各項目キーワード字列および各時期キーワード字列の矩形座標の縦横寸法を容易に取得することができる。帳票データ抽出システムは、字列テキストに存在する1字毎の縦横寸法を利用することで、各字を含む字列の正常または異常を容易に判断することができ、キーワード字列テキストに存在する矩形座標の縦横寸法を利用することで、項目キーワード字列および時期キーワード字列の正常または異常を容易に判断することができる。   The acquired coordinates and vertical and horizontal dimensions are included in the text string, and the coordinates and vertical and horizontal dimensions for each character of the item keyword character string and time keyword character string are acquired from the character string text, and the item keyword character string and time keyword are acquired. A form data extraction system that obtains the rectangular coordinates of item keyword strings and time keyword strings and the vertical and horizontal dimensions of the rectangular coordinates using the coordinates and vertical and horizontal dimensions of each character of the character string exists in the character string text. By using the coordinates for each character, the rectangular coordinates of each item keyword character string and each time keyword character string can be easily obtained, and the vertical and horizontal dimensions for each character existing in the character string text are used. Thus, the vertical and horizontal dimensions of the rectangular coordinates of each item keyword character string and each time keyword character string can be easily obtained. The form data extraction system can easily determine whether a character string including each character is normal or abnormal by using vertical and horizontal dimensions of each character existing in the character string text, and exists in the keyword character string text. By using the vertical and horizontal dimensions of the rectangular coordinates, it is possible to easily determine whether the item keyword character string and the time keyword character string are normal or abnormal.

各項目キーワード字列を比較するとともに各項目キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の項目キーワード字列が複数存在する場合、1つの項目キーワード字列を項目データとして採用し、その他の項目キーワード字列を削除し、各時期キーワード字列を比較するとともに各時期キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の時期キーワード字列が複数存在する場合、1つの時期キーワード字列を時期データとして採用し、その他の時期キーワード字列を削除する帳票データ抽出システムは、同一の矩形座標に同一の項目キーワード字列が複数存在し、それらすべてを項目キーワード字列として採用した場合、同一である複数の項目データを抽出することになり、それら項目データに対応する複数の対応データが抽出され、最適な項目データや最適な対応データを抽出することができないが、1つの項目キーワード字列を項目データとして採用し、その他の項目キーワード字列を削除することで、他の同一である項目データを排除することができ、帳票に表示された各種複数のデータから必要かつ適切な1つの項目データのみを抽出することができる。帳票データ抽出システムは、同一の矩形座標に同一の時期キーワード字列が複数存在し、それらすべてを時期キーワード字列として採用した場合、同一である複数の時期データを抽出することになり、それら時期データに対応する複数の対応データが抽出され、最適な時期データや最適な対応データを抽出することができないが、1つの時期キーワード字列を時期データとして採用し、その他の時期キーワード字列を削除することで、他の同一である時期データを排除することができ、帳票に表示された各種複数のデータから必要かつ適切な1つの時期データのみを抽出することができる。   Each item keyword string is compared and the rectangular coordinates of each item keyword string are compared. If there are multiple identical item keyword strings existing at the same rectangular coordinate, one item keyword string is used as item data. Adopt, delete other items keyword strings, compare each period keyword string and compare the rectangular coordinates of each period keyword string, and there are multiple same period keyword strings existing at the same rectangular coordinates In this case, a form data extraction system that employs one time keyword string as time data and deletes other time keyword strings has a plurality of the same item keyword strings in the same rectangular coordinates. When it is adopted as an item keyword character string, multiple items of the same item data will be extracted, corresponding to those item data It is not possible to extract the optimum item data or the optimum correspondence data, but by adopting one item keyword string as item data and deleting the other item keyword strings The other item data that is the same can be excluded, and only one item data that is necessary and appropriate can be extracted from the various data displayed in the form. If the form data extraction system has the same period keyword character strings in the same rectangular coordinates and all of them are adopted as the time keyword character strings, the same time period data will be extracted. Multiple correspondence data corresponding to the data is extracted, and it is not possible to extract the optimum time data or the optimum correspondence data, but one time keyword string is adopted as the time data and the other time keyword strings are deleted. By doing so, it is possible to exclude other identical time data, and it is possible to extract only one necessary and appropriate time data from a plurality of various data displayed on the form.

1つの項目キーワード字列の中に字数の多い項目キーワード字列と字数の少ない項目キーワード字列とが含まれる場合、字数の多い項目キーワード字列と同一の項目キーワード字列を項目データとして採用し、1つの時期キーワード字列の中に字数の多い時期キーワード字列と字数の少ない時期キーワード字列とが含まれる場合、字数の多い時期キーワード字列と同一の時期キーワード字列を時期データとして採用する帳票データ抽出システムは、字数の多い項目キーワードと同一の項目キーワード字列が必要かつ適切な項目データである確率が高く、1つの項目キーワード字列の中に字数の多い項目キーワードと字数の少ない項目キーワードとが含まれる場合、字数の多い項目キーワードと同一の項目キーワード字列を項目データとすることで、1つのキーワード字列に含まれる不要な項目データを排除することができ、帳票に表示された各種複数のデータから必要な項目データのみを抽出することができる。帳票データ抽出システムは、字数の多い時期キーワードと同一の時期キーワード字列が必要かつ適切な時期データである確率が高く、1つの時期キーワード字列の中に字数の多い時期キーワードと字数の少ない時期キーワードとが含まれる場合、字数の多い時期キーワードと同一の時期キーワード字列を時期データとすることで、1つのキーワード字列に含まれる不要な時期データを排除することができ、帳票に表示された各種複数のデータから必要な時期データのみを抽出することができる。   If an item keyword string with a large number of characters and an item keyword string with a small number of characters are included in one item keyword string, the same item keyword string as the item keyword string with a large number of characters is used as the item data. When one keyword keyword string contains a period keyword string with a large number of characters and a period keyword string with a small number of characters, the same period keyword string as the period keyword string with a large number of characters is used as the period data. The form data extraction system to be used has a high probability that the same item keyword character string as the item keyword having a large number of characters is necessary and appropriate, and the item keyword having a large number of characters and the number of characters in a single item keyword character string are small. If an item keyword is included, the item keyword string that is the same as the item keyword with many characters is used as the item data. In, it is possible to extract only one keyword-shaped unnecessary item data contained in the column can be eliminated, items necessary data from various plurality of data displayed in the form. There is a high probability that the form data extraction system requires the same period keyword string as the period keyword with a large number of characters, and the appropriate period data is high. The period keyword with a large number of characters and the period with a small number of characters in one period keyword string If a keyword is included, the same period keyword string as the period keyword with many characters is used as the period data, and unnecessary period data included in one keyword string can be eliminated and displayed in the form. Only necessary time data can be extracted from the various data.

1つの項目キーワード字列の中に字列が重なる複数の項目キーワード字列が含まれる場合、横書きの項目キーワード字列では1番左に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、縦書きの項目キーワード字列では1番上に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、1つの時期キーワード字列の中に字列が重なる複数の時期キーワード字列が含まれる場合、横書きの時期キーワード字列では1番左に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除し、縦書きの時期キーワード字列では1番上に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除する帳票データ抽出システムは、横書きの項目キーワード字列において1番左に位置する項目キーワード字列が必要かつ適切な項目データである確率が高く、縦書きの項目キーワード字列において1番上に位置する項目キーワード字列が必要かつ適切な項目データである確率が高く、1つのキーワード字列の中に字列が重なる複数の項目キーワード字列が含まれる場合、横書きの項目キーワード字列では1番左に位置する項目キーワード字列を項目データとし、縦書きの項目キーワード字列では1番上に位置する項目キーワード字列を項目データとすることで、横書きまたは縦書きの1つの項目キーワード字列に含まれる不要な項目データを排除することができ、帳票に表示された各種複数のデータから必要な項目データのみを抽出することができる。帳票データ抽出システムは、横書きの時期キーワード字列において1番左に位置する時期キーワード字列が必要かつ適切な時期データである確率が高く、縦書きの時期キーワード字列において1番上に位置する時期キーワード字列が必要かつ適切な時期データである確率が高く、1つのキーワード字列の中に字列が重なる複数の時期キーワード字列が含まれる場合、横書きの時期キーワード字列では1番左に位置する時期キーワード字列を時期データとし、縦書きの時期キーワード字列では1番上に位置する時期キーワード字列を時期データとすることで、横書きまたは縦書きの1つの時期キーワード字列に含まれる不要な時期データを排除することができ、帳票に表示された各種複数のデータから必要な時期データのみを抽出することができる。   When a plurality of item keyword strings with overlapping character strings are included in one item keyword string, the item keyword string positioned at the leftmost in the horizontally written item keyword string is used as the item data. The item keyword string is deleted. In the vertically written item keyword string, the item keyword string positioned at the top is adopted as the item data while deleting the other item keyword strings. When multiple time keyword strings with overlapping character strings are included, the horizontal time keyword character string adopts the time keyword character string located at the leftmost position as time data and deletes other time keyword character strings. In the vertical writing time keyword string, the time keyword character string located at the top is adopted as the time data while other time keyword character strings are used. The form data extraction system to be deleted has a high probability that the item keyword character string located at the leftmost in the horizontally written item keyword character string is necessary and appropriate item data, and the item keyword character string vertically written has the highest probability. If there is a high probability that the item keyword string that is located is necessary and appropriate item data, and there are a plurality of item keyword strings that overlap in one keyword string, the horizontal item keyword string is 1 The item keyword character string located on the left is used as item data, and the item keyword character string located at the top of the item keyword character string written vertically is used as the item data, so that one item keyword character written horizontally or vertically is used. Unnecessary item data included in columns can be eliminated, and only necessary item data is extracted from various data displayed in the form. It is possible. The form data extraction system has a high probability that the time keyword character string located at the leftmost position in the horizontal writing time keyword character string is necessary and appropriate, and is positioned at the top in the vertical writing time character character string. There is a high probability that a time keyword string is necessary and appropriate, and there are multiple time keyword strings with overlapping character strings in one keyword string. The time keyword character string located in is used as time data, and the time keyword character string located in the top position is used as the time data in the vertical writing time keyword character string, so that one time keyword character string written in horizontal or vertical writing is used. Unnecessary time data included can be eliminated, and only necessary time data can be extracted from various data displayed on the form. That.

位置が特定された項目データから最も近くであって、その項目データの右方かつその項目データの上方の矩形座標を時期データの位置として定義し、位置が特定された項目データの矩形座標から右方に延ばした座標軸と位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中に存在する字列を対応データとして抽出する帳票データ抽出システムは、位置が特定された項目データから最も近い位置であって、その項目データの右方かつその項目データの上方の矩形座標の中の字列が時期データである確率が高く、その字列を時期データと定義することで、項目データの帳票への正確な表示時期を取得することができる。帳票データ抽出システムは、位置が特定された項目データの矩形座標から右方に延ばした座標軸と位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中の字列が項目データに対応する対応データである確率が高く、その字列を対応データとすることで、必要な項目データと必要な時期データとに対応する正確な対応データを抽出することができる。   Define the rectangular coordinates that are closest to the item data whose position is specified and are to the right of the item data and above the item data as the position of the timing data, and to the right from the rectangular coordinates of the item data whose position is specified The form data extraction system that extracts the character string existing in the rectangular coordinates of the intersecting area where the coordinate axis extending downward and the coordinate axis extending downward from the rectangular coordinate of the time data whose position is specified, as correspondence data, There is a high probability that the character string in the rectangular coordinates to the right of the item data and above the item data is the time data, and the character string is the time data. By defining the above, it is possible to acquire the accurate display time of the item data on the form. The form data extraction system uses the rectangular coordinate of the intersecting area where the coordinate axis extending to the right from the rectangular coordinate of the item data whose position is specified intersects with the coordinate axis extending downward from the rectangular coordinate of the time data whose position is specified. There is a high probability that the character string in the list corresponds to the data corresponding to the item data, and by using the character string as the corresponding data, the correct corresponding data corresponding to the required item data and the required time data is extracted. Can do.

位置が特定された項目データから最も近くであって、その項目データの右方かつその項目データの上方の矩形座標を時期データの位置として定義し、位置が特定された項目データの矩形座標から右方に延ばした座標軸と位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域においてその項目データの縦横寸法のいずれか一方とその時期データの縦横寸法のいずれか他方とを採用した矩形座標を設定し、その矩形座標の中に存在する字列を対応データとして抽出する帳票データ抽出システム位置が特定された項目データから最も近い位置であって、その項目データの右方かつその項目データの上方の矩形座標の中の字列が時期データである確率が高く、その字列を時期データと定義することで、項目データの帳票への正確な表示時期を取得することができる。帳票データ抽出システムは、位置が特定された項目データの矩形座標から右方に延ばした座標軸と位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域においてその項目データの縦横寸法のいずれか一方とその時期データの縦横寸法のいずれか他方とを採用した矩形座標を決定し、その矩形座標の中に存在する字列が対応データである確率が高く、その字列を対応データとすることで、必要な項目データと必要な時期データとに対応する正確な対応データを抽出することができる。   Define the rectangular coordinates that are closest to the item data whose position is specified and are to the right of the item data and above the item data as the position of the timing data, and to the right from the rectangular coordinates of the item data whose position is specified In the intersecting area where the coordinate axis extended in the direction intersects with the coordinate axis extended downward from the rectangular coordinate of the time data whose position was specified, either one of the vertical and horizontal dimensions of the item data and the other of the vertical and horizontal dimensions of the time data The form data extraction system that sets a rectangular coordinate that adopts and extracts the character string existing in the rectangular coordinate as the corresponding data is the position closest to the specified item data, and to the right of the item data On the other hand, there is a high probability that the character string in the rectangular coordinates above the item data is time data, and by defining the character string as time data, the item data It is possible to get an accurate display timing of the vote. The form data extraction system uses the item data in the intersection region where the coordinate axis extending to the right from the rectangular coordinates of the item data whose position is specified intersects with the coordinate axis extending downward from the rectangular coordinates of the time data whose position is specified. The rectangular coordinates that adopt either one of the vertical and horizontal dimensions and the other of the vertical and horizontal dimensions of the time data are determined, and it is highly probable that the character string existing in the rectangular coordinates is the corresponding data. By using as the correspondence data, it is possible to extract accurate correspondence data corresponding to necessary item data and necessary time data.

選定した項目データのうち、同一の第1項目データが異なる矩形座標に存在する場合、それら第1項目データを中心に縦方向と横方向とのいずれか一方へ向かって第1項目データと同一のカテゴリーに含まれる他の第2項目データを検索し、第1項目データを中心として縦方向または横方向へ並ぶ第2項目データの多少を判断しつつ、第2項目データが多く並ぶ方の第1項目データを項目データとして抽出し、抽出した項目データの矩形座標を帳票における項目データの位置とする帳票データ抽出システムは、同一の第1項目データが異なる矩形座標に複数存在し、すべての第1項目データを項目データとして採用した場合、同一である複数の項目データを抽出することになり、それら項目データに対応する複数の対応データが抽出され、適切な項目データや適切な時期データ、適切な対応データを抽出することができないが、第2項目データが多く並ぶ方の第1項目データが必要かつ適切な項目データである確率か高く、第2項目データが多く並ぶ方の第1項目データを項目データとして採用することで、他の同一である項目データを排除することができ、同一である複数の項目データから必要かつ適切な項目データを選択することができる。   Among the selected item data, when the same first item data exists at different rectangular coordinates, the same as the first item data is directed to either the vertical direction or the horizontal direction around the first item data. The other second item data included in the category is searched, and the first item in which more second item data is arranged is judged while judging the amount of the second item data arranged in the vertical or horizontal direction around the first item data. In the form data extraction system that extracts item data as item data and uses the rectangular coordinates of the extracted item data as the position of the item data in the form, there are a plurality of the same first item data at different rectangular coordinates, and all the first data When the item data is adopted as the item data, a plurality of the same item data is extracted, and a plurality of corresponding data corresponding to the item data is extracted and is appropriately applied. Item data, appropriate time data, and appropriate correspondence data cannot be extracted, but there is a high probability that the first item data in which many second item data are arranged is necessary and appropriate item data. By adopting the first item data with more data as the item data, other identical item data can be excluded, and necessary and appropriate item data is selected from a plurality of the same item data. be able to.

項目データおよび時期データに関連する各種複数のカテゴリーと、それらカテゴリーにつながって項目データに関連する各種複数の項目キーワードと、それらカテゴリーにつながって時期データに関連する各種複数の時期キーワードとから形成されたツリー構造辞書を記憶し、カテゴリーと項目キーワードと時期キーワードとを何時でも任意に追加・変更・削除可能である帳票データ抽出システムは、必要な項目データや必要な時期データの抽出に使用するカテゴリーや項目キーワード、時期キーワードをツリー構造辞書において自由に定義することができるから、ツリー構造辞書を利用し、帳票から必要な項目データや必要な時期データを確実に抽出することができ、帳票から項目データおよび時期データに対応する必要な対応データを確実に抽出することができる。帳票データ抽出システムは、カテゴリーや項目キーワード、時期キーワードを何時でも任意に追加し、変更し、削除することができるから、適宜定義したカテゴリーや項目キーワード、時期キーワードに対応する項目データや時期データを抽出することができ、帳票から必要な項目データおよび必要な時期データに対応する対応データを抽出することができる。   It consists of various categories related to item data and time data, various item keywords related to item data connected to those categories, and various time keywords related to time data connected to those categories. A form data extraction system that stores a tree structure dictionary and can arbitrarily add, change, and delete categories, item keywords, and time keywords at any time. And item keywords and time keywords can be freely defined in the tree structure dictionary. Using the tree structure dictionary, the necessary item data and necessary time data can be reliably extracted from the form. Confirm necessary data corresponding to data and timing data It can be extracted to. The form data extraction system can arbitrarily add, change, and delete categories, item keywords, and time keywords at any time, so item data and time data corresponding to appropriately defined categories, item keywords, and time keywords can be obtained. Thus, it is possible to extract necessary item data and corresponding data corresponding to necessary time data from the form.

ツリー構造辞書が各項目キーワードに関連する類似項目キーワードと各時期キーワードに関連する類似時期キーワードとを含み、取得した字列から項目キーワードおよび類似項目キーワードと同一の字列を項目キーワード字列として抽出し、取得した字列から時期キーワードおよび類似時期キーワードと同一の字列を時期キーワード字列として抽出する帳票データ抽出システムは、項目キーワードや時期キーワードに関連する複数の同義語や類義語等の類似項目キーワードや類似時期キーワードをツリー構造辞書において定義することで、取得した字列から項目キーワード字列や時期キーワード字列を漏れなく抽出することができ、その結果、帳票から必要な項目データおよび必要な時期データに対応する対応データを抽出することができる。   The tree structure dictionary contains similar item keywords related to each item keyword and similar time keywords related to each time keyword, and the same character string as the item keyword and similar item keyword is extracted as the item keyword character string from the acquired character string The form data extraction system that extracts the same character string as the time keyword and similar time keyword from the acquired character string is a similar item such as multiple synonyms and synonyms related to the item keyword and time keyword. By defining keywords and similar time keywords in the tree structure dictionary, it is possible to extract item keyword character strings and time keyword character strings from the acquired character strings without omission, and as a result, necessary item data and necessary information from the form Corresponding data corresponding to time data can be extracted

帳票が各種の形式で作られた非定型の複数の健康診断表であり、項目データが健康診断表に表示された検査項目データであり、時期データが健康診断表に表示された検査時期データであり、対応データが検査項目データと検査時期データとに対応する検査結果データである帳票データ抽出システムは、非定型の健康診断表から必要な検査項目データや検査時期データ、検査結果データを抽出することができ、罫線の有無にかかわらず、各種の形式で作られた各種複数の健康診断表に表示された各種複数のデータから必要な検査項目データおよび検査時期データとそれらデータに対応する検査結果データとを抽出することができる。帳票データ抽出システムは、各種複数の健康診断表を読み取るだけで、健康診断表に表示された必要な検査項目データと必要な検査時期データと必要な検査結果データとを抽出することができるから、健康診断表に表示された各種複数のデータから必要な検査項目データや必要な検査時期データ、必要な検査結果データを自動的かつ短時間に抽出することができ、医務査定に必要な作業を大幅に省略することができるとともに、医務査定を短時間かつ正確に行うことができる。帳票データ抽出システムは、医務査定を行う社員が健康診断表に表示されたデータを入力する必要はなく、医務査定にかかる時間を大幅に短縮することができ、医務査定にかかるコストを大幅に縮小することができる。また、医務査定を行う社員が健康診断表に表示されたデータを入力することによる検査項目データや検査時期データ、検査結果データの選別ミスや入力ミスの発生を防ぐことができる。   The form is a plurality of atypical health checkup tables made in various formats, the item data is the test item data displayed in the health checkup table, and the time data is the test time data displayed in the health checkup table Yes, the form data extraction system, whose corresponding data is inspection result data corresponding to inspection item data and inspection time data, extracts necessary inspection item data, inspection time data, and inspection result data from the atypical health checkup table. Regardless of the presence or absence of ruled lines, necessary test item data and test time data from the various data displayed on the various medical checkup tables made in various formats and the test results corresponding to these data Data can be extracted. The form data extraction system can extract necessary inspection item data, necessary inspection time data, and necessary inspection result data displayed on the medical examination table simply by reading various medical examination tables. Necessary examination item data, necessary examination time data, and necessary examination result data can be automatically and quickly extracted from various data displayed on the health checkup table, greatly increasing the work required for medical assessment. The medical assessment can be performed in a short time and accurately. The form data extraction system eliminates the need for employees performing medical examinations to input the data displayed in the health checkup table, greatly reducing the time required for medical examinations and greatly reducing the cost of medical examinations. can do. Further, it is possible to prevent occurrence of selection mistakes and input mistakes in inspection item data, inspection time data, and inspection result data caused by an employee who conducts medical examination inputting data displayed on the health checkup table.

一例として示す帳票データ抽出システムの構成図。The block diagram of the form data extraction system shown as an example. ツリー構造辞書の一例を示す図。The figure which shows an example of a tree structure dictionary. 図2から続くツリー構造辞書を示す図。The figure which shows the tree structure dictionary which continues from FIG. 帳票データ抽出システムにおいて実施される各手段の一例を示すフロー図。The flowchart which shows an example of each means implemented in a form data extraction system. 字列取得手段および字列テキスト作成手段の一例を示す図。The figure which shows an example of a character string acquisition means and a character string text preparation means. 項目キーワード字列抽出手段および時期キーワード字列抽出手段の一例を示す図。The figure which shows an example of an item keyword character string extraction means and a time keyword character string extraction means. 項目データ認定手段および時期データ選定手段の一例を示す図。The figure which shows an example of an item data recognition means and a time data selection means. 項目データ抽出手段の一例を示す図。The figure which shows an example of an item data extraction means. 検査時期データ抽出手段の一例を示す図。The figure which shows an example of an inspection time data extraction means. 対応データ抽出手段の一例を示す図。The figure which shows an example of a corresponding | compatible data extraction means. データ出力手段の一例を示す図。The figure which shows an example of a data output means.

一例として示す帳票データ抽出システム10の構成図である図1等の添付の図面を参照し、本発明にかかる帳票データ抽出システムの詳細を説明すると、以下のとおりである。なお、図2は、ツリー構造辞書15の一例を示す図であり、図3は、図2から続くツリー構造辞書15を示す図である。図2では、カテゴリーに属する各項目や各時期を実線の四角形で示し、検査項目キーワードに属する各項目や検査時期キーワードに属する各時期を点線の四角形で示す。図3では、検査項目キーワードに属する各項目や検査時期キーワードに属する各時期を点線の四角形で示し、類似検査項目キーワードに属する各項目や類似検査時期キーワードに属する各時期を一点鎖線の四角形で示す。以下、帳票として各種の形式で作られた非定型の健康診断表1616を例としてこのシステム10を説明するとともに、各生命保険会社が行う医務査定業務に使用するデータの抽出にこのシステム10が利用された場合を説明する。   The details of the form data extraction system according to the present invention will be described below with reference to the accompanying drawings such as FIG. 1 which is a configuration diagram of the form data extraction system 10 shown as an example. FIG. 2 is a diagram illustrating an example of the tree structure dictionary 15, and FIG. 3 is a diagram illustrating the tree structure dictionary 15 continued from FIG. In FIG. 2, each item and time belonging to the category are indicated by a solid rectangle, and each item belonging to the inspection item keyword and each time belonging to the inspection time keyword are indicated by a dotted rectangle. In FIG. 3, each item belonging to the inspection item keyword and each time belonging to the inspection time keyword are indicated by a dotted rectangle, and each item belonging to the similar inspection item keyword and each time belonging to the similar inspection time keyword are indicated by a dashed-dotted rectangle. . Hereinafter, the system 10 will be described by taking an atypical health examination table 1616 created in various formats as a form as an example, and the system 10 may be used for extracting data used for medical assessment work performed by each life insurance company. The case will be described.

帳票データ抽出システム10は、各種の形式で作られた各種複数の健康診断表16(帳票)に表示(印字)された各種複数のデータから必要な検査項目データ(項目データ)および必要な検査時期データ(時期データ)を抽出するとともに、検査項目データおよび検査時期データに対応する検査結果データ(対応データ)を抽出する。帳票データ抽出システム10は、健康診断表16のみならず、貸借対照表や損益計算書、注文書等の他のあらゆる非定型の帳票に表示(印字)されたデータから必要な項目データや時期データ、対応データを抽出することができる。   The form data extraction system 10 includes necessary inspection item data (item data) and necessary inspection time from various data displayed (printed) on various medical checkup tables 16 (forms) made in various formats. Data (time data) is extracted, and inspection result data (corresponding data) corresponding to inspection item data and inspection time data is extracted. The form data extraction system 10 includes necessary item data and time data from data displayed (printed) on not only the health checkup table 16 but also any other non-standard form such as a balance sheet, income statement, order form, etc. Corresponding data can be extracted.

帳票データ抽出システム10は、処理マシン11(処理コンピュータ)と光学文字読取装置12(OCR)とから形成されている。処理マシン11や光学文字読取装置12は、システム10を使用するデータエントリー事業者の施設に設置されている。なお、処理マシンとしてプライベートクラウドのサイバー空間に生成(仮想)された仮想マシンを利用することもできる。処理マシン11(仮想マシンを利用する場合は仮想ディスクトップ)は、中央処理装置(CPUや仮想CPU)と記憶装置(メモリや仮想メモリ)と大容量記憶領域(ハードディスクや仮想ハードディスク等)とを備え、物理的なOS(オペレーティングシステム)や仮想OS(仮想オペレーティングシステム)によって動作する論理的なコンピュータである。   The form data extraction system 10 includes a processing machine 11 (processing computer) and an optical character reader 12 (OCR). The processing machine 11 and the optical character reader 12 are installed in a facility of a data entry company that uses the system 10. A virtual machine generated (virtual) in a cyber space of a private cloud can be used as a processing machine. The processing machine 11 (virtual disk top when using a virtual machine) includes a central processing unit (CPU or virtual CPU), a storage device (memory or virtual memory), and a large-capacity storage area (such as a hard disk or virtual hard disk). A logical computer that is operated by a physical OS (operating system) or a virtual OS (virtual operating system).

処理マシン11には、図示はしていないが、キーボード13やマウス(図示せず)等の入力装置、ディスプレイ14やプリンタ(図示せず)等の出力装置がインターフェイスを介して接続されている。処理マシン11の大容量記憶領域には、健康診断を実施した検診実施機関を特定する検診実施機関識別番号(検診実施機関識別子)、検診実施機関名、検診実施機関住所、電話番号、FAX番号、メールアドレス、検診担当者名等の検診実施機関データが格納されている。処理マシン11の大容量記憶領域には、このシステム10を利用する各生命保険会社を特定する生命保険会社識別番号(生命保険会社識別子)、生命保険会社名、所属部課(医務査定部門)、担当者名、責任者名、生命保険会社住所、電話番号、FAX番号、メールアドレス等の生命保険会社データが格納されている。さらに、後記するツリー構造辞書15が格納され、後記する対応データ形式設定手段によって設定された検査結果データの形式(抽出形式)が格納されている。   Although not shown, an input device such as a keyboard 13 and a mouse (not shown) and an output device such as a display 14 and a printer (not shown) are connected to the processing machine 11 via an interface. In the large-capacity storage area of the processing machine 11, a screening organization identification number (examination screening organization identifier) that identifies a screening organization that has performed a medical examination, a screening organization name, a screening organization address, a telephone number, a FAX number, Stores the data of the screening organization such as the email address and the name of the person in charge of the screening. In the large-capacity storage area of the processing machine 11, a life insurance company identification number (life insurance company identifier) that identifies each life insurance company that uses this system 10, a life insurance company name, a department to which it belongs (medical assessment department), and a person in charge Life insurance company data such as a person name, a person in charge name, a life insurance company address, a telephone number, a FAX number, and an e-mail address are stored. Further, a tree structure dictionary 15 to be described later is stored, and a format (extraction format) of the inspection result data set by the corresponding data format setting means to be described later is stored.

処理マシン11は、DNSサーバ機能、Webサーバ機能、データベースサーバ機能、メールサーバ機能、ドキュメントサーバ機能等の各種サーバ機能を有し、インターネットに接続可能であり、インターネットを利用することで、不特定多数のサーバ(コンピュータ)やスマートフォン、タブレット等にアクセスかつログインすることができる。処理マシン11は、不特定多数のサーバやスマートフォン、タブレット等から所定の情報を受信することができ、不特定多数のサーバやスマートフォン、タブレット等に所定の情報を送信することができる。   The processing machine 11 has various server functions such as a DNS server function, a Web server function, a database server function, a mail server function, and a document server function, and can be connected to the Internet. You can access and log in to your server (computer), smartphone, tablet, etc. The processing machine 11 can receive predetermined information from an unspecified number of servers, smartphones, tablets, and the like, and can transmit predetermined information to an unspecified number of servers, smartphones, tablets, and the like.

処理マシン11は、物理的なOSまたは仮想OSによる制御に基づいて、メモリまたは仮想メモリに格納された帳票処理アプリケーションを起動し、そのアプリケーションにしたがって以下の各手段を実行する。処理マシン11は、ツリー構造辞書15を大容量記憶領域に記憶する辞書記憶手段を実施し、検査項目キーワード(項目キーワード)に対応する検査結果データ(対応データ)の形式を各検査項目キーワード毎に定義する対応データ形式定義手段を実施する。検査項目データに対応する検査結果データの形式には、たとえば、検査項目データが身長や体重である場合、検査結果データの形式が「数値、小数点1位」になり、検査項目データがHBs抗原やHCV抗原である場合、検査結果データの形式が「(−)や(+)」の記号になる。   The processing machine 11 activates a form processing application stored in the memory or the virtual memory based on the control by the physical OS or the virtual OS, and executes the following units according to the application. The processing machine 11 implements dictionary storage means for storing the tree structure dictionary 15 in the large-capacity storage area, and sets the format of the inspection result data (corresponding data) corresponding to the inspection item keyword (item keyword) for each inspection item keyword. Implement the corresponding data format definition means to be defined. The format of the test result data corresponding to the test item data is, for example, when the test item data is height or weight, the format of the test result data is “numerical value, first decimal place”, and the test item data is HBs antigen or In the case of an HCV antigen, the format of the test result data is “(−) or (+)”.

ツリー構造辞書15は、図2に示すように、検査項目データや検査時期データに関連する各種複数のカテゴリーが最上位に位置し、カテゴリーの直近下位に各カテゴリーに関連する各種複数の検査項目キーワードおよび各種複数の検査時期キーワード(時期キーワード)が位置し、図3に示すように、検査項目キーワードの直近下位に各検査項目キーワードに関連する同義語や類義語等の類似検査項目キーワードが位置しているとともに、検査時期キーワードの直近下位に各検査時期キーワードに関連する同義語や類義語等の類似検査時期キーワード(図示せず)が位置している。ツリー構造辞書15では、検査項目キーワードおよび検査時期キーワードがカテゴリーにつながり、類似検査項目キーワードが検査項目キーワードにつながり、類似検査時期キーワードが検査時期キーワードにつながっている。   As shown in FIG. 2, the tree structure dictionary 15 has a plurality of various categories related to inspection item data and inspection time data positioned at the top, and a plurality of inspection item keywords related to each category immediately below the category. In addition, as shown in FIG. 3, similar inspection item keywords such as synonyms and synonyms related to each inspection item keyword are positioned immediately below the inspection item keyword. In addition, similar inspection time keywords (not shown) such as synonyms and synonyms related to the inspection time keywords are positioned immediately below the inspection time keywords. In the tree structure dictionary 15, the inspection item keyword and the inspection time keyword are connected to the category, the similar inspection item keyword is connected to the inspection item keyword, and the similar inspection time keyword is connected to the inspection time keyword.

カテゴリーの一例としては、健診表を頂点として計測およびそれにつながる身体測定、視力、聴力、血圧、尿検査があり、表示時期およびそれにつながる今回、日付がある。さらに、血液検査およびそれにつながる腎機能、血糖、肝炎、肝機能、脂質、貧血がある。検査時期キーワードの一例としては、今回につながる今回、前回、前々回があり、日付につながる今回日付、前回日付、前々回日付がある。   As an example of the category, there is a physical measurement, visual acuity, hearing ability, blood pressure, urinalysis, which is measured and connected to the medical examination table as a vertex, and a display time and a current date related thereto. In addition, there are blood tests and associated kidney function, blood sugar, hepatitis, liver function, lipids, anemia. As an example of the inspection time keyword, there are the current time, the previous time, and the previous time that are connected to the current time, and the current date, the previous date, and the previous time date that are connected to the date.

検査項目キーワードの一例としては、身体測定につながる身長、体重、BMI、腹囲があり、視力につながる裸眼、矯正、右、左がある。聴力につながる右1000Hz、左1000Hz、右4000Hz、左4000Hzがあり、血圧につながる最小、最大がある。尿検査につながる糖、蛋白、潜血、ウロビリノーゲン、その他の囲繞があり、計測につながる胸部X線、心電図、胃腸X線、全身PET、腹部超音波、眼底検査、便潜血がある。   Examples of test item keywords include height, weight, BMI, and waist circumference that lead to body measurements, and the naked eye, correction, right, and left that lead to vision. There are 1000 Hz to the right, 1000 Hz to the left, 4000 Hz to the right, 4000 Hz to the left, and there is a minimum and maximum to blood pressure. There are sugar, protein, occult blood, urobilinogen, and other go that lead to urinalysis, and there are chest x-ray, electrocardiogram, gastrointestinal x-ray, whole body PET, abdominal ultrasound, fundus examination, fecal occult blood that lead to measurement.

肝機能につながるクレアチニン、尿酸(UA)があり、血糖につながる血糖、採取状況、HbA1cがある。肝炎につながるHBs抗原、HCV抗体がある。肝機能につながるAST(GOT)、ALT(GPT)、γ−GPT、ALP、ZTT、コリンエステラーゼ、総蛋白(TP)、アルブミン、総ビリルビンがあり、脂質につながる総コレステロール、中性脂肪、HDL、LDLがあり、貧血につながる赤血球数(RBC)、血色素数(HB)、ヘマトクリット、白血球(WBC)、血小板(PLT)がある。   There are creatinine and uric acid (UA) that lead to liver function, blood sugar that leads to blood sugar, collection status, and HbA1c. There are HBs antigens and HCV antibodies that lead to hepatitis. There are AST (GOT), ALT (GPT), γ-GPT, ALP, ZTT, cholinesterase, total protein (TP), albumin, total bilirubin that leads to liver function, total cholesterol, neutral fat, HDL, LDL that leads to lipid There are red blood cell count (RBC), hemoglobin count (HB), hematocrit, white blood cell (WBC), and platelet (PLT) that lead to anemia.

類似検査項目キーワードとしては、身長につながる身長体重、身長・体重、身長(cm)、身長cm、身長腹囲があり、体重につながる身長体重、身長・体重、体重(kg)、体重kgがある。BMIにつながる標準体重・BMI、肥満指数、BMI指数、標準体重/BMI、肥満度、BMI(肥満度)、BMI(体格指数)があり、腹囲につながる腹囲(cm)、身長/腹囲がある。図3ではキーワードの身長、体重、BMI、腹囲の対する類似キーワードを図示しているが、ツリー構造辞書15では他のキーワードにつながるあらゆる類似キーワードが設定(定義)されている。類似検査時期キーワードとしては、今回検査、前回検査、前々回検査、今回検査日付、前回検査日付、前々回検査日付等がある。   Similar test item keywords include height, weight, height / weight, height (cm), height cm, height abdominal girth leading to height, height weight, height / weight, weight (kg), weight kg linked to weight. There are standard body weight / BMI that leads to BMI, obesity index, BMI index, standard body weight / BMI, obesity level, BMI (obesity degree), BMI (physical body index), and there is an abdominal circumference (cm) that leads to the abdominal circumference and height / abdominal circumference. FIG. 3 shows similar keywords for keyword height, weight, BMI, and waist circumference, but the tree structure dictionary 15 sets (defines) all similar keywords that are connected to other keywords. Similar inspection time keywords include current inspection, previous inspection, previous inspection, current inspection date, previous inspection date, previous inspection date, and the like.

なお、図示のカテゴリーや検査項目キーワード、検査時期キーワード、類似検査項目キーワード、類似検査時期キーワードは例示であり、ツリー構造辞書15において他のあらゆるカテゴリーや検査項目キーワード、検査時期キーワード、類似検査項目キーワード、類似検査時期キーワードを設定(定義)することができる。また、入力装置を利用し、ツリー構造辞書15にカテゴリーや検査項目キーワード、検査時期キーワード、類似検査項目キーワード、類似検査時期キーワードを自由に追加することができ、すでに設定(定義)されたカテゴリーや検査項目キーワード、検査時期キーワード、類似検査項目キーワード、類似検査時期キーワードを他のそれらに自由に変更することができるとともに、すでに設定(定義)されたカテゴリーや検査項目キーワード、検査時期キーワード、類似検査項目キーワード、類似検査時期キーワードを削除することができる。   The illustrated categories, inspection item keywords, inspection time keywords, similar inspection item keywords, and similar inspection time keywords are only examples, and all other categories, inspection item keywords, inspection time keywords, and similar inspection item keywords in the tree structure dictionary 15 are illustrated. , Similar inspection time keywords can be set (defined). In addition, by using an input device, categories, inspection item keywords, inspection time keywords, similar inspection item keywords, and similar inspection time keywords can be freely added to the tree structure dictionary 15, and already set (defined) categories and The inspection item keyword, inspection time keyword, similar inspection item keyword, and similar inspection time keyword can be freely changed to others, and already set (defined) categories, inspection item keywords, inspection time keywords, and similar inspections Item keywords and similar inspection time keywords can be deleted.

処理マシン11は、各種複数の健康診断表16の画像を取得する画像取得手段を実施し、画像に含まれるすべての字列を取得する字列取得手段を実施する。処理マシン11は、字列取得手段によって取得したそれら字列を形成する1字毎の座標と縦横寸法とを取得する座標・寸法取得手段を実施し、字列取得手段や座標・寸法取得手段によって取得したそれら字列、1字毎の座標、1字毎の縦横寸法を一纏めにした字列テキスト17を作成する字列テキスト作成手段を実施する。   The processing machine 11 implements image acquisition means for acquiring images of various types of health checkup tables 16, and implements character string acquisition means for acquiring all character strings included in the images. The processing machine 11 implements coordinate / dimension acquisition means for acquiring the coordinates and vertical / horizontal dimensions for each character forming the character strings acquired by the character string acquisition means, and the character string acquisition means and the coordinate / dimension acquisition means. Character string text creating means for creating the character string text 17 in which the acquired character strings, the coordinates for each character, and the vertical and horizontal dimensions for each character are collected is implemented.

画像取得手段では、各健康診断表16のカラーイメージ画像と各健康診断表16のカラーイメージ画像から特定の色情報を除去した画像の2値化画像(白黒画像)と各健康診断表16の白黒反転画像とを取得する。字列取得手段では、健康診断表16のカラーイメージ画像に含まれるすべての字列を取得し、健康診断表16のカラーイメージ画像から特定の色情報を除去した画像の2値化画像に含まれるすべての字列を取得するとともに、健康診断表16の白黒反転画像に含まれるすべての字列を取得する。字には、文字、数字、記号等の健康診断表16に表示されたあらゆる字が含まれ、字列には、文字列、数字列、記号列、文字列と数字列との複合字列、数字列と記号列との複合字列等の健康診断表16に表示されたあらゆる事項(検査項目、検査時期)が含まれる。   In the image acquisition means, the color image image of each health checkup table 16, the binary image (black and white image) obtained by removing specific color information from the color image image of each health checkup table 16, and the black and white of each health checkup table 16 Get reverse image. In the character string acquisition means, all character strings included in the color image image of the health checkup table 16 are acquired and included in the binarized image of the image obtained by removing specific color information from the color image image of the health checkup table 16. All character strings are acquired, and all character strings included in the black-and-white inverted image of the health checkup table 16 are acquired. The characters include all characters displayed in the health checkup table 16 such as characters, numbers, symbols, etc., and the character strings include character strings, numerical strings, symbol strings, composite character strings of character strings and numeric strings, All items (examination items, examination times) displayed in the health checkup table 16 such as a composite character string of a numeric string and a symbol string are included.

処理マシン11は、字列取得手段によって取得した字列からあらかじめ設定された検査項目キーワードと同一の字列を検査項目キーワード字列(項目キーワード字列)として抽出するとともに、抽出した検査項目キーワード字列を囲繞する矩形座標とその矩形座標の縦横寸法とを取得する項目キーワード字列抽出手段を実施する。項目キーワード字列抽出手段では、字列テキスト作成手段によって作成された字列テキスト17に存在する字列から検査項目キーワード字列を抽出する。項目キーワード字列抽出手段では、字列テキスト17に存在する字列から検査項目キーワード字列の1字毎の座標と縦横寸法とを取得するとともに、検査項目キーワード字列の1字毎の座標と縦横寸法とを利用して検査項目キーワード字列の矩形座標とその矩形座標の縦横寸法とを取得する。   The processing machine 11 extracts the same character string as the inspection item keyword set in advance from the character string acquired by the character string acquisition unit as the inspection item keyword character string (item keyword character string) and extracts the extracted inspection item keyword character. Item keyword character string extraction means for acquiring rectangular coordinates surrounding the column and the vertical and horizontal dimensions of the rectangular coordinates is implemented. The item keyword character string extracting means extracts the inspection item keyword character string from the character string existing in the character string text 17 created by the character string text creating means. The item keyword character string extracting means obtains the coordinates and vertical and horizontal dimensions of the inspection item keyword character string from the character strings existing in the character string text 17, and the coordinates for each character of the inspection item keyword character string. Using the vertical and horizontal dimensions, the rectangular coordinates of the inspection item keyword character string and the vertical and horizontal dimensions of the rectangular coordinates are acquired.

処理マシン11は、字列取得手段によって取得した字列からあらかじめ設定された検査時期キーワードと同一の字列を検査時期キーワード字列(時期キーワード字列)として抽出するとともに、抽出した検査時期キーワード字列を囲繞する矩形座標とその矩形座標の縦横寸法とを取得する時期キーワード字列抽出手段を実施する。時期キーワード字列抽出手段では、字列テキスト作成手段によって作成された字列テキスト17に存在する字列から検査時期キーワード字列を抽出する。時期キーワード字列抽出手段では、字列テキスト17に存在する字列から検査時期キーワード字列の1字毎の座標と縦横寸法とを取得するとともに、検査時期キーワード字列の1字毎の座標と縦横寸法とを利用して検査時期キーワード字列の矩形座標とその矩形座標の縦横寸法とを取得する。   The processing machine 11 extracts the same character string as the inspection time keyword set in advance from the character string acquired by the character string acquisition means as the inspection time keyword character string (time keyword character string) and extracts the extracted inspection time keyword character. A time keyword character string extracting means for acquiring rectangular coordinates surrounding the column and the vertical and horizontal dimensions of the rectangular coordinates is implemented. The time keyword character string extracting means extracts the inspection time keyword character string from the character string existing in the character string text 17 created by the character string text creating means. The time keyword character string extracting means obtains the coordinates and vertical and horizontal dimensions of the inspection time keyword character string from the character string existing in the character string text 17, and the coordinates for each character of the inspection time keyword character string. Using the vertical and horizontal dimensions, the rectangular coordinates of the inspection time keyword character string and the vertical and horizontal dimensions of the rectangular coordinates are acquired.

処理マシン11は、項目キーワード字列抽出手段と時期キーワード字列抽出手段とによって抽出した検査項目キーワード字列および検査時期キーワード字列、検査項目キーワード字列および検査時期キーワード字列の矩形座標、矩形座標の縦横寸法を一纏めにしたキーワード字列テキスト18を作成するキーワード字列テキスト作成手段を実施する。   The processing machine 11 uses the inspection item keyword character string and the inspection time keyword character string extracted by the item keyword character string extraction means and the time keyword character string extraction means, the rectangular coordinates and the rectangle of the inspection item keyword character string and the inspection time keyword character string. The keyword character string text creating means for creating the keyword character string text 18 in which the vertical and horizontal dimensions of the coordinates are grouped is implemented.

項目キーワード字列抽出手段および時期キーワード字列抽出手段では、座標・寸法取得手段によって取得した字列の1字毎の縦横寸法を参照しつつ、検査項目キーワード字列および検査時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれと異なる場合、その字を含む字列を検査項目キーワード字列および検査時期キーワード字列から除外する。処理マシン11は、項目キーワード字列抽出手段および時期キーワード字列抽出手段において、所定の検査項目キーワード字列および所定の検査時期キーワード字列の矩形座標の縦横寸法があらかじめ設定した矩形座標の縦横寸法未満または縦横寸法を超過する場合、その矩形座標に囲繞された字列を検査項目キーワード字列および検査時期キーワード字列から除外する。   The item keyword character string extraction means and the time keyword character string extraction means refer to the inspection item keyword character string and the inspection time keyword character string while referring to the vertical and horizontal dimensions of each character of the character string acquired by the coordinate / size acquisition means. If the vertical and horizontal dimensions of the predetermined character are different from those of the other characters, the character string including the character is excluded from the inspection item keyword character string and the inspection time keyword character string. The processing machine 11 uses the vertical and horizontal dimensions of the rectangular coordinates set in advance in the rectangular coordinates of the predetermined inspection item keyword character string and the predetermined inspection time keyword character string in the item keyword character string extracting means and the time keyword character string extracting means. If it is less than or exceeds the vertical and horizontal dimensions, the character string enclosed by the rectangular coordinates is excluded from the inspection item keyword character string and the inspection time keyword character string.

処理マシン11は、項目キーワード字列抽出手段によって抽出した検査項目キーワード字列(キーワード字列テキスト18に存在する検査項目キーワード字列)にあらかじめ設定された所定の選択条件を適用し、選択条件を満たす検査項目キーワード字列を検査項目データとして選定する項目データ選定手段を実施する。項目データ選定手段における選択条件には、以下の第1選択条件〜第3選択条件がある。   The processing machine 11 applies a predetermined selection condition set in advance to the inspection item keyword character string (the inspection item keyword character string existing in the keyword character string text 18) extracted by the item keyword character string extraction unit, and sets the selection condition. Implement item data selection means for selecting the inspection item keyword character string to be satisfied as inspection item data. The selection conditions in the item data selection means include the following first selection condition to third selection condition.

第1選択条件は、各検査項目キーワード字列を比較するとともに各検査項目キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の検査項目キーワード字列が複数存在する場合、1つの検査項目キーワード字列を検査項目データとして採用し、その他の検査項目キーワード字列を削除する。字列取得手段において、同一の健康診断表16におけるカラーイメージ画像や2値化画像、白黒反転画像からそれら画像に含まれるすべての字列を取得することから、同一の矩形座標(健康診断表16における同一の位置)に同一の検査項目キーワード字列が存在する場合が発生する。この場合、第1選択条件を適用することで、複数の同一の検査項目キーワード字列を1つに絞り込むことができる。   The first selection condition is that each inspection item keyword character string is compared and the rectangular coordinates of each inspection item keyword character string are compared, and when there are a plurality of the same inspection item keyword character strings existing at the same rectangular coordinate, 1 One inspection item keyword character string is adopted as inspection item data, and the other inspection item keyword character strings are deleted. Since the character string acquisition means acquires all character strings included in the images from the color image, binary image, and black-and-white inverted image in the same health checkup table 16, the same rectangular coordinates (health checkup table 16 The same inspection item keyword character string exists at the same position in FIG. In this case, by applying the first selection condition, a plurality of identical inspection item keyword character strings can be narrowed down to one.

第2選択条件は、1つの検査項目キーワード字列の中に字数の多い検査項目キーワード字列と字数の少ない検査項目キーワード字列とが含まれる場合、字数の多い検査項目キーワード字列と同一の検査項目キーワード字列を検査項目データとして採用する。第3選択条件は、1つの検査項目キーワード字列の中に字列が重なる複数の検査項目キーワード字列が含まれる場合、横書きの検査項目キーワード字列では1番左に位置する検査項目キーワード字列を検査項目データとして採用しつつその他の検査項目キーワード字列を削除し、縦書きの検査項目キーワード字列では1番上に位置する検査項目キーワード字列を検査項目データとして採用しつつその他の検査項目キーワード字列を削除する。   The second selection condition is the same as the inspection item keyword character string having a large number of characters when the inspection item keyword character string having a large number of characters and the inspection item keyword character string having a small number of characters are included in one inspection item keyword character string. The inspection item keyword character string is adopted as inspection item data. The third selection condition is that, when a plurality of inspection item keyword strings in which character strings overlap are included in one inspection item keyword character string, the inspection item keyword character positioned at the leftmost in the horizontal writing inspection item keyword character string Other inspection item keyword character strings are deleted while adopting columns as inspection item data, and other inspection item keyword character strings are used as inspection item data in the vertically written inspection item keyword character strings. Delete the inspection item keyword string.

処理マシン11は、時期キーワード字列抽出手段によって抽出した検査時期キーワード字列(キーワード字列テキスト18に存在する検査時期キーワード字列)にあらかじめ設定された所定の選択条件を適用し、選択条件を満たす検査時期キーワード字列を検査時期データとして選定する時期データ選定手段を実施する。時期データ選定手段における選択条件には、以下の第1選択条件〜第3選択条件がある。   The processing machine 11 applies predetermined selection conditions set in advance to the inspection time keyword character string (the inspection time keyword character string existing in the keyword character string text 18) extracted by the time keyword character string extraction means, and sets the selection condition. The time data selection means for selecting the inspection time keyword string to be satisfied as the inspection time data is implemented. The selection conditions in the time data selection means include the following first selection condition to third selection condition.

第1選択条件は、各検査時期キーワード字列を比較するとともに各検査時期キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の検査時期キーワード字列が複数存在する場合、1つの検査時期キーワード字列を検査時期データとして採用し、その他の検査時期キーワード字列を削除する。字列取得手段において、同一の健康診断表16におけるカラーイメージ画像や2値化画像、白黒反転画像からそれら画像に含まれるすべての字列を取得することから、同一の矩形座標(健康診断表16における同一の位置)に同一の検査時期キーワード字列が存在する場合が発生する。この場合、第1選択条件を適用することで、複数の同一の検査時期キーワード字列を1つに絞り込むことができる。   The first selection condition is that each inspection time keyword character string is compared and the rectangular coordinates of each inspection time keyword character string are compared. One inspection time keyword string is adopted as inspection time data, and the other inspection time keyword strings are deleted. Since the character string acquisition means acquires all character strings included in the images from the color image, binary image, and black-and-white inverted image in the same health checkup table 16, the same rectangular coordinates (health checkup table 16 The same examination time keyword character string exists at the same position). In this case, by applying the first selection condition, a plurality of identical examination time keyword character strings can be narrowed down to one.

第2選択条件は、1つの検査時期キーワード字列の中に字数の多い検査時期キーワード字列と字数の少ない検査時期キーワード字列とが含まれる場合、字数の多い検査時期キーワード字列と同一の検査時期キーワード字列を検査時期データとして採用する。第3選択条件は、1つの検査時期キーワード字列の中に字列が重なる複数の検査時期キーワード字列が含まれる場合、横書きの検査時期キーワード字列では1番左に位置する検査時期キーワード字列を時期データとして採用しつつその他の検査時期キーワード字列を削除し、縦書きの検査時期キーワード字列では1番上に位置する検査時期キーワード字列を検査時期データとして採用しつつその他の検査時期キーワード字列を削除する。   The second selection condition is the same as the inspection period keyword string having a large number of characters when one inspection period keyword string includes an inspection period keyword string having a large number of characters and an inspection period keyword string having a small number of characters. The inspection time keyword character string is adopted as inspection time data. The third selection condition is that when a plurality of inspection time keyword strings that overlap the character strings are included in one inspection time keyword string, the inspection time keyword character that is positioned at the leftmost in the horizontal writing inspection time keyword string Other inspection time keyword character strings are deleted while adopting the column as time data, and other inspections are performed while using the inspection time keyword character string positioned at the top in the vertical inspection time keyword character string. Delete the time keyword string.

処理マシン11は、項目データ選定手段によって選定した検査項目データの健康診断表16(帳票)における位置を特定しつつ、位置が特定された項目データを抽出する項目データ抽出手段を実施する。項目データ抽出手段では、項目データ選定手段によって選定した検査項目データのうち、同一の第1検査項目データ(第1項目データ)が異なる矩形座標に存在する場合、それら第1検査項目データを中心に縦方向と横方向とのいずれか一方へ向かって第1検査項目データと同一のカテゴリーに含まれる他の第2検査項目データ(第2項目データ)を検索し、第1検査項目データを中心として縦方向または横方向へ並ぶ第2検査項目データの多少を判断しつつ、第2検査項目データが多く並ぶ方の第1検査項目データを項目データとして抽出する。   The processing machine 11 implements item data extraction means for extracting item data whose position is specified while specifying the position of the examination item data selected by the item data selection means in the health checkup table 16 (form). In the item data extraction means, when the same first inspection item data (first item data) exists in different rectangular coordinates among the inspection item data selected by the item data selection means, the first inspection item data is the center. Search for other second inspection item data (second item data) included in the same category as the first inspection item data in either the vertical direction or the horizontal direction, and center on the first inspection item data. The first inspection item data in which more second inspection item data is arranged is extracted as item data while judging the amount of the second inspection item data arranged in the vertical direction or the horizontal direction.

処理マシン11は、項目データ抽出手段によって位置が特定された検査項目データの近傍であって時期データ選定手段によって選定された検査時期データの健康診断表16(帳票)における位置を特定しつつ、位置が特定された検査時期データを抽出する時期データ抽出手段を実施する。時期データ抽出手段では、項目データ抽出手段によって位置が特定された検査項目データから最も近くであって、その検査項目データの右方かつその検査項目データの上方の矩形座標を時期データ選定手段によって選定された検査時期データの位置として定義する。   The processing machine 11 specifies the position of the examination time data selected by the time data selection means in the vicinity of the examination item data whose position is specified by the item data extraction means in the health checkup table 16 (form). A time data extracting means for extracting the inspection time data specified is implemented. In the time data extraction means, the rectangular data that is closest to the inspection item data whose position has been specified by the item data extraction means and to the right of the inspection item data and above the inspection item data is selected by the time data selection means. Defined as the position of the inspection time data.

処理マシン11は、項目データ抽出手段によって位置が特定された検査項目データと時期データ抽出手段によって位置が特定された検査時期データとの交差領域に存在する字列を検査結果データとして抽出する対応データ抽出手段を実施する。対応データ抽出手段では、対応データ形式設定手段によって設定された形式に合致した検査結果データを抽出する。処理マシン11は、項目データ抽出手段によって抽出した検査項目データ、時期データ抽出手段によって抽出した検査時期データ、対応データ抽出手段によって抽出した検査結果データを所定のレイアウトで出力するデータ出力手段を実施する。   The processing machine 11 extracts the character string existing in the intersecting area between the inspection item data whose position is specified by the item data extracting means and the inspection time data whose position is specified by the time data extracting means as the corresponding data. Implement extraction means. The corresponding data extraction means extracts inspection result data that matches the format set by the corresponding data format setting means. The processing machine 11 implements data output means for outputting the inspection item data extracted by the item data extraction means, the inspection time data extracted by the time data extraction means, and the inspection result data extracted by the corresponding data extraction means in a predetermined layout. .

対応データ抽出手段では、項目データ抽出手段によって位置が特定された検査項目データの矩形座標から右方に延ばした座標軸と時期データ抽出手段によって位置が特定された検査時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中に存在する字列を対応データとして抽出する。または、項目データ抽出手段によって位置が特定された検査項目データの矩形座標から右方に延ばした座標軸と時期データ抽出手段によって位置が特定された検査時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域においてその検査項目データの縦横寸法のいずれか一方とその検査時期データの縦横寸法のいずれか他方とを採用した矩形座標を設定し、その矩形座標の中に存在する字列を検査結果データとして抽出する。   In the corresponding data extracting means, the coordinate axis extending to the right from the rectangular coordinates of the inspection item data whose position is specified by the item data extracting means and the rectangular coordinates of the inspection time data whose position is specified by the time data extracting means are extended downward. Character strings existing in the rectangular coordinates of the intersecting area where the coordinate axes intersect are extracted as corresponding data. Alternatively, there are a coordinate axis extending rightward from the rectangular coordinates of the inspection item data whose position is specified by the item data extracting means and a coordinate axis extending downward from the rectangular coordinates of the inspection time data whose position is specified by the time data extracting means. In the intersecting area, set the rectangular coordinates that adopt either the vertical or horizontal dimensions of the inspection item data and the vertical or horizontal dimensions of the inspection time data, and inspect the character string existing in the rectangular coordinates Extract as result data.

光学文字読取装置12(OCR)は、インターフェイスを介して処理マシン11に接続されている。光学文字読取装置12には、文字画像を処理マシン11(コンピュータ)が編集可能な形式に変換する光学文字認識アプリケーションが記憶されている。光学文字読取装置12は、各種複数の健康診断表16(帳票)をイメージスキャナで光学的に読み取り、読み取った健康診断表16の各文字(字)をあらかじめ記憶されたパターンに照合して文字(字)を特定し、健康診断表16の所定解像度(たとえば、300dpi)のイメージ画像(イメージデータ)を作成する。光学文字読取装置12は、健康診断表16のイメージ画像を処理マシン11に送信する。   The optical character reader 12 (OCR) is connected to the processing machine 11 via an interface. The optical character reader 12 stores an optical character recognition application for converting a character image into a format editable by the processing machine 11 (computer). The optical character reader 12 optically reads a plurality of various health checkup tables 16 (forms) with an image scanner, collates each character (character) of the read health checkup table 16 with a pre-stored pattern, Character) is specified, and an image (image data) having a predetermined resolution (for example, 300 dpi) of the health checkup table 16 is created. The optical character reader 12 transmits the image of the health checkup table 16 to the processing machine 11.

図4は、帳票データ抽出システム10において実施される各手段の一例を示すフロー図であり、図5は、字列取得手段および字列テキスト作成手段の一例を示す図である。帳票データ抽出システム10を使用するデータエントリー事業者は、各生命保険会社から医務査定業務に使用するデータの抽出の依頼を受けた場合、医務査定の査定対象者に対する健康診断表16から抽出対象の検査項目データおよび検査時期データを抽出し、検査項目データと検査時期データとに対応する検査結果データ(対応データ)を抽出する。なお、健康診断表16は、その形式(データの表示位置の不統一、罫線有りまたは罫線無しの健康診断表16の混在等)が統一されておらず、各種の形式によって作られた非定型であり、健康診断表16における検査項目データや検査時期データ、検査結果データの表示位置(存在位置)が各健康診断表16においてバラバラである。   FIG. 4 is a flowchart showing an example of each means implemented in the form data extraction system 10, and FIG. 5 is a diagram showing an example of a character string acquisition means and a character string text creation means. When a data entry company using the form data extraction system 10 receives a request for extraction of data to be used for medical assessment work from each life insurance company, the data entry business of the medical examination table 16 for the assessment subject of the medical examination is subject to extraction. Inspection item data and inspection time data are extracted, and inspection result data (corresponding data) corresponding to the inspection item data and the inspection time data are extracted. It should be noted that the health checkup table 16 is not standardized in its format (inconsistent data display position, mixed health checkup table 16 with or without ruled lines, etc.), and is an atypical form created in various formats. Yes, the display positions (existing positions) of the inspection item data, the inspection time data, and the inspection result data in the health checkup tables 16 are different in each health checkup table 16.

抽出対象の検査項目データや検査時期データ、検査結果データは、各生命保険会社が指定する。各生命保険会社は、査定対象者の健康診断表16のデータエントリー事業者への送付を各査定対象者や各検診実施機関(病院や診療所、健康管理センター、労働保険協会検診センター等)に対して依頼する。各査定対象者や各検診実施機関は、査定対象者の健康診断表16をデータエントリー事業者に送り、データエントリー事業者は、健康診断を受診した査定対象者(受診者)の健康診断表16を各査定対象者や各検診実施機関から受け取る。健康診断表16は、各査定対象者や各検診実施機関からデータエントリー事業者に郵送によって送られるが、郵送の他に、電子データとして送信することもできる。処理マシン11には、入力装置によって査定対象者の氏名や住所、電話番号、FAX番号、メールアドレス等の査定対象者データが入力される。処理マシン11は、査定対象者を特定する査定対象者識別番号(査定対象者識別子)を生成し、査定対象者データを査定対象者識別番号に関連付けた状態で大容量記憶領域に格納する。   Each life insurance company designates inspection item data, inspection time data, and inspection result data to be extracted. Each life insurance company sends the assessment subject's health checkup table 16 to the data entry provider to each assessment subject and each screening organization (hospital, clinic, health management center, labor insurance association screening center, etc.) Ask for it. Each assessment subject and each examination execution organization send the assessment subject's health checkup table 16 to the data entry business operator, and the data entry business operator receives the health checkup table 16 of the assessment subject subject (examinee). Are received from each assessment subject and each screening organization. The health checkup table 16 is sent by mail from each assessment subject or each examination execution organization to the data entry company, but can also be sent as electronic data in addition to the mail. To the processing machine 11, the assessment subject person data such as the name and address of the assessment subject person, the telephone number, the FAX number, and the e-mail address are input by the input device. The processing machine 11 generates an assessment subject identification number (assessment subject identifier) that identifies the assessment subject, and stores the assessment subject data in the large-capacity storage area in association with the assessment subject identification number.

データエントリー事業者は、各査定対象者や各検診実施機関から送られた各種複数の健康診断表16を光学文字読取装置12によって読み取る。光学文字読取装置12は、読み取った健康診断表16を処理マシン11が編集可能なカラーイメージ画像(カラーイメージデータ)に変換し、そのカラーイメージ画像を処理マシン11に送信する。処理マシン11は、光学文字読取装置12から送信された健康診断表16のカラーイメージ画像を受信する(画像取得手段)(S−10)。健康診断表16のカラーイメージ画像を受信した処理マシン11は、カラーイメージ画像を特定するユニークなカラーイメージ画像特定識別番号(カラーイメージ画像特定識別子)を生成し、カラーイメージ画像をカラーイメージ画像特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The data entry provider reads the various health checkup tables 16 sent from each assessment subject and each examination execution organization by the optical character reader 12. The optical character reader 12 converts the read medical examination table 16 into a color image image (color image data) that can be edited by the processing machine 11, and transmits the color image image to the processing machine 11. The processing machine 11 receives the color image of the health examination table 16 transmitted from the optical character reader 12 (image acquisition means) (S-10). The processing machine 11 that has received the color image image of the health checkup table 16 generates a unique color image image identification number (color image image identification identifier) that identifies the color image image, and identifies the color image image as the color image image identification identifier. The information is stored in the large-capacity storage area in association with the number, the screening organization identification number, the life insurance company identification number, and the assessment subject identification number.

処理マシン11は、カラーイメージ画像を2値化して2値化画像(白黒画像)(カラーイメージ画像から特定の色情報を除去した画像の2値化画像)に変換し、健康診断表16の2値化画像を取得する(画像取得手段)(S−10)。処理マシン11は、2値化画像を特定するユニークな2値化画像特定識別番号(2値化画像特定識別子)を生成し、2値化画像を2値化画像特定識別番号、カラーイメージ画像特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。処理マシン11は、2値化画像を反転させて白黒反転画像に変換し、健康診断表16の白黒反転画像を取得する(画像取得手段)(S−10)。処理マシン11は、白黒反転画像を特定するユニークな白黒反転画像特定識別番号(白黒反転画像特定識別子)を生成し、白黒反転画像を白黒反転画像特定識別番号、カラーイメージ画像特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The processing machine 11 binarizes the color image image and converts it into a binarized image (black and white image) (a binarized image obtained by removing specific color information from the color image image). A valued image is acquired (image acquisition means) (S-10). The processing machine 11 generates a unique binarized image specifying identification number (binary image specifying identifier) for specifying the binarized image, and binarized image is specified as a binarized image specifying identification number and a color image image specifying The identification number, the screening organization identification number, the life insurance company identification number, and the assessment subject identification number are stored in the large-capacity storage area in a state associated with the identification number. The processing machine 11 inverts the binarized image to convert it into a black-and-white inverted image, and acquires the black-and-white inverted image of the health checkup table 16 (image acquisition means) (S-10). The processing machine 11 generates a unique black-and-white inverted image specific identification number (black-white inverted image specific identifier) that identifies the black-and-white inverted image, and the black-and-white inverted image is converted into the black-and-white inverted image specific identification number, the color image image specific identification number, and the examination is performed. Stored in the large-capacity storage area in association with the institution identification number, life insurance company identification number, and assessment subject identification number.

処理マシン11は、図5に示すように、健康診断表16のカラーイメージ画像において文字認識処理を実施し、カラーイメージ画像に含まれるすべての字列を取得し(字列取得手段)(S−11)、カラーイメージ画像から取得した字列を形成する1字毎の健康診断表16における座標を取得するとともに、カラーイメージ画像から取得した字列を形成する1字毎の縦横寸法を取得する(座標・寸法取得手段)(S−11)。処理マシン11は、健康診断表16の2値化画像において文字認識処理を実施し、2値化画像に含まれるすべての字列を取得し(字列取得手段)(S−11)、2値化画像から取得した字列を形成する1字毎の健康診断表16における座標を取得するとともに、2値化画像から取得した字列を形成する1字毎の縦横寸法を取得する(座標・寸法取得手段)(S−11)。   As shown in FIG. 5, the processing machine 11 performs character recognition processing on the color image image of the health checkup table 16 and acquires all character strings included in the color image image (character string acquisition means) (S- 11) Acquire the coordinates in the health checkup table 16 for each character forming the character string acquired from the color image image, and acquire the vertical and horizontal dimensions for each character forming the character string acquired from the color image image ( Coordinate / dimension acquisition means) (S-11). The processing machine 11 performs character recognition processing on the binarized image of the health checkup table 16 and acquires all character strings included in the binarized image (character string acquisition means) (S-11), binary The coordinates in the health check table 16 for each character forming the character string acquired from the digitized image are acquired, and the vertical and horizontal dimensions for each character forming the character string acquired from the binarized image are acquired (coordinates / dimensions). Acquisition means) (S-11).

処理マシン11は、健康診断表16の白黒反転画像において文字認識処理を実施し、白黒反転画像に含まれるすべての字列を取得し(字列取得手段)(S−11)、白黒反転画像から取得した字列を形成する1字毎の健康診断表16における座標を取得するとともに、白黒反転画像から取得した字列を形成する1字毎の縦横寸法を取得する(座標・寸法取得手段)(S−11)。   The processing machine 11 performs character recognition processing on the black-and-white inverted image of the health checkup table 16 to acquire all character strings included in the black-and-white inverted image (character string acquisition means) (S-11), and from the black-and-white inverted image Acquire the coordinates in the health checkup table 16 for each character that forms the acquired character string, and acquire the vertical and horizontal dimensions for each character that forms the character string acquired from the black-and-white inverted image (coordinate / dimension acquisition means) ( S-11).

処理マシン11は、カラーイメージ画像の2値化画像、カラーイメージ画像から特定の色情報を除去した画像の2値化画像、白黒反転画像から字列を取得し、1字毎の座標や縦横寸法を取得した後、取得した字列、字列の1字毎の座標(字列の1字毎の位置)、字列の1字毎の縦横寸法を一纏めにした字列テキスト17を作成する(字列テキスト作成手段)(S−11)。帳票データ抽出システム10は、健康診断表16(帳票)をカラーイメージ画像の2値化画像、カラーイメージ画像から特定の色情報を除去した画像の2値化画像、白黒反転画像として取得し、それら画像に含まれるすべての字列を取得するから、健康診断表16に表示された字列の抽出不足を防ぐことができ、健康診断表16からそれに表示された字列のすべてを取得することができる。   The processing machine 11 acquires a character string from a binarized image of a color image image, a binarized image obtained by removing specific color information from the color image image, and a black and white inverted image, and coordinates and vertical and horizontal dimensions for each character. After the character string is acquired, the text string 17 is created in which the acquired character string, the coordinates of each character of the character string (position for each character of the character string), and the vertical and horizontal dimensions of each character of the character string are collected together ( Character string text creation means) (S-11). The form data extraction system 10 acquires the health checkup table 16 (form) as a binary image of a color image image, a binary image of an image obtained by removing specific color information from the color image image, and a black and white inverted image. Since all the character strings included in the image are acquired, it is possible to prevent insufficient extraction of the character strings displayed on the health checkup table 16 and to acquire all of the character strings displayed on the health checkup table 16 it can.

字列テキスト作成手段では、画像取得手段において各種複数の健康診断書を読み込むことで、複数の字列第1テキスト〜字列第nテキストが作られる。処理マシン11は、字列第1テキスト〜字列第nテキストを特定するユニークな字列テキスト特定識別番号(字列テキスト特定識別子)を生成し、字列第1テキスト〜字列第nテキストを字列テキスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   In the character string text creating means, a plurality of character string first text to character string nth text are created by reading a plurality of various medical certificates in the image obtaining means. The processing machine 11 generates a unique character string text identification number (character string text specific identifier) that identifies the character string first text to character string nth text, and the character string first text to character string nth text. It is stored in the large-capacity storage area in a state associated with the character string text specific identification number, the screening organization identification number, the life insurance company identification number, and the assessment subject identification number.

図5に示す字列テキスト17では、たとえば、字列として「血液検査」を取得した場合、「血液検査」のうちの「血」の座標(健康診断表16における「血」の位置)が{1844,154}、「血」の横寸法(幅)が{27}であり、「血」の縦寸法(高さ)が{26}である。「血液検査」のうちの「液」の座標(健康診断表16における「液」の位置)が{1890,154}、「液」の横寸法(幅)が{28}であり、「液」の縦寸法(高さ)が{27}である。「血液検査」のうちの「検」の座標(健康診断表16における「検」の位置)が{1937,154}、「検」の横寸法(幅)が{28}であり、「検」の縦寸法(高さ)が{28}である。「血液検査」のうちの「査」の座標(健康診断表16における「査」の位置)が{1984,154}、「査」の横寸法(幅)が{26}であり、「査」の縦寸法(高さ)が{25}である。   In the character string text 17 shown in FIG. 5, for example, when “blood test” is acquired as a character string, the coordinates of “blood” in “blood test” (the position of “blood” in the health checkup table 16) are { 1844, 154}, the horizontal dimension (width) of “blood” is {27}, and the vertical dimension (height) of “blood” is {26}. In the “blood test”, the coordinates of “liquid” (position of “liquid” in the medical examination table 16) are {1890, 154}, the horizontal dimension (width) of “liquid” is {28}, and “liquid” The vertical dimension (height) is {27}. Of the “blood test”, the coordinates of “test” (position of “test” in the health checkup table 16) are {1937, 154}, and the horizontal dimension (width) of “test” is {28}. The vertical dimension (height) is {28}. Of the “blood test”, the coordinates of “check” (position of “check” in the medical examination table 16) are {1984, 154}, and the horizontal dimension (width) of “check” is {26}. The vertical dimension (height) is {25}.

図6は、項目キーワード字列抽出手段および時期キーワード字列抽出手段の一例を示す図である。図6のキーワード字列テキスト18では、検査項目キーワード字列として「血液検査」や「基準範囲」が抽出され、検査時期キーワード字列として「今回」や「2013/06/20」が抽出されている。各画像から字列を取得した後、処理マシン11は、ツリー構造辞書15を使用し、字列テキストに存在するすべての字列とツリー構造辞書15に登録された登録済みの検査項目キーワードとを比較し、字列テキスト17の字列から検査項目キーワードと同一の字列を検査項目キーワード字列として抽出し、抽出した検査項目キーワード字列を囲繞する矩形座標を取得するとともに、取得した矩形座標の縦横寸法を取得する(項目キーワード字列抽出手段)(S−12)。   FIG. 6 is a diagram illustrating an example of the item keyword character string extracting unit and the time keyword character string extracting unit. In the keyword character string text 18 of FIG. 6, “blood test” and “reference range” are extracted as test item keyword character strings, and “current” and “2013/06/20” are extracted as test time keyword character strings. Yes. After obtaining the character string from each image, the processing machine 11 uses the tree structure dictionary 15 to obtain all the character strings existing in the character string text and the registered inspection item keywords registered in the tree structure dictionary 15. In comparison, the character string identical to the inspection item keyword is extracted from the character string of the character string text 17 as the inspection item keyword character string, the rectangular coordinates surrounding the extracted inspection item keyword character string are acquired, and the acquired rectangular coordinates Are acquired (item keyword character string extraction means) (S-12).

処理マシン11は、図6に示すように、字列テキスト作成手段によって作成された字列テキスト17に存在する字列から「血液検査」や「基準範囲」を抽出し、字列テキスト17に存在する字列から「血液検査」や「基準範囲」の1字毎の座標と縦横寸法とを取得するとともに、「血液検査」や「基準範囲」の1字毎の座標と縦横寸法とを利用して「血液検査」を囲繞する矩形座標や「基準範囲」を囲繞する矩形座標とそれら矩形座標の縦横寸法とを取得する。   As shown in FIG. 6, the processing machine 11 extracts “blood test” and “reference range” from the character string existing in the character string text 17 created by the character string text creating means, and exists in the character string text 17. From the character string to be obtained, the coordinates and vertical and horizontal dimensions of each character of “blood test” and “reference range” are obtained, and the coordinates and vertical and horizontal dimensions of each character of “blood test” and “reference range” are used. Then, the rectangular coordinates surrounding the “blood test”, the rectangular coordinates surrounding the “reference range”, and the vertical and horizontal dimensions of the rectangular coordinates are acquired.

処理マシン11は、ツリー構造辞書15を使用し、字列テキスト17に存在するすべての字列とツリー構造辞書15に登録された検査時期キーワードとを比較し、字列テキスト17の字列から検査時期キーワードと同一の字列を検査時期キーワード字列として抽出し、抽出した検査時期キーワード字列を囲繞する矩形座標を取得するとともに、取得した矩形座標の縦横寸法を取得する(時期キーワード字列抽出手段)(S−12)。   The processing machine 11 uses the tree structure dictionary 15, compares all character strings existing in the character string text 17 with the inspection time keywords registered in the tree structure dictionary 15, and inspects the character string of the character string text 17. Extracts the same character string as the time keyword as the inspection time keyword character string, acquires the rectangular coordinates surrounding the extracted inspection time keyword character string, and acquires the vertical and horizontal dimensions of the acquired rectangular coordinates (time keyword character string extraction) Means) (S-12).

処理マシン11は、図6に示すように、字列テキスト作成手段によって作成された字列テキスト17に存在する字列から「今回」や「2013/06/20」を抽出し、字列テキストに存在する字列から「今回」や「2013/06/20」の1字毎の座標と縦横寸法とを取得するとともに、「今回」や「2013/06/20」の1字毎の座標と縦横寸法とを利用して「今回」を囲繞する矩形座標や「2013/06/20」を囲繞する矩形座標とそれら矩形座標の縦横寸法とを取得する。   As shown in FIG. 6, the processing machine 11 extracts “current” and “2013/06/20” from the character string existing in the character string text 17 created by the character string text creating means, and converts it into the character string text. The coordinates and vertical and horizontal dimensions for each character such as “current” and “2013/06/20” are acquired from the existing character strings, and the coordinates and vertical and horizontal dimensions for each character such as “current” and “2013/06/20” are acquired. Using the dimensions, the rectangular coordinates surrounding “current”, the rectangular coordinates surrounding “2013/06/20”, and the vertical and horizontal dimensions of the rectangular coordinates are acquired.

処理マシン11は、項目キーワード字列抽出手段において、検査項目キーワード字列を抽出した後、その検査項目キーワード字列の1字毎の縦横寸法を参照し、検査項目キーワード字列のうちの所定の字の縦横寸法が他の字のそれよりも大きい(他の字のそれと異なる)場合、その字を含む字列を検査項目キーワード字列から除外する。検査項目キーワード字列を除外する字の基準(基準倍率)(たとえば、所定の字が他の字に対して1.1倍超過や1.2倍超過等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「血液検査」のうちの「血」の字が他の字「液検査」に対して設定された基準よりも大きい場合、「血液検査」を検査項目キーワード字列から除外する。   The processing machine 11 extracts the inspection item keyword character string in the item keyword character string extraction means, then refers to the vertical and horizontal dimensions of each character of the inspection item keyword character string, and determines a predetermined one of the inspection item keyword character strings. When the vertical and horizontal dimensions of a character are larger than those of other characters (different from those of other characters), the character string including that character is excluded from the inspection item keyword character string. Character criteria (standard magnification) that excludes inspection item keyword character strings (for example, a predetermined character exceeds 1.1 times or 1.2 times exceeding other characters, etc.) can be freely set using an input device. And is stored in the large-capacity storage area of the processing machine 11. For example, if the character “blood” in “blood test” is larger than the standard set for other characters “liquid test”, “blood test” is excluded from the test item keyword character string.

処理マシン11は、項目キーワード字列抽出手段において、検査項目キーワード字列のうちの所定の字の縦横寸法が他の字のそれよりも小さい(他の字のそれと異なる)場合、その字を含む字列を検査項目キーワード字列から除外する。検査項目キーワード字列を除外する字の基準(基準倍率)(たとえば、所定の字が他の字に対して0.9倍未満や0.8倍未満等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「血液検査」のうちの「査」の字が他の字「血液検」に対して設定された基準よりも小さい場合、「血液検査」を検査項目キーワード字列から除外する。   In the item keyword character string extraction unit, the processing machine 11 includes the character when the vertical and horizontal dimensions of a predetermined character in the inspection item keyword character string are smaller than those of other characters (different from those of other characters). Exclude the string from the inspection item keyword string. Character criteria (reference magnification) that excludes inspection item keyword character strings (for example, a given character is less than 0.9 times or less than 0.8 times the other characters, etc.) can be freely set using an input device And is stored in the large-capacity storage area of the processing machine 11. For example, in the case where the character of “inspection” in “blood test” is smaller than the standard set for other characters “blood test”, “blood test” is excluded from the test item keyword character string.

処理マシン11は、時期キーワード字列抽出手段において、検査時期キーワード字列を抽出した後、その検査時期キーワード字列の1字毎の縦横寸法を参照し、検査時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれよりも大きい(他の字のそれと異なる)場合、その字を含む字列を検査時期キーワード字列から除外する。検査時期キーワード字列を除外する字の基準(基準倍率)(たとえば、所定の字が他の字に対して1.1倍超過や1.2倍超過等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「今回」のうちの「今」の字が他の字「回」に対して設定された基準よりも大きい場合、「今回」を検査時期キーワード字列から除外する。   The processing machine 11 extracts the inspection time keyword character string in the time keyword character string extraction means, and then refers to the vertical and horizontal dimensions of each character of the inspection time keyword character string to determine a predetermined one of the inspection time keyword character strings. When the vertical and horizontal dimensions of a character are larger than those of other characters (different from those of other characters), the character string including the character is excluded from the inspection time keyword character string. Inspection period Keyword criteria excluding keyword strings (standard magnification) (for example, a predetermined character exceeds 1.1 times or 1.2 times exceeding other characters, etc.) can be freely set using an input device. And is stored in the large-capacity storage area of the processing machine 11. For example, if the character “Now” in “Now” is larger than the standard set for the other character “Time”, “Now” is excluded from the examination time keyword character string.

処理マシン11は、時期キーワード字列抽出手段において、検査時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれよりも小さい(他の字のそれと異なる)場合、その字を含む字列を検査時期キーワード字列から除外する。検査時期キーワード字列を除外する字の基準(基準倍率)(たとえば、所定の字が他の字に対して0.9倍未満や0.8倍未満等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「今回」のうちの「回」の字が他の字「今」に対して設定された基準よりも小さい場合、「今回」を検査時期キーワード字列から除外する。   The processing machine 11 includes the character in the time keyword character string extraction means when the vertical and horizontal dimensions of a predetermined character in the inspection time keyword character string are smaller than those of other characters (different from those of other characters). Exclude the string from the inspection period keyword string. Inspection period Keyword criteria (standard magnification) excluding keyword strings (for example, a given character is less than 0.9 times or less than 0.8 times the other characters, etc.) is free using an input device And is stored in the large-capacity storage area of the processing machine 11. For example, when the character of “times” in “current” is smaller than the standard set for other characters “now”, “current” is excluded from the inspection time keyword character string.

帳票データ抽出システム10は、字列の中の所定の字の縦横寸法が他の字のそれよりも大きくまたは他の字のそれよりも小さい場合、その字を含む字列が正常でない可能性が高く、その字を含む字列を項目キーワード字列および時期キーワード字列から除外することで、取得した字列から必要かつ適正な項目キーワード字列および時期キーワード字列を抽出することができる。   When the vertical and horizontal dimensions of a predetermined character in a character string are larger than that of another character or smaller than that of another character, the form data extraction system 10 may not have a normal character string including that character. By excluding the character string including the character from the item keyword character string and the time keyword character string, the necessary and proper item keyword character string and the time keyword character string can be extracted from the acquired character string.

処理マシン11は、項目キーワード字列抽出手段において、検査項目キーワード字列を抽出した後、所定の検査項目キーワード字列の矩形座標の縦横寸法とあらかじめ設定した矩形座標の縦横寸法とを比較し、検査項目キーワード字列の矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満である場合、その矩形座標に囲繞された字列を検査項目キーワード字列から除外し、検査項目キーワード字列の矩形座標の縦横寸法が設定した矩形座標の縦横寸法を超過する場合、その矩形座標に囲繞された字列を検査項目キーワード字列から除外する。   The processing machine 11 extracts the inspection item keyword character string in the item keyword character string extraction unit, and then compares the vertical and horizontal dimensions of the rectangular coordinates of the predetermined inspection item keyword character string with the vertical and horizontal dimensions of the predetermined rectangular coordinates, If the vertical and horizontal dimensions of the rectangular coordinates of the inspection item keyword string are less than the vertical and horizontal dimensions of the set rectangular coordinates, the character string enclosed by the rectangular coordinates is excluded from the inspection item keyword string, and the inspection item keyword string rectangle If the vertical and horizontal dimensions of the coordinates exceed the set rectangular and vertical dimensions, the character string enclosed by the rectangular coordinates is excluded from the inspection item keyword character string.

所定の項目キーワード字列を除外する矩形座標の縦横寸法の基準(基準倍率)(たとえば、矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満に対して1.1倍超過や1.2倍超過等、矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満に対して0.9倍未満や0.8倍未満等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「血液検査」を囲繞する矩形座標の縦横寸法が設定された基準を超過する場合、または、設定された基準未満である場合、「血液検査」を検査項目キーワード字列から除外する。   The standard (standard magnification) of the vertical and horizontal dimensions of the rectangular coordinates excluding the predetermined item keyword character string (for example, 1.1 times or 1.2 times the vertical and horizontal dimensions of the rectangular coordinates are less than the set vertical and horizontal dimensions of the rectangular coordinates) (Such as less than 0.9 times or less than 0.8 times relative to the rectangular coordinate vertical and horizontal dimensions less than the set rectangular coordinate vertical and horizontal dimensions), etc., can be freely set using the input device. It is stored in the mass storage area of the machine 11. For example, if the vertical and horizontal dimensions of the rectangular coordinates surrounding “blood test” exceed the set standard or are less than the set standard, “blood test” is excluded from the test item keyword character string.

処理マシン11は、時期キーワード字列抽出手段において、検査時期キーワード字列を抽出した後、所定の検査時期キーワード字列の矩形座標の縦横寸法とあらかじめ設定した矩形座標の縦横寸法とを比較し、検査時期キーワード字列の矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満である場合、その矩形座標に囲繞された字列を検査時期キーワード字列から除外し、検査時期キーワード字列の矩形座標の縦横寸法が設定した矩形座標の縦横寸法を超過する場合、その矩形座標に囲繞された字列を検査時期キーワード字列から除外する。   The processing machine 11 extracts the inspection time keyword character string in the time keyword character string extraction means, and then compares the vertical and horizontal dimensions of the rectangular coordinates of the predetermined inspection time keyword character string with the vertical and horizontal dimensions of the predetermined rectangular coordinates, If the vertical and horizontal dimensions of the rectangular coordinates of the inspection time keyword string are less than the vertical and horizontal dimensions of the set rectangular coordinates, the character string enclosed by the rectangular coordinates is excluded from the inspection time keyword string, and the inspection time keyword string rectangle When the vertical and horizontal dimensions of the coordinates exceed the set vertical and horizontal dimensions, the character string enclosed by the rectangular coordinates is excluded from the inspection time keyword character string.

所定の検査時期キーワード字列を除外する矩形座標の縦横寸法の基準(基準倍率)(たとえば、矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満に対して1.1倍超過や1.2倍超過等、矩形座標の縦横寸法が設定した矩形座標の縦横寸法未満に対して0.9倍未満や0.8倍未満等)は、入力装置を利用して自由に設定することができ、処理マシン11の大容量記憶領域に記憶されている。たとえば、「今回」を囲繞する矩形座標の縦横寸法が設定された基準を超過する場合、または、設定された基準未満である場合、「今回」を検査時期キーワード字列から除外する。   Reference (reference magnification) of the vertical and horizontal dimensions of the rectangular coordinates excluding the predetermined inspection time keyword character string (for example, 1.1 times or 1.2 times the vertical and horizontal dimensions of the rectangular coordinates are less than the set vertical and horizontal dimensions) (Such as less than 0.9 times or less than 0.8 times relative to less than the vertical and horizontal dimensions of the rectangular coordinates set), such as exceeding twice, etc., can be freely set using the input device, It is stored in a large capacity storage area of the processing machine 11. For example, if the vertical and horizontal dimensions of the rectangular coordinates surrounding “current” exceed the set standard, or are less than the set standard, “current” is excluded from the inspection time keyword character string.

帳票データ抽出システム10は、項目キーワード字列や時期キーワード字列を囲繞する矩形座標の縦横寸法が設定された矩形座標のそれよりも小さくまたは設定された矩形座標のそれよりも大きい場合、その矩形座標に囲繞された字列が正常でない可能性が高く、その矩形座標に囲繞された字列を項目キーワード字列および時期キーワード字列から除外することで、取得した字列から必要かつ適正な項目キーワード字列および時期キーワード字列を抽出することができる。   If the vertical and horizontal dimensions of the rectangular coordinates surrounding the item keyword character string and the time keyword character string are smaller than that of the set rectangular coordinates or larger than that of the set rectangular coordinates, the form data extraction system 10 There is a high possibility that the character string enclosed in the coordinates is not normal, and by excluding the character string enclosed in the rectangular coordinates from the item keyword character string and time keyword character string, the necessary and appropriate items from the obtained character string Keyword character strings and time keyword character strings can be extracted.

処理マシン11は、項目キーワード字列抽出手段によって抽出した検査項目キーワード字列、検査項目キーワード字列の矩形座標、検査項目キーワード字列の矩形座標の縦横寸法を一纏めにしたキーワード字列テキスト18を作成するとともに、時期キーワード字列抽出手段によって抽出した検査時期キーワード字列、検査時期キーワード字列の矩形座標(検査時期キーワード字列の位置)、検査時期キーワード字列の矩形座標の縦横寸法を一纏めにしたキーワード字列テキスト18を作成する(キーワード字列テキスト作成手段)(S−12)。   The processing machine 11 stores the keyword string text 18 in which the inspection item keyword string extracted by the item keyword string extraction unit, the rectangular coordinates of the inspection item keyword string, and the vertical and horizontal dimensions of the rectangular coordinates of the inspection item keyword string are collected together. The inspection time keyword character string extracted by the time keyword character string extraction means, the rectangular coordinates of the inspection time keyword character string (the position of the inspection time keyword character string), and the vertical and horizontal dimensions of the rectangular coordinates of the inspection time keyword character string are collected together. The keyword character string text 18 is created (keyword character string text creating means) (S-12).

キーワード字列テキスト作成手段では、複数のキーワード字列第1テキスト〜キーワード字列第nテキストが作られる。処理マシン11は、キーワード字列第1テキスト〜キーワード字列第nテキストを特定するユニークなキーワード字列テキスト特定識別番号(キーワード字列テキスト特定識別子)を生成し、キーワード字列第1テキスト〜キーワード字列第nテキストをキーワード字列テキスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The keyword string text creating means creates a plurality of keyword string first text to keyword string nth text. The processing machine 11 generates a unique keyword string text identification number (keyword string text identification identifier) that identifies the keyword string first text to the keyword string nth text, and the keyword string first text to the keyword. The character string nth text is stored in the large-capacity storage area in a state associated with the keyword character string text specific identification number, the screening organization identification number, the life insurance company identification number, and the assessment subject identification number.

図6に示すキーワード字列テキスト18では、たとえば、検査項目キーワード字列として「血液検査」および「基準範囲」を抽出した場合、「血液検査」を囲繞する矩形座標(「血液検査」を囲繞する矩形座標の健康診断表16における位置)が{1843,153}、「血液検査」の横寸法(幅)が{168}であり、「血液検査」の縦寸法(高さ)が{30}である。「基準範囲」を囲繞する矩形座標(「基準範囲」を囲繞する矩形座標の健康診断表16における位置)が{1790,132}、「基準範囲」の横寸法(幅)が{168}であり、「基準範囲」の縦寸法(高さ)が{30}である。監査時期キーワード字列として「今回」および「2013/06/20」を抽出した場合、「今回」を囲繞する矩形座標(「今回」を囲繞する矩形座標の健康診断表16における位置)が{2150,151}、「今回」の横寸法(幅)が{84}であり、「今回」の縦寸法(高さ)が{29}である。「2013/06/20」を囲繞する矩形座標(「2013/06/20」を囲繞する矩形座標の健康診断表16における位置)が{2041,151}、「2013/06/20」の横寸法(幅)が{181}であり、「2013/06/20」の縦寸法(高さ)が{29}である。   In the keyword character string text 18 shown in FIG. 6, for example, when “blood test” and “reference range” are extracted as test item keyword character strings, rectangular coordinates surrounding “blood test” (“blood test” is surrounded). The position of the rectangular coordinate in the health examination table 16 is {1843, 153}, the horizontal dimension (width) of “blood test” is {168}, and the vertical dimension (height) of “blood test” is {30}. is there. The rectangular coordinates surrounding the “reference range” (the positions of the rectangular coordinates surrounding the “reference range” in the health check table 16) are {1790, 132}, and the horizontal dimension (width) of the “reference range” is {168}. , The vertical dimension (height) of the “reference range” is {30}. When “current” and “2013/06/20” are extracted as the audit time keyword character strings, the rectangular coordinates surrounding “current” (the positions in the medical examination table 16 of the rectangular coordinates surrounding “current”) are {2150. 151}, the horizontal dimension (width) of “current” is {84}, and the vertical dimension (height) of “current” is {29}. The rectangular coordinates surrounding "2013/06/20" (the positions of the rectangular coordinates surrounding "2013/06/20" in the health check table 16) are {2041, 151} and the horizontal dimension of "2013/06/20" (Width) is {181}, and the vertical dimension (height) of “2013/06/20” is {29}.

図7は、項目データ認定手段および時期データ選定手段の一例を示す図である。処理マシン11は、キーワード字列テキスト18を作成した後、キーワード字列テキスト18(キーワード字列第1テキスト〜キーワード字列第nテキスト)に存在する検査項目キーワード字列にあらかじめ設定された第1選択条件〜第3選択条件を適用し、それら選択条件を満たす検査項目キーワード字列を検査項目データとして選定する(項目データ選定手段)。   FIG. 7 is a diagram illustrating an example of item data authorization means and time data selection means. After creating the keyword string text 18, the processing machine 11 first sets the inspection item keyword string existing in the keyword string text 18 (keyword string first text to keyword string nth text) in advance. The selection condition to the third selection condition are applied, and an inspection item keyword character string that satisfies the selection conditions is selected as inspection item data (item data selection means).

処理マシン11は、各検査項目キーワード字列を比較するとともに各検査項目キーワード字列の矩形座標を比較し、同一の矩形座標(健康診断表16における検査項目キーワード字列の位置)に存在する同一の検査項目キーワード字列が複数存在する場合、1つの検査項目キーワード字列を検査項目データとして採用(選定)し、その他の検査項目キーワード字列を削除する(第1選択条件)。たとえば、同一の矩形座標(同一の位置)に「血液検査」が複数存在する場合、それら「血液検査」のうちの1つを検査項目キーワード字列として残し、残余の「血液検査」をキーワード字列テキスト18から削除する。   The processing machine 11 compares the inspection item keyword character strings and also compares the rectangular coordinates of the inspection item keyword character strings, and the same exists at the same rectangular coordinates (the position of the inspection item keyword character string in the health checkup table 16). When there are a plurality of inspection item keyword character strings, one inspection item keyword character string is adopted (selected) as inspection item data, and the other inspection item keyword character strings are deleted (first selection condition). For example, when there are a plurality of “blood tests” at the same rectangular coordinates (the same position), one of the “blood tests” is left as a test item keyword character string, and the remaining “blood test” is a keyword character. Delete from column text 18.

帳票データ抽出システム10は、同一の矩形座標に同一の検査項目キーワード字列が複数存在し、それらすべてを検査項目キーワード字列として採用した場合、同一である複数の検査項目データを抽出することになり、それら検査項目データに対応する複数の検査結果データが抽出され、最適な検査項目データや最適な検査結果データを抽出することができないが、1つの検査項目キーワード字列を検査項目データとして採用し、その他の検査項目キーワード字列を削除することで、他の同一である検査項目データを排除することができ、帳票に表示された各種複数のデータから必要かつ適切な1つの検査項目データのみを抽出することができる。   The form data extraction system 10 extracts a plurality of inspection item data that are the same when a plurality of the same inspection item keyword character strings exist at the same rectangular coordinates and all of them are adopted as inspection item keyword character strings. Therefore, a plurality of inspection result data corresponding to the inspection item data is extracted, and the optimal inspection item data and the optimal inspection result data cannot be extracted, but one inspection item keyword character string is adopted as the inspection item data. By deleting other inspection item keyword character strings, it is possible to eliminate other inspection item data that is the same, and only one inspection item data that is necessary and appropriate from various data displayed on the form. Can be extracted.

処理マシン11は、1つの検査項目キーワード字列の中に、字数の多い検査項目キーワード字列と字数の多い検査項目キーワード字列を分解して得られる字数の少ない検査項目キーワード字列とが含まれ、それらの検査項目キーワード字列が重なっていない場合、字数の多い検査項目キーワード字列と同一の検査項目キーワード字列を検査項目データとして採用(選定)する(第2選択条件)。たとえば、キーワード字列テキスト18に検査項目キーワード字列として「身長/体重」、「身長」、「/」、「体重」が存在する場合、字数の少ない検査項目キーワード字列である「身長」、「/」、「体重」を検査項目データとして採用せず、字数の多い検査項目キーワード字列である「身長/体重」を検査項目データとして採用する。図7では、キーワード字列テキスト18に検査項目キーワード字列として「血液検査」、「血液」が存在し、字数の多い検査項目キーワード字列である「血液検査」を検査項目データとして採用している。   The processing machine 11 includes an inspection item keyword character string having a large number of characters and an inspection item keyword character string having a small number of characters obtained by disassembling the inspection item keyword character string having a large number of characters in one inspection item keyword character string. If the inspection item keyword character strings do not overlap, the same inspection item keyword character string as the inspection item keyword character string having a large number of characters is adopted (selected) as inspection item data (second selection condition). For example, if “height / weight”, “height”, “/”, and “weight” exist as the inspection item keyword character strings in the keyword character string text 18, “height”, which is an inspection item keyword character string with a small number of characters, “/” And “weight” are not adopted as inspection item data, but “height / weight”, which is an inspection item keyword character string having a large number of characters, is adopted as inspection item data. In FIG. 7, “blood test” and “blood” exist as test item keyword character strings in the keyword character string text 18, and “blood test” which is a test item keyword character string having a large number of characters is adopted as test item data. Yes.

帳票データ抽出システム10は、字数の多い検査項目キーワードと同一の検査項目キーワード字列が必要かつ適切な検査項目データである確率が高く、1つの検査項目キーワード字列の中に字数の多い検査項目キーワードと字数の少ない検査項目キーワードとが含まれる場合、字数の多い検査項目キーワードと同一の検査項目キーワード字列を検査項目データとすることで、1つのキーワード字列に含まれる不要な検査項目データを排除することができ、帳票に表示された各種複数のデータから必要な検査項目データのみを抽出することができる。   The form data extraction system 10 has a high probability that the same inspection item keyword character string as the inspection item keyword having a large number of characters is necessary and appropriate, and the inspection item having a large number of characters in one inspection item keyword character string. When a keyword and an inspection item keyword with a small number of characters are included, unnecessary inspection item data included in one keyword string is obtained by using the same inspection item keyword string as the inspection item keyword with a large number of characters as inspection item data. Therefore, only necessary inspection item data can be extracted from various data displayed on the form.

処理マシン11は、1つの検査項目キーワード字列の中に字列が重なる複数の検査項目キーワード字列が含まれる場合、横書きの検査項目キーワード字列では1番左に位置する検査項目キーワード字列を検査項目データとして採用(選定)しつつその他の検査項目キーワード字列を削除し、縦書きの検査項目キーワード字列では1番上に位置する検査項目キーワード字列を検査項目データとして採用(選定)しつつその他の検査項目キーワード字列を削除する(第3選択条件)。たとえば、キーワード字列テキスト18に「体重測定結果」が存在し、検査項目キーワードとして左側に位置する「体重測定」と右側に位置する「測定結果」とがあり、「測定」が重なっている場合、左(1番左)に位置する「体重測定」を検査項目データとして採用し、残余の「測定結果」をキーワード字列テキスト18から削除する。   When a plurality of inspection item keyword strings in which character strings overlap are included in one inspection item keyword character string, the processing machine 11 has the inspection item keyword character string positioned at the leftmost in the horizontally written inspection item keyword character string. The other inspection item keyword character strings are deleted while adopting (selecting) as inspection item data, and the inspection item keyword character string located at the top is adopted as inspection item data in the vertical inspection item keyword character string (selection). ) While deleting other inspection item keyword character strings (third selection condition). For example, when “weight measurement result” exists in the keyword string text 18, there are “weight measurement” located on the left side and “measurement result” located on the right side as test item keywords, and “measurement” overlaps. The “weight measurement” located on the left (leftmost) is adopted as the inspection item data, and the remaining “measurement result” is deleted from the keyword string text 18.

1つの項目キーワード字列の中に字列が重なる複数の項目キーワード字列が含まれる場合、横書きの項目キーワード字列では1番左に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、縦書きの項目キーワード字列では1番上に位置する項目キーワード字列を項目データとして採用しつつその他の項目キーワード字列を削除し、1つの時期キーワード字列の中に字列が重なる複数の時期キーワード字列が含まれる場合、横書きの時期キーワード字列では1番左に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除し、縦書きの時期キーワード字列では1番上に位置する時期キーワード字列を時期データとして採用しつつその他の時期キーワード字列を削除する。   When a plurality of item keyword strings with overlapping character strings are included in one item keyword string, the item keyword string positioned at the leftmost in the horizontally written item keyword string is used as the item data. The item keyword string is deleted. In the vertically written item keyword string, the item keyword string positioned at the top is adopted as the item data while deleting the other item keyword strings. When multiple time keyword strings with overlapping character strings are included, the horizontal time keyword character string adopts the time keyword character string located at the leftmost position as time data and deletes other time keyword character strings. In the vertical writing time keyword string, the time keyword character string located at the top is adopted as the time data while other time keyword character strings are used. We want to delete.

帳票データ抽出システム10は、横書きの検査項目キーワード字列において1番左に位置する検査項目キーワード字列が必要かつ適切な検査項目データである確率が高く、縦書きの検査項目キーワード字列において1番上に位置する検査項目キーワード字列が必要かつ適切な検査項目データである確率が高く、1つのキーワード字列の中に字列が重なる複数の検査項目キーワード字列が含まれる場合、横書きの検査項目キーワード字列では1番左に位置する検査項目キーワード字列を検査項目データとし、縦書きの検査項目キーワード字列では1番上に位置する検査項目キーワード字列を検査項目データとすることで、横書きまたは縦書きの1つの検査項目キーワード字列に含まれる不要な検査項目データを排除することができ、帳票に表示された各種複数のデータから必要な検査項目データのみを抽出することができる。   The form data extraction system 10 has a high probability that the inspection item keyword character string located at the leftmost in the horizontal writing inspection item keyword character string is necessary and appropriate inspection item data, and 1 in the vertical writing inspection item keyword character string. If there is a high probability that the inspection item keyword character string located at the top is necessary and appropriate inspection item data, and there are multiple inspection item keyword character strings that overlap in one keyword character string, In the inspection item keyword character string, the inspection item keyword character string located on the leftmost side is used as inspection item data, and in the vertically written inspection item keyword character string, the inspection item keyword character string located at the top is used as inspection item data. Can eliminate unnecessary inspection item data contained in one inspection item keyword character string of horizontal writing or vertical writing and display it on the form. Only it is possible to extract the inspection item necessary data from various plurality of data.

処理マシン11は、キーワード字列テキスト18(キーワード字列第1テキスト〜キーワード字列第nテキスト)に存在する検査時期キーワード字列にあらかじめ設定された第1選択条件〜第3選択条件を適用し、それら選択条件を満たす検査時期キーワード字列を検査時期データとして選定する(時期データ選定手段)。処理マシン11は、各検査時期キーワード字列を比較するとともに各検査時期キーワード字列の矩形座標を比較し、同一の矩形座標(健康診断表16における検査時期キーワード字列の位置)に存在する同一の検査時期キーワード字列が複数存在する場合、1つの検査時期キーワード字列を検査時期データとして採用し、その他の検査時期キーワード字列を削除する(第1選択条件)。たとえば、同一の矩形座標(同一の位置)に「今回」が複数存在する場合、それら「今回」のうちの1つを検査時期キーワード字列として残し、残余の「今回」をキーワード字列テキスト18から削除する。   The processing machine 11 applies the first selection condition to the third selection condition set in advance for the keyword string for the inspection time existing in the keyword string text 18 (keyword string first text to keyword string nth text). Then, an inspection time keyword string satisfying these selection conditions is selected as inspection time data (time data selection means). The processing machine 11 compares each examination time keyword character string and also compares the rectangular coordinates of each examination time keyword character string, and the same present at the same rectangular coordinates (the position of the examination time keyword character string in the health checkup table 16). When there are a plurality of inspection time keyword strings, one inspection time keyword string is adopted as inspection time data, and the other inspection time keyword strings are deleted (first selection condition). For example, when there are a plurality of “current” at the same rectangular coordinates (the same position), one of the “current” is left as the inspection time keyword character string, and the remaining “current” is the keyword character string text 18. Delete from.

帳票データ抽出システム10は、同一の矩形座標に同一の検査時期キーワード字列が複数存在し、それらすべてを検査時期キーワード字列として採用した場合、同一である複数の検査時期データを抽出することになり、それら検査時期データに対応する複数の検査結果データが抽出され、最適な検査時期データや最適な検査結果データを抽出することができないが、1つの検査時期キーワード字列を検査時期データとして採用し、その他の検査時期キーワード字列を削除することで、他の同一である検査時期データを排除することができ、帳票に表示された各種複数のデータから必要かつ適切な1つの検査時期データのみを抽出することができる。   The form data extraction system 10 extracts a plurality of identical inspection time data when there are a plurality of the same inspection time keyword character strings at the same rectangular coordinates and all of them are adopted as the inspection time keyword character strings. Therefore, a plurality of inspection result data corresponding to the inspection time data is extracted, and the optimal inspection time data and the optimal inspection result data cannot be extracted, but one inspection time keyword string is adopted as the inspection time data. However, by deleting the other inspection time keyword strings, other identical inspection time data can be eliminated, and only one necessary and appropriate inspection time data from the various data displayed on the form. Can be extracted.

処理マシン11は、1つの検査時期キーワード字列の中に、字数の多い検査時期キーワード字列と字数の多い検査時期キーワード字列を分解して得られる字数の少ない検査時期キーワード字列とが含まれ、それらの検査時期キーワード字列が重なっていない場合、字数の多い検査時期キーワード字列と同一の検査時期キーワード字列を検査時期データとして採用する(第2選択条件)。たとえば、キーワード字列テキスト18に検査時期キーワード字列として「今回日付」、「今回」、「日付」が存在する場合、字数の少ない検査項目キーワード字列である「今回」、「日付」を検査時期データとして採用せず、字数の多い検査項目キーワード字列である「今回日付」を検査項目データとして採用する。   The processing machine 11 includes an inspection time keyword character string having a large number of characters and an inspection time keyword character string having a small number of characters obtained by disassembling the inspection time keyword character string having a large number of characters in one inspection time keyword character string. If these inspection time keyword strings do not overlap, the same inspection time keyword character string as the inspection time keyword character string having a large number of characters is adopted as inspection time data (second selection condition). For example, when “current date”, “current”, and “date” are present as the keyword string for inspection time in the keyword character string text 18, “current” and “date” that are inspection item keyword character strings with a small number of characters are inspected. Instead of adopting it as time data, “current date”, which is an inspection item keyword character string having a large number of characters, is adopted as inspection item data.

帳票データ抽出システム10は、字数の多い検査時期キーワードと同一の検査時期キーワード字列が必要かつ適切な検査時期データである確率が高く、1つの検査時期キーワード字列の中に字数の多い検査時期キーワードと字数の少ない検査時期キーワードとが含まれる場合、字数の多い検査時期キーワードと同一の検査時期キーワード字列を検査時期データとすることで、1つのキーワード字列に含まれる不要な検査時期データを排除することができ、帳票に表示された各種複数のデータから必要な検査時期データのみを抽出することができる。   The form data extraction system 10 has a high probability that the same inspection time keyword string as the inspection time keyword with a large number of characters is necessary and appropriate, and the inspection time with a large number of characters in one inspection time keyword string. When a keyword and an inspection time keyword with a small number of characters are included, unnecessary inspection time data included in one keyword string is obtained by using the same inspection time keyword string as the inspection time keyword with a large number of characters as the inspection time data. Therefore, only necessary inspection time data can be extracted from a plurality of various data displayed on the form.

処理マシン11は、1つの検査時期キーワード字列の中に字列が重なる複数の検査時期キーワード字列が含まれる場合、横書きの検査時期キーワード字列では1番左に位置する検査時期キーワード字列を検査時期データとして採用(選定)しつつその他の検査時期キーワード字列を削除し、縦書きの検査時期キーワード字列では1番上に位置する検査時期キーワード字列を検査時期データとして採用(選定)しつつその他の検査時期キーワード字列を削除する(第3選択条件)。たとえば、キーワード字列テキスト18に「今回日付日時」が存在し、検査時期キーワードとして左側に位置する「今回日付」と右側に位置する「日付日時」とがあり、「日付」が重なっている場合、左(1番左)に位置する「今回日付」を検査時期データとして採用し、残余の「日付日時」をキーワード字列テキスト18から削除する。   When a plurality of inspection time keyword strings in which character strings overlap are included in one inspection time keyword character string, the processing machine 11 has an inspection time keyword character string positioned at the leftmost in the horizontal writing inspection time keyword character string. The other inspection time keyword strings are deleted while adopting (selecting) as inspection time data, and the inspection time keyword character string located at the top is adopted as the inspection time data (selection) ) While deleting other inspection time keyword strings (third selection condition). For example, “current date / time” exists in the keyword string text 18, and there are “current date” located on the left side and “date date / time” located on the right side as inspection time keywords, and “date” overlaps. The “current date” located on the left (leftmost) is adopted as the inspection time data, and the remaining “date date” is deleted from the keyword string text 18.

帳票データ抽出システム10は、横書きの検査時期キーワード字列において1番左に位置する検査時期キーワード字列が必要かつ適切な検査時期データである確率が高く、縦書きの検査時期キーワード字列において1番上に位置する検査時期キーワード字列が必要かつ適切な検査時期データである確率が高く、1つのキーワード字列の中に字列が重なる複数の検査時期キーワード字列が含まれる場合、横書きの検査時期キーワード字列では1番左に位置する検査時期キーワード字列を検査時期データとし、縦書きの検査時期キーワード字列では1番上に位置する検査時期キーワード字列を検査時期データとすることで、横書きまたは縦書きの1つの検査時期キーワード字列に含まれる不要な検査時期データを排除することができ、帳票に表示された各種複数のデータから必要な検査時期データのみを抽出することができる。   The form data extraction system 10 has a high probability that the inspection time keyword string located at the leftmost position in the horizontal writing inspection time keyword string is necessary and appropriate inspection time data, and 1 in the vertical writing inspection time keyword character string. If there is a high probability that the test date keyword string located at the top is necessary and appropriate test time data, and there are multiple test time keyword strings that overlap in one keyword string, In the inspection time keyword string, the inspection time keyword string located at the leftmost position is used as inspection time data, and in the vertical writing inspection time keyword string, the inspection time keyword string located at the top is used as inspection time data. This eliminates unnecessary inspection time data contained in one horizontal or vertical inspection time keyword string, and displays it on the form. Only it is possible to extract the test time required data from various plurality of data.

処理マシン11は、項目データ選定手段や時期データ選定手段によって選定した検査項目データおよび検査時期データ、検査項目データおよび検査時期データの矩形座標(検査項目データおよび検査時期データの位置)、検査項目データおよび検査時期データの矩形座標の縦横寸法を一纏めにした選定データリスト19を作成する(選定データリスト作成手段)(S−12)。処理マシン11は、選定データリスト19を特定するユニークな選定データリスト特定識別番号(選定データリスト特定識別子)を生成し、選定データリスト19を選定データリスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The processing machine 11 includes inspection item data and inspection time data selected by the item data selection means and time data selection means, rectangular coordinates of the inspection item data and inspection time data (positions of the inspection item data and inspection time data), and inspection item data. Then, a selection data list 19 in which the vertical and horizontal dimensions of the rectangular coordinates of the inspection time data are grouped is created (selection data list creation means) (S-12). The processing machine 11 generates a unique selection data list identification number (selection data list identification identifier) that identifies the selection data list 19, and selects the selection data list 19 as a selection data list identification number, a screening organization identification number, a life The information is stored in the large-capacity storage area in association with the insurance company identification number and the assessment subject identification number.

図8は、項目データ抽出手段の一例を示す図である。選定データリスト19を作成した後、処理マシン11は、選定データリスト19に存在する検査項目データ(項目データ選定手段によって選定した検査項目データ)の健康診断表16における位置(座標)を特定しつつ、位置が特定された項目データを抽出する(項目データ抽出手段)(S−13)。処理マシン11は、図8に示すように、項目データ選定手段によって選定した検査項目データのうち、同一の「BMI」(第1検査項目データ)が異なる矩形座標(異なる位置の矩形座標)に存在する場合、それら「BMI」を中心に縦方向へ向かって「BMI」と同一のカテゴリーに含まれる他の第2検査項目データ(「身長」、「体重」、「腹囲」)を検索し、「BMI」を中心として縦方向へ並ぶ第2検査項目データの多少を判断する。   FIG. 8 is a diagram illustrating an example of the item data extraction unit. After creating the selection data list 19, the processing machine 11 specifies the position (coordinates) in the health checkup table 16 of the inspection item data (examination item data selected by the item data selection means) existing in the selection data list 19. The item data whose position is specified is extracted (item data extraction means) (S-13). As shown in FIG. 8, the processing machine 11 has the same “BMI” (first inspection item data) at different rectangular coordinates (rectangular coordinates at different positions) among the inspection item data selected by the item data selection means. When searching, other second examination item data (“height”, “weight”, “abdominal circumference”) included in the same category as “BMI” in the vertical direction centering on “BMI”, and “ The second inspection item data arranged in the vertical direction centering on “BMI” is determined.

処理マシン11は、縦方向へ並ぶ第2検査項目データ(「腹囲」)が少ない「BMI」を検査項目データとして抽出せず、第2検査項目データ(「身長」、「体重」、「腹囲」)が多く並ぶ方の「BMI」を検査項目データとして抽出し、抽出したその「BMI」の矩形座標を検査項目データの健康診断表16における位置と特定する。なお、項目データ選定手段によって選定した「BMI」(検査項目データ)が1つしかない場合、その「BMI」を抽出し、抽出したその「BMI」の矩形座標を検査項目データの健康診断表16における位置と特定する。   The processing machine 11 does not extract “BMI” having a small amount of second examination item data (“abdominal circumference”) arranged in the vertical direction as examination item data, and does not extract the second examination item data (“height”, “weight”, “abdominal circumference”). ) Are extracted as test item data, and the extracted rectangular coordinates of the “BMI” are specified as the position of the test item data in the health checkup table 16. When there is only one “BMI” (examination item data) selected by the item data selection means, the “BMI” is extracted, and the extracted rectangular coordinates of the “BMI” are used as the health checkup table 16 of the inspection item data. Specify the position at.

帳票データ抽出システム10は、同一の第1検査項目データが異なる矩形座標に複数存在し、すべての第1検査項目データを検査項目データとして採用した場合、同一である複数の検査項目データを抽出することになり、それら検査項目データに対応する複数の検査結果データが抽出され、適切な検査項目データや適切な検査時期データ、適切な検査結果データを抽出することができないが、第2検査項目データが多く並ぶ方の第1検査項目データが必要かつ適切な検査項目データである確率か高く、第2検査項目データが多く並ぶ方の第1検査項目データを検査項目データとして採用することで、他の同一である検査項目データを排除することができ、同一である複数の検査項目データから必要かつ適切な検査項目データを選択することができる。   The form data extraction system 10 extracts a plurality of the same inspection item data when a plurality of the same first inspection item data exist at different rectangular coordinates and all the first inspection item data are adopted as the inspection item data. Therefore, a plurality of inspection result data corresponding to the inspection item data is extracted, and appropriate inspection item data, appropriate inspection time data, and appropriate inspection result data cannot be extracted. It is highly probable that the first inspection item data with the larger number of the first inspection item data is necessary and appropriate inspection item data, and adopting the first inspection item data with the larger second inspection item data as the inspection item data. The same inspection item data can be excluded, and necessary and appropriate inspection item data can be selected from a plurality of the same inspection item data. Kill.

処理マシン11は、項目データ抽出手段によって抽出した検査項目データ、その検査項目データの矩形座標、その検査項目データの矩形座標の縦横寸法を一纏めにした検査項目データリスト20を作成する(検査項目データリスト作成手段)(S−13)。処理マシン11は、検査項目データリスト20を特定するユニークな検査項目データリスト特定識別番号(検査項目データリスト特定識別子)を生成し、検査項目データリスト20を検査項目データリスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The processing machine 11 creates the inspection item data list 20 in which the inspection item data extracted by the item data extraction means, the rectangular coordinates of the inspection item data, and the vertical and horizontal dimensions of the rectangular coordinates of the inspection item data are collected together (inspection item data). List creation means) (S-13). The processing machine 11 generates a unique inspection item data list identification number (inspection item data list identification identifier) that identifies the inspection item data list 20, and executes the examination item data list identification number, the examination item data list identification number. The information is stored in the mass storage area in association with the institution identification number, life insurance company identification number, and assessment subject identification number.

図9は、検査時期データ抽出手段の一例を示す図である。検査項目データリスト20を作成した後、処理マシン11は、検査項目データリスト20に存在する検査項目データ(項目データ抽出手段によって位置が特定された検査項目データ)の近傍あって時期データ選定手段によって選定された検査時期データの健康診断表16(帳票)における位置を特定しつつ、位置が特定された検査時期データを抽出する(時期データ抽出手段)(S−13)。処理マシン11は、図9に示すように、項目データ抽出手段によって位置が特定された検査項目データ(たとえば、「BMI」)から最も近くであって、その「BMI」の右方かつその「BMI」の上方の矩形座標を時期データ選定手段によって選定された検査時期データ「今回」の位置(矩形座標)とし、位置を特定した検査時期データ「今回」を抽出する。   FIG. 9 is a diagram illustrating an example of the inspection time data extraction unit. After creating the inspection item data list 20, the processing machine 11 uses the time data selection means that is in the vicinity of the inspection item data (inspection item data whose position is specified by the item data extraction means) existing in the inspection item data list 20. While specifying the position of the selected examination time data in the health checkup table 16 (form), the examination time data whose position is specified is extracted (time data extracting means) (S-13). As shown in FIG. 9, the processing machine 11 is closest to the inspection item data (for example, “BMI”) whose position is specified by the item data extraction unit, to the right of the “BMI” and the “BMI”. Is set as the position (rectangular coordinates) of the inspection time data “current” selected by the time data selection means, and the inspection time data “current” specifying the position is extracted.

処理マシン11は、ツリー構造辞書15から時期キーワードとして定義された日付を参照しつつ、抽出した検査時期データ「今回」の近傍に存在する日付を検索する。処理マシン11は、検査時期データ「今回」の近傍に複数の日付が検索された場合、最新の日付を検査時期データ(最新日付データ)として抽出する(時期データ抽出手段(最新日付データ抽出手段))(S−13)。処理マシン11は、図9に示すように、検査時期データ「今回」の近傍に複数の日付「2014/10/10」、「2013/10/30」、「2012/02/22」が検索された場合、最新の日付「2014/10/10」を検査時期データとして抽出する。なお、検査時期データ「今回」の近傍に日付が存在しない場合、検査時期データ「今回」のみを抽出する。   The processing machine 11 searches for a date existing in the vicinity of the extracted examination time data “current” while referring to the date defined as the time keyword from the tree structure dictionary 15. When a plurality of dates are searched in the vicinity of the inspection time data “current”, the processing machine 11 extracts the latest date as inspection time data (latest date data) (time data extraction means (latest date data extraction means)). ) (S-13). As shown in FIG. 9, the processing machine 11 searches a plurality of dates “2014/10/10”, “2013/10/30”, and “2012/02/22” in the vicinity of the inspection time data “current”. In this case, the latest date “2014/10/10” is extracted as the inspection time data. If there is no date in the vicinity of the inspection time data “current”, only the inspection time data “current” is extracted.

処理マシン11は、項目データ抽出手段によって抽出した検査項目データ、その検査項目データの矩形座標、その検査項目データの矩形座標の縦横寸法、時期データ抽出手段によって抽出した検査時期データ(最新日付データを含む)、その検査時期データ(最新日付データを含む)の矩形座標(検査時期データ(最新日付データを含む)の位置)、その検査時期データ(最新日付データを含む)の矩形座標の縦横寸法を一纏めにした検査項目データ・検査時期データリスト21を作成する(検査項目データ・検査時期データリスト作成手段)(S−13)。   The processing machine 11 has the inspection item data extracted by the item data extraction means, the rectangular coordinates of the inspection item data, the vertical and horizontal dimensions of the rectangular coordinates of the inspection item data, and the inspection time data (the latest date data is extracted by the time data extraction means). ), The rectangular coordinates of the inspection time data (including the latest date data) (the position of the inspection time data (including the latest date data)), and the vertical and horizontal dimensions of the rectangular coordinates of the inspection time data (including the latest date data). The collected inspection item data / inspection time data list 21 is prepared (inspection item data / inspection time data list creating means) (S-13).

帳票データ抽出システム10は、位置が特定された検査項目データから最も近い位置であって、その検査項目データの右方かつその検査項目データの上方の矩形座標の中の字列が検査時期データである確率が高く、その字列を検査時期データと定義することで、検査項目データの帳票への正確な表示時期を取得することができる。処理マシン11は、検査項目データ・検査時期データリスト21を特定するユニークな検査項目データ・検査時期データリスト特定識別番号(検査項目データ・検査時期データリスト特定識別子)を生成し、検査項目データ・検査時期データリスト21を検査項目データ・検査時期データリスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The form data extraction system 10 is the position closest to the inspection item data whose position is specified, and the character string in the rectangular coordinates to the right of the inspection item data and above the inspection item data is the inspection time data. A certain probability is high, and by defining the character string as inspection time data, it is possible to acquire an accurate display time of inspection item data on a form. The processing machine 11 generates unique inspection item data / inspection time data list specific identification number (inspection item data / inspection time data list specific identifier) for specifying the inspection item data / inspection time data list 21, and The examination time data list 21 is stored in the large-capacity storage area in a state associated with the examination item data / examination time data list specific identification number, examination execution organization identification number, life insurance company identification number, and assessment subject identification number.

図10は、対応データ抽出手段の一例を示す図である。検査項目データ・検査時期データリスト21を作成した後、処理マシン11は、検査項目データ・検査時期データリスト21に存在する検査項目データを参照するとともに検査時期データを参照し、項目データ抽出手段によって位置が特定された検査項目データと時期データ抽出手段によって位置が特定された検査時期データとの交差領域に存在する字列を検査結果データとして抽出する(対応データ抽出手段)(S−14)。   FIG. 10 is a diagram illustrating an example of the correspondence data extraction unit. After creating the inspection item data / inspection time data list 21, the processing machine 11 refers to the inspection item data existing in the inspection item data / inspection time data list 21 and refers to the inspection time data. A character string existing in an intersection area between the inspection item data whose position is specified and the inspection time data whose position is specified by the time data extraction means is extracted as inspection result data (corresponding data extraction means) (S-14).

処理マシン11は、図10に示すように、項目データ抽出手段によって位置が特定された検査項目データ「BMI」の矩形座標(「BMI」の位置)から右方に延ばした座標軸(図10では矢印)と時期データ抽出手段によって位置が特定された検査時期データ「2014/10/10」の矩形座標(「2014/10/10」の位置)から下方に延ばした座標軸(図10では矢印)とが交差する交差領域の矩形座標の中に存在する字列「24.5」を検査結果データ(対応データ)として抽出する。検査時期データとして最新の日付が抽出されず、「今回」が検査時期データとなる場合は、検査項目データ「BMI」の矩形座標から右方に延ばした座標軸と検査時期データ「今回」の矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中に存在する字列「24.5」を検査結果データとして抽出する。   As shown in FIG. 10, the processing machine 11 has coordinate axes (arrows in FIG. 10) extending rightward from the rectangular coordinates (position of “BMI”) of the inspection item data “BMI” whose position is specified by the item data extraction unit. ) And the coordinate axes (arrows in FIG. 10) extending downward from the rectangular coordinates (the position of “2014/10/10”) of the inspection time data “2014/10/10” whose position is specified by the time data extracting means. The character string “24.5” present in the rectangular coordinates of the intersecting intersection area is extracted as inspection result data (corresponding data). When the latest date is not extracted as the inspection time data and “current” becomes the inspection time data, the coordinate axis extending rightward from the rectangular coordinates of the inspection item data “BMI” and the rectangular coordinates of the inspection time data “current” The character string “24.5” existing in the rectangular coordinates of the intersecting area where the coordinate axis extending downward from the line intersects is extracted as the inspection result data.

帳票データ抽出システム10は、位置が特定された検査項目データの矩形座標から右方に延ばした座標軸と位置が特定された検査時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中の字列が検査項目データに対応する検査結果データである確率が高く、その字列を検査結果データとすることで、必要な検査項目データと必要な検査時期データとに対応する正確な検査結果データを抽出することができる。   The form data extraction system 10 has an intersection region where a coordinate axis extending rightward from the rectangular coordinate of the inspection item data whose position is specified intersects with a coordinate axis extending downward from the rectangular coordinate of the inspection time data whose position is specified. There is a high probability that the character string in the rectangular coordinates is the inspection result data corresponding to the inspection item data. By using the character string as the inspection result data, it corresponds to the necessary inspection item data and the necessary inspection time data. Accurate inspection result data can be extracted.

また、処理マシン11は、項目データ抽出手段によって位置が特定された検査項目データ「BMI」の矩形座標から右方に延ばした座標軸と時期データ抽出手段によって位置が特定された検査時期データ「2014/10/10」の矩形座標から下方に延ばした座標軸とが交差する交差領域においてその検査項目データ「BMI」の縦寸法(または横寸法)とその検査時期データ「2014/10/10」の横寸法(または縦寸法)とを採用した矩形座標を設定し、その矩形座標の中に存在する字列「24.5」を検査結果データとして抽出する。なお、「今回」が検査時期データとなる場合は、検査項目データ「BMI」の矩形座標から右方に延ばした座標軸と検査時期データ「今回」の矩形座標から下方に延ばした座標軸とが交差する交差領域においてその検査項目データ「BMI」の縦寸法(または横寸法)とその検査時期データ「今回」の横寸法(または縦寸法)とを採用した矩形座標を設定し、その矩形座標の中に存在する字列「24.5」を検査結果データとして抽出する。   Further, the processing machine 11 has a coordinate axis extending rightward from the rectangular coordinates of the inspection item data “BMI” whose position is specified by the item data extraction means and the inspection time data “2014 /” whose position is specified by the time data extraction means. The vertical dimension (or horizontal dimension) of the inspection item data “BMI” and the horizontal dimension of the inspection time data “2014/10/10” in the intersecting region where the coordinate axes extending downward from the rectangular coordinates of “10/10” intersect. (Or vertical dimension) is set, and a character string “24.5” existing in the rectangular coordinate is extracted as inspection result data. When “current” is the inspection time data, the coordinate axis extending rightward from the rectangular coordinates of the inspection item data “BMI” and the coordinate axis extending downward from the rectangular coordinates of the inspection time data “current” intersect. In the intersection area, set the rectangular coordinates that adopt the vertical dimension (or horizontal dimension) of the inspection item data “BMI” and the horizontal dimension (or vertical dimension) of the inspection time data “current” and set the rectangular coordinates in the rectangular coordinates. The existing character string “24.5” is extracted as inspection result data.

帳票データ抽出システム10は、位置が特定された検査項目データの矩形座標から右方に延ばした座標軸と位置が特定された検査時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域においてその検査項目データの縦横寸法のいずれか一方とその検査時期データの縦横寸法のいずれか他方とを採用した矩形座標を決定し、その矩形座標の中に存在する字列が検査結果データである確率が高く、その字列を検査結果データとすることで、必要な検査項目データと必要な検査時期データとに対応する正確な検査結果データを抽出することができる。   The form data extraction system 10 is in an intersecting region where a coordinate axis extending rightward from the rectangular coordinate of the inspection item data whose position is specified intersects with a coordinate axis extending downward from the rectangular coordinate of the inspection time data whose position is specified. Probability of determining rectangular coordinates that adopt one of the vertical and horizontal dimensions of the inspection item data and either of the vertical and horizontal dimensions of the inspection time data, and the character string existing in the rectangular coordinates being inspection result data By using the character string as inspection result data, it is possible to extract accurate inspection result data corresponding to necessary inspection item data and necessary inspection time data.

対応データ抽出手段では、対応データ形式設定手段によって設定された形式に合致した検査結果データを抽出する。たとえば、検査項目データ「BMI」(検査項目キーワード)に対して設定された監査結果データの形式が「数値、小数点1位」の場合、その形式に対応する字列「24.5」を抽出する。それに対し、検査項目データと検査時期データとの交差領域に存在する字列が「○」や「×」等の記号である場合、検査項目データ「BMI」(検査項目キーワード)に対して設定された形式に合致せず、それら記号を検査結果データとして抽出しない。   The corresponding data extraction means extracts inspection result data that matches the format set by the corresponding data format setting means. For example, when the format of the audit result data set for the inspection item data “BMI” (inspection item keyword) is “numeric, first decimal place”, the character string “24.5” corresponding to the format is extracted. . On the other hand, when the character string existing in the intersection area between the inspection item data and the inspection time data is a symbol such as “◯” or “×”, it is set for the inspection item data “BMI” (inspection item keyword). Does not match the format, and these symbols are not extracted as test result data.

帳票データ抽出システム10は、検査項目キーワードの種類によって検査結果データの形式が異なる場合、検査項目キーワードに対応する検査結果データの形式を各検査項目キーワード毎に定義し、形式に合致した検査結果データのみを抽出することで、定義された形式以外の形式の検査結果データが抽出されることはなく、検査項目キーワード(検査項目データ)に確実に対応した検査結果データのみを抽出することができ、必要な検査結果データを確実に抽出することができる。   When the format of the inspection result data differs depending on the type of the inspection item keyword, the form data extraction system 10 defines the inspection result data format corresponding to the inspection item keyword for each inspection item keyword, and the inspection result data that matches the format By extracting only, test result data in a format other than the defined format is not extracted, and only test result data that reliably corresponds to the test item keyword (test item data) can be extracted. Necessary inspection result data can be reliably extracted.

処理マシン11は、項目データ抽出手段によって抽出した検査項目データ、その検査項目データの矩形座標、その検査項目データの矩形座標の縦横寸法、時期データ抽出手段によって抽出した検査時期データ(最新日付データを含む)、その検査時期データ(最新日付データを含む)の矩形座標(検査時期データ(最新日付データを含む)の位置)、その検査時期データ(最新日付データを含む)の矩形座標の縦横寸法、対応データ抽出手段によって抽出した検査結果データ、その検査結果データの矩形座標(検査結果データの位置)、その検査結果データの矩形座標の縦横寸法を一纏めにした検査項目データ・検査時期データ・検査結果データリスト22を作成する(検査項目データ・検査時期データ・検査結果データリスト作成手段)(S−14)。   The processing machine 11 has the inspection item data extracted by the item data extraction means, the rectangular coordinates of the inspection item data, the vertical and horizontal dimensions of the rectangular coordinates of the inspection item data, and the inspection time data (the latest date data is extracted by the time data extraction means). ), Rectangular coordinates of the inspection time data (including the latest date data) (position of the inspection time data (including the latest date data)), vertical and horizontal dimensions of the rectangular coordinates of the inspection time data (including the latest date data), Inspection item data, inspection time data, and inspection results that combine inspection result data extracted by corresponding data extraction means, rectangular coordinates of the inspection result data (position of inspection result data), and vertical and horizontal dimensions of the rectangular coordinates of the inspection result data Create data list 22 (inspection item data, inspection time data, inspection result data list creation means) ( -14).

処理マシン11は、検査項目データ・検査時期データ・検査結果データリスト22を特定するユニークな検査項目データ・検査時期データ・検査結果データリスト特定識別番号(検査項目データ・検査時期データ・検査結果データリスト特定識別子)を生成し、検査項目データ・検査時期データ・検査結果データリスト22を検査項目データ・検査時期データ・検査結果データリスト特定識別番号、検診実施機関識別番号、生命保険会社識別番号、査定対象者識別番号に関連付けた状態で大容量記憶領域に記憶する。   The processing machine 11 has a unique inspection item data / inspection time data / inspection result data list specific identification number (inspection item data / inspection time data / inspection result data) for specifying the inspection item data / inspection time data / inspection result data list 22. List identification identifier), and the inspection item data / inspection time data / inspection result data list 22 are inspected item data / inspection time data / inspection result data list specific identification number, examination execution organization identification number, life insurance company identification number, Store in the mass storage area in a state associated with the assessment subject identification number.

図11は、データ出力手段の一例を示す図である。処理マシン11は、生命保険会社が指定した検査項目データや検査時期データ、検査結果データを検査項目データ・検査時期データ・検査結果データリスト22から抽出し、それら検査項目データ、検査時期データ、検査結果データ22のデータ出力レイアウトを指定のそれに調整した後、抽出対象の検査項目データや検査時期データ、検査結果データを表示した抽出データ表23を所定のレイアウトでディスプレイ14に出力(表示)し、プリンタから出力(印刷)する(データ出力手段)(S−15)。 FIG. 11 is a diagram illustrating an example of the data output unit. The processing machine 11 extracts the inspection item data, inspection time data, and inspection result data designated by the life insurance company from the inspection item data / inspection time data / inspection result data list 22, and the inspection item data, inspection time data, and inspection data. After adjusting the data output layout of the result data 22 to the designated one, the extraction data table 23 displaying the inspection item data, inspection time data, and inspection result data to be extracted is output (displayed) to the display 14 in a predetermined layout, Output (print) from the printer (data output means) (S-15).

帳票データ抽出システム10は、読み取った健康診断表16(帳票)の画像に含まれるすべての字列を取得し、取得した字列から検査項目キーワード字列および検査時期キーワード字列を抽出し、選択条件を満たす検査項目キーワード字列や検査時期キーワード字列を検査項目データおよび検査時期データとして選定するとともに、選定した検査項目データの健康診断表16における位置を特定しつつ、位置が特定された検査項目データを抽出し、選定された検査時期データの健康診断表16における位置を特定しつつ、位置が特定された検査時期データを抽出し、抽出した検査項目データと抽出した検査時期データとの交差領域に存在する字列を検査結果データとして抽出するから、取得した健康診断表16の字列のみから必要な検査項目データや検査時期データを抽出することができ、罫線の有無にかかわらず、各種の形式で作られた各種複数の健康診断表16に表示された各種複数のデータから必要な検査項目データおよび検査時期データとそれらデータに対応する検査結果データとを抽出することができる。   The form data extraction system 10 acquires all the character strings included in the read image of the medical examination table 16 (form), extracts the inspection item keyword character string and the inspection time keyword character string from the acquired character string, and selects them. The inspection item keyword character string and the inspection time keyword character string that satisfy the conditions are selected as inspection item data and inspection time data, and the position of the selected inspection item data in the health checkup table 16 is specified and the position specified. Extracting item data, specifying the position of the selected examination time data in the health checkup table 16, extracting the examination time data with the specified position, and intersecting the extracted examination item data with the extracted examination time data Since character strings existing in the region are extracted as test result data, necessary inspection items are obtained only from the character strings of the obtained health checkup table 16. Data and examination time data can be extracted, and necessary inspection item data and examinations from various data displayed in various medical examination tables 16 made in various formats regardless of the presence or absence of ruled lines. Time data and inspection result data corresponding to the data can be extracted.

帳票データ抽出システム10は、各種複数の健康診断表16を読み取るだけで、健康診断表16に表示された必要な検査項目データおよび検査時期データと必要な検査結果データとを抽出することができるから、健康診断表16に表示された各種複数のデータから検査項目キーワードに対応しつつ選択条件を満たした必要な検査項目データを自動的かつ短時間に抽出することができ、検査時期キーワードに対応しつつ選択条件を満たした必要な検査時期データを自動的かつ短時間に抽出することができる。   The form data extraction system 10 can extract necessary inspection item data and examination time data displayed on the health examination table 16 and necessary examination result data only by reading various types of health examination tables 16. The necessary inspection item data satisfying the selection conditions can be automatically extracted in a short time from the various data displayed on the health checkup table 16 while corresponding to the inspection item keyword. However, necessary inspection time data that satisfies the selection conditions can be extracted automatically and in a short time.

帳票データ抽出システム10は、検査項目キーワードや検査時期キーワード、選択条件を利用することで、健康診断表16に表示された各種複数のデータからの不要な検査項目データや不要な検査時期データの抽出を防ぐことができ、不要な検査項目データや不要な検査時期データに対応する検査結果データの抽出を防ぐことができるとともに、時期がずれた検査結果データの抽出を防ぐことができる。帳票データ抽出システム10は、社員が健康診断表16に表示されたデータを入力装置を介して入力する必要はなく、検査項目データや検査時期データ、検査結果データの入力や抽出にかかる時間やコストを省くことができる。   The form data extraction system 10 extracts unnecessary inspection item data and unnecessary inspection time data from a plurality of various data displayed on the health checkup table 16 by using the inspection item keyword, the inspection time keyword, and the selection condition. Therefore, it is possible to prevent extraction of inspection result data corresponding to unnecessary inspection item data and unnecessary inspection time data, and it is possible to prevent extraction of inspection result data out of time. The form data extraction system 10 does not require the employee to input the data displayed on the health checkup table 16 via the input device, and the time and cost required to input and extract inspection item data, inspection time data, and inspection result data. Can be omitted.

帳票データ抽出システム10は、医務査定を行う社員が健康診断表16に表示されたデータを入力する必要はなく、医務査定にかかる時間を大幅に短縮することができ、医務査定にかかるコストを大幅に縮小することができる。また、医務査定を行う社員が健康診断表16に表示されたデータを入力することによる検査項目データや検査時期データ、検査結果データの選別ミスや入力ミスの発生を防ぐことができる。   The form data extraction system 10 does not require the employee who conducts the medical examination to input the data displayed in the medical checkup table 16, and can significantly reduce the time required for the medical examination, greatly increasing the cost of the medical examination. Can be reduced. In addition, it is possible to prevent occurrence of selection mistakes and input mistakes in inspection item data, inspection time data, and inspection result data caused by an employee who conducts medical examination inputting data displayed in the health checkup table 16.

10 帳票データ抽出システム
11 処理マシン
12 光学文字読取装置(OCR)
15 ツリー構造辞書
16 健康診断表(帳票)
17 字列テキスト
18 キーワード字列テキスト
19 選定データリスト
20 検査項目データリスト
21 検査項目データ・検査時期データリスト
22 検査項目データ・検査時期データ・検査結果データリスト
23 抽出データ表
10 Form Data Extraction System 11 Processing Machine 12 Optical Character Reader (OCR)
15 Tree structure dictionary 16 Health checkup table (form)
17 Character string text 18 Keyword character string text 19 Selected data list 20 Inspection item data list 21 Inspection item data / inspection time data list 22 Inspection item data / inspection time data / inspection result data list 23 Extracted data table

Claims (16)

コンピュータ資源を利用し、各種の形式で作られた各種複数の帳票に表示された各種複数のデータから必要な項目データと前記項目データの帳票への表示時期を表す時期データとを抽出するとともに、前記項目データおよび前記時期データに対応する対応データを抽出する帳票データ抽出システムにおいて、
前記帳票データ抽出システムが、各種複数の帳票を読み取って各帳票の画像を取得する画像取得手段と、前記画像に含まれるすべての字列を取得する字列取得手段と、取得した字列からあらかじめ設定された項目キーワードと同一の字列を項目キーワード字列として抽出する項目キーワード字列抽出手段と、取得した字列からあらかじめ設定された時期キーワードと同一の字列を時期キーワード字列として抽出する時期キーワード字列抽出手段と、所定の選択条件を前記項目キーワード字列に適用し、前記選択条件を満たす項目キーワード字列を前記項目データとして選定する項目データ選定手段と、所定の選択条件を前記時期キーワード字列に適用し、前記選択条件を満たす時期キーワード字列を前記時期データとして選定する時期データ選定手段と、前記項目データ選定手段によって選定した項目データの前記帳票における位置を特定しつつ、位置が特定された項目データを抽出する項目データ抽出手段と、前記項目データ抽出手段によって位置が特定された項目データの近傍であって前記時期データ選定手段によって選定された時期データの前記帳票における位置を特定しつつ、位置が特定された時期データを抽出する時期データ抽出手段と、前記項目データ抽出手段によって位置が特定された項目データと前記時期データ抽出手段によって位置が特定された時期データとの交差領域に存在する字列を前記対応データとして抽出する対応データ抽出手段とを有することを特徴とする帳票データ抽出システム。
Using computer resources, extracting necessary item data and time data representing the display time of the item data on the form from various data displayed on various forms created in various formats, In the form data extraction system for extracting the corresponding data corresponding to the item data and the time data,
The form data extraction system includes an image acquisition unit that reads a plurality of forms and acquires an image of each form, a character string acquisition unit that acquires all the character strings included in the image, and an acquired character string in advance. Item keyword string extraction means for extracting the same character string as the set item keyword as the item keyword string, and the same character string as the time keyword set in advance from the acquired character string is extracted as the time keyword string A time keyword character string extracting means, an item data selecting means for applying a predetermined selection condition to the item keyword character string, and selecting an item keyword character string satisfying the selection condition as the item data, and a predetermined selection condition Time data that is applied to the time keyword string and selects the time keyword string that satisfies the selection condition as the time data Determining the position of the item data selected by the item data selecting means in the form, and extracting the item data whose position is specified, and the item data extracting means specifies the position. Time data extracting means for extracting the time data whose position is specified while specifying the position of the time data selected by the time data selecting means in the form in the vicinity of the item data, and the item data extracting means Corresponding data extracting means for extracting, as the corresponding data, a character string existing in an intersection region between the item data whose position is specified by the time data and the time data whose position is specified by the time data extracting means. Form data extraction system.
前記画像取得手段が、各帳票のカラーイメージ画像の2値化画像と各帳票のカラーイメージ画像から特定の色情報を除去した画像の2値化画像と各帳票の白黒反転画像とを取得し、前記字列取得手段が、前記カラーイメージ画像の2値化画像と前記カラーイメージ画像から特定の色情報を除去した画像の2値化画像と前記白黒反転画像とに含まれるすべての字列を取得する請求項1に記載の帳票データ抽出システム。   The image acquisition means acquires a binary image of a color image image of each form, a binary image of an image obtained by removing specific color information from the color image image of each form, and a black and white inverted image of each form, The character string acquisition means acquires all character strings included in the binary image of the color image image, the binary image of an image obtained by removing specific color information from the color image image, and the black-and-white inverted image The form data extraction system according to claim 1. 前記帳票データ抽出システムが、前記字列取得手段によって取得したそれら字列の字列テキストを作成する字列テキスト作成手段と、前記項目キーワード字列抽出手段と前記時期キーワード字列抽出手段とによって抽出した項目キーワード字列および時期キーワード字列のキーワード字列テキストを作成するキーワード字列テキスト作成手段とを含み、前記項目キーワード字列抽出手段と前記時期キーワード字列抽出手段とが、前記字列テキストに存在する字列から前記項目キーワード字列と前記時期キーワード字列とを抽出し、前記項目データ選定手段と前記時期データ選定手段とが、前記キーワード字列テキストに存在する項目キーワード字列および時期キーワード字列に前記選択条件を適用し、該選択条件を満たす項目キーワード字列および時期キーワード字列を前記項目データおよび前記時期データとして選定する請求項1または請求項2に記載の帳票データ抽出システム。   The form data extraction system extracts the text string of the character strings acquired by the character string acquisition means, the item keyword character string extraction means, and the time keyword character string extraction means. Keyword string text creating means for creating the keyword string text of the item keyword string and the period keyword string, and the item keyword string extraction means and the period keyword string extraction means are the string text. The item keyword character string and the time keyword character string are extracted from the character string existing in the item character string, and the item data selecting means and the time data selecting means are the item keyword character string and the time existing in the keyword character string text. Apply the selection condition to the keyword string, and the item keyword string that satisfies the selection condition Form data extraction system according to claim 1 or claim 2 selected timing keyword string as said item data and said timing data and. 前記帳票データ抽出システムが、前記字列取得手段によって取得したそれら字列を形成する1字毎の座標と縦横寸法とを取得する座標・寸法取得手段を含み、前記項目キーワード字列抽出手段と前記時期キーワード字列抽出手段とが、前記座標・寸法取得手段によって取得した前記字列の1字毎の縦横寸法を参照しつつ、前記項目キーワード字列および前記時期キーワード字列のうちの所定の字の縦横寸法が他の字のそれと異なる場合、その字を含む字列を項目キーワード字列および時期キーワード字列から除外する請求項1ないし請求項3いずれかに記載の帳票データ抽出システム。   The form data extraction system includes coordinate / dimension acquisition means for acquiring coordinates and vertical and horizontal dimensions for each character forming the character strings acquired by the character string acquisition means, and the item keyword character string extraction means and the item The time keyword character string extraction unit refers to the vertical and horizontal dimensions of each character of the character string acquired by the coordinate / dimension acquisition unit, and the predetermined character of the item keyword character string and the time keyword character string. The form data extraction system according to any one of claims 1 to 3, wherein a character string including the character is excluded from the item keyword character string and the time keyword character string when the vertical and horizontal dimensions of the character are different from those of other characters. 前記帳票データ抽出システムが、前記項目キーワードに対応する対応データの形式を各項目キーワード毎に定義する対応データ形式定義手段を含み、前記対応データ抽出手段が、前記対応データ形式定義手段によって定義された形式に合致した対応データを抽出する請求項1ないし請求項4いずれかに記載の帳票データ抽出システム。   The form data extraction system includes corresponding data format defining means for defining a format of corresponding data corresponding to the item keyword for each item keyword, and the corresponding data extracting means is defined by the corresponding data format defining means. The form data extraction system according to any one of claims 1 to 4, wherein corresponding data that matches the format is extracted. 前記項目キーワード字列抽出手段と前記時期キーワード字列抽出手段とが、抽出した項目キーワード字列および時期キーワード字列を囲繞する矩形座標とその矩形座標の縦横寸法とを取得し、所定の項目キーワード字列および所定の時期キーワード字列の矩形座標の縦横寸法があらかじめ設定した矩形座標の縦横寸法未満または縦横寸法を超過する場合、その矩形座標に囲繞された字列を項目キーワード字列および時期キーワード字列から除外する請求項1ないし請求項5いずれかに記載の帳票データ抽出システム。   The item keyword character string extracting means and the time keyword character string extracting means obtain rectangular coordinates surrounding the extracted item keyword character string and time keyword character string and the vertical and horizontal dimensions of the rectangular coordinates, and a predetermined item keyword. If the vertical and horizontal dimensions of the rectangular coordinates of the character string and the specified time keyword character string are less than the vertical and horizontal dimensions of the rectangular coordinates set in advance or exceed the vertical and horizontal dimensions, the character string enclosed by the rectangular coordinates is replaced with the item keyword character string and the time keyword 6. The form data extraction system according to claim 1, wherein the form data extraction system is excluded from a character string. 前記字列テキスト作成手段によって作成された字列テキストには、前記座標・寸法取得手段によって取得した前記座標と前記縦横寸法とが含まれ、前記項目キーワード字列抽出手段と前記時期キーワード字列抽出手段とが、前記字列テキストから項目キーワード字列および時期キーワード字列の1字毎の座標と縦横寸法とを取得するとともに、前記項目キーワード字列および前記時期キーワード字列の1字毎の座標と縦横寸法とを利用して該項目キーワード字列および該時期キーワード字列の矩形座標とその矩形座標の縦横寸法とを取得する請求項4ないし請求項6いずれかに記載の帳票データ抽出システム。   The character string text created by the character string text creating means includes the coordinates and vertical and horizontal dimensions acquired by the coordinate / dimension acquiring means, and the item keyword character string extracting means and the time keyword character string extracting function. Means obtains the coordinates and vertical and horizontal dimensions of the item keyword string and the period keyword string from the string text, and the coordinates of the item keyword string and the period keyword string for each character. The form data extraction system according to any one of claims 4 to 6, wherein rectangular coordinates of the item keyword character string and the time keyword character string and vertical and horizontal dimensions of the rectangular coordinates are acquired using the vertical and horizontal dimensions. 前記項目データ選定手段における選択条件が、各項目キーワード字列を比較するとともに各項目キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の項目キーワード字列が複数存在する場合、1つの項目キーワード字列を前記項目データとして採用し、その他の項目キーワード字列を削除し、前記時期データ選定手段における選択条件が、各時期キーワード字列を比較するとともに各時期キーワード字列の矩形座標を比較し、同一の矩形座標に存在する同一の時期キーワード字列が複数存在する場合、1つの時期キーワード字列を前記時期データとして採用し、その他の時期キーワード字列を削除する請求項5ないし請求項7いずれかに記載の帳票データ抽出システム。   When the selection conditions in the item data selection means compare each item keyword string and compare the rectangular coordinates of each item keyword string, if there are a plurality of the same item keyword strings existing in the same rectangular coordinates, One item keyword string is adopted as the item data, the other item keyword strings are deleted, and the selection condition in the period data selection means is that each period keyword string is compared and the rectangle of each period keyword string is The coordinates are compared, and when there are a plurality of identical time keyword character strings existing at the same rectangular coordinates, one time keyword character string is adopted as the time data, and the other time keyword character strings are deleted. The form data extraction system according to claim 7. 前記項目データ選定手段における選択条件が、1つの項目キーワード字列の中に字数の多い項目キーワード字列と字数の少ない項目キーワード字列とが含まれる場合、字数の多い項目キーワード字列と同一の項目キーワード字列を前記項目データとして採用し、前記時期データ選定手段における選択条件が、1つの時期キーワード字列の中に字数の多い時期キーワード字列と字数の少ない時期キーワード字列とが含まれる場合、字数の多い時期キーワード字列と同一の時期キーワード字列を前記時期データとして採用する請求項1ないし請求項8いずれかに記載の帳票データ抽出システム。   When the selection condition in the item data selection means includes an item keyword character string having a large number of characters and an item keyword character string having a small number of characters in one item keyword character string, it is the same as the item keyword character string having a large number of characters. An item keyword character string is adopted as the item data, and the selection condition in the time data selecting means includes a time keyword character string having a large number of characters and a time keyword character string having a small number of characters in one time keyword character string. The form data extraction system according to any one of claims 1 to 8, wherein the same time keyword character string as a time keyword character string having a large number of characters is adopted as the time data. 前記項目データ選定手段における選択条件が、1つの項目キーワード字列の中に字列が重なる複数の項目キーワード字列が含まれる場合、横書きの項目キーワード字列では1番左に位置する項目キーワード字列を前記項目データとして採用しつつその他の項目キーワード字列を削除し、縦書きの項目キーワード字列では1番上に位置する項目キーワード字列を前記項目データとして採用しつつその他の項目キーワード字列を削除し、前記時期データ選定手段における選択条件が、1つの時期キーワード字列の中に字列が重なる複数の時期キーワード字列が含まれる場合、横書きの時期キーワード字列では1番左に位置する時期キーワード字列を前記時期データとして採用しつつその他の時期キーワード字列を削除し、縦書きの時期キーワード字列では1番上に位置する時期キーワード字列を前記時期データとして採用しつつその他の時期キーワード字列を削除する請求項1ないし請求項9いずれかに記載の帳票データ抽出システム。   When the selection condition in the item data selection means includes a plurality of item keyword strings in which character strings overlap in one item keyword character string, the item keyword character positioned at the leftmost in the horizontally written item keyword string Other item keyword character strings are deleted while adopting a column as the item data, and other item keyword characters are adopted as the item data while adopting the item keyword character string located at the top in the vertically written item keyword character string. If the column is deleted and the selection condition in the time data selection means includes a plurality of time keyword strings in which the character strings overlap in one time keyword character string, it is leftmost in the horizontally written time keyword character string. While adopting the time keyword string that is located as the time data, the other time keyword strings are deleted, and the vertical time keyword Form data extraction system according to any one of claims 1 to 9 to remove additional timing keyword string of while adopting the timing keyword string positioned at the top as the timing data in the column. 前記時期データ抽出手段では、前記項目データ抽出手段によって位置が特定された項目データから最も近くであって、該項目データの右方かつ該項目データの上方の矩形座標を前記時期データ選定手段によって選定された時期データの位置として定義し、前記対応データ抽出手段が、前記項目データ抽出手段によって位置が特定された項目データの矩形座標から右方に延ばした座標軸と前記時期データ抽出手段によって位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域の矩形座標の中に存在する字列を前記対応データとして抽出する請求項5ないし請求項10いずれかに記載の帳票データ抽出システム。   In the time data extraction unit, the time data selection unit selects a rectangular coordinate which is closest to the item data whose position is specified by the item data extraction unit and which is to the right of the item data and above the item data. And the corresponding data extracting means specifies the position by the coordinate axis extending rightward from the rectangular coordinates of the item data whose position is specified by the item data extracting means and the time data extracting means. The form data according to any one of claims 5 to 10, wherein a character string existing in a rectangular coordinate of an intersecting region where a coordinate axis extending downward from the rectangular coordinate of the generated time data intersects is extracted as the corresponding data. Extraction system. 前記時期データ抽出手段では、前記項目データ抽出手段によって位置が特定された項目データから最も近くであって、該項目データの右方かつ該項目データの上方の矩形座標を前記時期データ選定手段によって選定された時期データの位置として定義し、前記対応データ抽出手段が、前記項目データ抽出手段によって位置が特定された項目データの矩形座標から右方に延ばした座標軸と前記時期データ抽出手段によって位置が特定された時期データの矩形座標から下方に延ばした座標軸とが交差する交差領域において該項目データの縦横寸法のいずれか一方と該時期データの縦横寸法のいずれか他方とを採用した矩形座標を設定し、その矩形座標の中に存在する字列を前記対応データとして抽出する請求項5ないし請求項11いずれかに記載の帳票データ抽出システム。   In the time data extraction unit, the time data selection unit selects a rectangular coordinate which is closest to the item data whose position is specified by the item data extraction unit and which is to the right of the item data and above the item data. And the corresponding data extracting means specifies the position by the coordinate axis extending rightward from the rectangular coordinates of the item data whose position is specified by the item data extracting means and the time data extracting means. In the intersecting area where the coordinate axes extending downward from the rectangular coordinates of the time data set are set, rectangular coordinates adopting either the vertical or horizontal dimensions of the item data and the other of the vertical or horizontal dimensions of the time data are set. The character string existing in the rectangular coordinates is extracted as the corresponding data. Form data extraction system. 前記項目データ抽出手段が、前記項目データ選定手段によって選定した項目データのうち、同一の第1項目データが異なる矩形座標に存在する場合、それら第1項目データを中心に縦方向と横方向とのいずれか一方へ向かって第1項目データと同一のカテゴリーに含まれる他の第2項目データを検索し、第1項目データを中心として縦方向または横方向へ並ぶ第2項目データの多少を判断しつつ、第2項目データが多く並ぶ方の第1項目データを前記項目データとして抽出し、抽出した項目データの矩形座標を前記帳票における該項目データの位置とする請求項5ないし請求項12いずれかに記載の帳票データ抽出システム。   When the same first item data exists in different rectangular coordinates among the item data selected by the item data selection unit by the item data extraction unit, the vertical and horizontal directions are centered on the first item data. Search for other second item data included in the same category as the first item data toward either one, and determine the amount of second item data arranged in the vertical or horizontal direction around the first item data. On the other hand, the first item data in which more second item data are arranged is extracted as the item data, and the rectangular coordinates of the extracted item data are set as the position of the item data in the form. Form data extraction system described in 1. 前記帳票データ抽出システムが、前記項目データおよび前記時期データに関連する各種複数のカテゴリーと、それらカテゴリーにつながって前記項目データに関連する各種複数の項目キーワードと、それらカテゴリーにつながって前記時期データに関連する各種複数の時期キーワードとから形成されたツリー構造辞書を記憶する辞書記憶手段を含み、前記帳票データ抽出システムでは、前記カテゴリーと前記項目キーワードと前記時期キーワードとを何時でも任意に追加・変更・削除可能である請求項1ないし請求項13いずれかに記載の帳票データ抽出システム。   The form data extraction system includes a plurality of categories related to the item data and the time data, a plurality of item keywords related to the item data connected to the categories, and the time data connected to the categories. It includes a dictionary storage means for storing a tree structure dictionary formed from a plurality of related various time keywords. In the form data extraction system, the category, the item keyword, and the time keyword can be arbitrarily added or changed at any time. The form data extraction system according to any one of claims 1 to 13, wherein the form data extraction system can be deleted. 前記ツリー構造辞書が、それら項目キーワードにつながって各項目キーワードに関連する類似項目キーワードと、それら時期キーワードにつながって各時期キーワードに関連する類似時期キーワードとを含み、前記項目キーワード字列抽出手段が、取得した字列から前記項目キーワードおよび前記類似項目キーワードと同一の字列を項目キーワード字列として抽出し、前記時期キーワード字列抽出手段が、取得した字列から前記時期キーワードおよび前記類似時期キーワードと同一の字列を時期キーワード字列として抽出する請求項14に記載の帳票データ抽出システム。   The tree structure dictionary includes similar item keywords related to the item keywords connected to the item keywords and similar time keywords related to the time keywords connected to the item keywords, and the item keyword character string extracting means The character string identical to the item keyword and the similar item keyword is extracted as an item keyword character string from the acquired character string, and the time keyword character string extracting means extracts the time keyword and the similar time keyword from the acquired character string. The form data extraction system according to claim 14, wherein the same character string is extracted as a time keyword character string. 前記帳票が、各種の形式で作られた非定型の複数の健康診断表であり、前記項目データが、前記健康診断表に表示された検査項目データであり、前記時期データが、前記健康診断表に表示された検査時期データであり、前記対応データが、前記検査項目データと前記検査時期データとに対応する検査結果データである請求項1ないし請求項15いずれかに記載の帳票データ抽出システム。   The form is a plurality of atypical health checkup tables made in various formats, the item data is test item data displayed on the health checkup table, and the time data is the health checkup table. The form data extraction system according to claim 1, wherein the correspondence data is inspection result data corresponding to the inspection item data and the inspection time data.
JP2015085755A 2015-04-20 2015-04-20 Document data extraction system Pending JP2016206823A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015085755A JP2016206823A (en) 2015-04-20 2015-04-20 Document data extraction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015085755A JP2016206823A (en) 2015-04-20 2015-04-20 Document data extraction system

Publications (1)

Publication Number Publication Date
JP2016206823A true JP2016206823A (en) 2016-12-08

Family

ID=57489880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015085755A Pending JP2016206823A (en) 2015-04-20 2015-04-20 Document data extraction system

Country Status (1)

Country Link
JP (1) JP2016206823A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080408A (en) * 2017-01-03 2018-07-12 주식회사 페이스시스템 Structured data and unstructured data extraction system and method
WO2023101232A1 (en) * 2021-11-30 2023-06-08 가톨릭대학교 산학협력단 Digitization device and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080408A (en) * 2017-01-03 2018-07-12 주식회사 페이스시스템 Structured data and unstructured data extraction system and method
KR101942468B1 (en) * 2017-01-03 2019-02-08 주식회사 페이스시스템 Structured data and unstructured data extraction system and method
WO2023101232A1 (en) * 2021-11-30 2023-06-08 가톨릭대학교 산학협력단 Digitization device and method

Similar Documents

Publication Publication Date Title
Jonas et al. Smartphone-based diagnostic for preeclampsia: an mHealth solution for administering the Congo Red Dot (CRD) test in settings with limited resources
Madden et al. Potential value of patient record review to assess and improve patient safety in general practice: a systematic review
US11094403B2 (en) Method and apparatus for collecting test data from use of a disposable test kit
US10290365B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
US9471800B2 (en) Securing visual information on images for document capture
CN110931097A (en) Processing and analyzing system for inspection report
CN111180027B (en) Patient portrait correlation rule screening method and device based on medical big data
JP2022162021A (en) management system
JP2016206823A (en) Document data extraction system
CN111477289A (en) Method and device for storing and reading detection report
JP5578889B2 (en) Interpretation report creation support apparatus and interpretation report creation support method
JP2009059381A (en) Medical diagnosis support method and device, and diagnosis support information recording medium
CN117407682A (en) Medical model evaluation method, device, electronic equipment and storage medium
JP6751128B2 (en) Research information management system
Salawu et al. Comparison of two hospital stroke scores with computerized tomography in ascertaining stroke type among Nigerians
Leh et al. Systematic reporting of medical kidney biopsies
WO2020175662A1 (en) Dictionary creating device, dictionary creating method, and dictionary creating program
JP2009163596A (en) Medical examination support apparatus and medical examination support system
JP2017182101A (en) Comprehension tendency measuring system
Lee et al. Scoping Review of Measures of Comorbidities in Heart Failure
JP2009157028A (en) Cytoscopy education support system, central device, terminal unit and computer program
JP6379374B1 (en) Composite server device for remote evaluation of capillaries and capillary evaluation program
JP2001125995A (en) Medical report system
JP5356905B2 (en) Document management apparatus, image reading apparatus, document management system, document management method, and program
US20140094699A1 (en) Process for producing a radiology report

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20161021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161021