JP2003296697A - Specimen mix-up determining method, and preparing method for map and learning data used in method - Google Patents

Specimen mix-up determining method, and preparing method for map and learning data used in method

Info

Publication number
JP2003296697A
JP2003296697A JP2002100421A JP2002100421A JP2003296697A JP 2003296697 A JP2003296697 A JP 2003296697A JP 2002100421 A JP2002100421 A JP 2002100421A JP 2002100421 A JP2002100421 A JP 2002100421A JP 2003296697 A JP2003296697 A JP 2003296697A
Authority
JP
Japan
Prior art keywords
data
som
learning
cells
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002100421A
Other languages
Japanese (ja)
Other versions
JP2003296697A5 (en
Inventor
Nobuyuki Matsui
伸之 松井
Noriaki Koeda
徳晃 小枝
Kazuyuki Kanai
一之 金井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sysmex Corp
Original Assignee
Sysmex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sysmex Corp filed Critical Sysmex Corp
Priority to JP2002100421A priority Critical patent/JP2003296697A/en
Publication of JP2003296697A publication Critical patent/JP2003296697A/en
Publication of JP2003296697A5 publication Critical patent/JP2003296697A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a specimen mix-up determining method capable of considering all inspection items. <P>SOLUTION: Unknown data is arranged on the map clustered into a cluster of specimen mix-up data and a cluster of normal data, and whether nor not a specimen is mixed up is determined by to which cluster the unknown data belongs. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、検体取り違い判定
方法およびその方法に使用されるマップおよび学習デー
タの作成方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for determining a sample error and a method for creating maps and learning data used in the method.

【0002】[0002]

【従来の技術】近年、臨床検査分野において、検体を自
動で分析する自動分析装置の発達が目覚しく、検体の処
理能力が向上してきている。例えば、血液検査において
は、1時間に150検体の測定が可能な血液分析装置(例え
ば、XE-2100(シスメックス株式会社製))が知られて
いる。一方で、検体の処理能力の向上とともに1日に取
り扱う検体数が増加し、自動分析装置の使用者が検体を
取り違える危険性も高まってきている。検体を取り違え
るとは、ある被験者Aの検体を別の被験者Bの検体と間違
えてしまうことをいう。医師が治療方法を決定する場合
には、検体の検査結果を参考にするのが通常であるた
め、検体を取り違えることは重大な医療ミスにつながる
ものであり、絶対に避けなければならない。
2. Description of the Related Art In recent years, in the field of clinical examination, the development of an automatic analyzer for automatically analyzing a sample has been remarkable, and the sample processing capacity has been improved. For example, in blood tests, a blood analyzer (for example, XE-2100 (manufactured by Sysmex Corporation)) capable of measuring 150 samples per hour is known. On the other hand, the number of samples handled per day has increased with the improvement of the sample processing capacity, and the risk that the user of the automatic analyzer mixes the samples is also increasing. Mistaken the sample means that the sample of one subject A is mistaken for the sample of another subject B. When a doctor decides a treatment method, it is usual to refer to a test result of a sample, and therefore, a mistake of a sample leads to a serious medical error and must be absolutely avoided.

【0003】[0003]

【発明が解決しようとする課題】従来は、検体の取り違
いを判定するために、特定の検査項目にのみ注目し、そ
の検査結果が前回の検査結果と大きく乖離していれば検
体の取り違いの可能性ありとして再検査していた。しか
し、従来の検体取り違い判定方法は、すべての検査項目
を考慮しているものではなく、有効に検体取り違いを判
定できているとは言い難いものであった。そこで本発明
は、すべての検査項目を考慮することが可能な、有効な
検体取り違い判定方法を提供することを目的とする。
Conventionally, in order to determine a sample error, only a specific test item is focused on, and if the test result largely deviates from the previous test result, the sample error occurs. I was re-examined as a possibility of. However, it is difficult to say that the conventional method of determining a sample difference is not a method that considers all test items and that the sample difference can be effectively determined. Therefore, it is an object of the present invention to provide an effective method for determining a sample difference, which can consider all test items.

【0004】[0004]

【課題を解決するための手段】上記課題を解決するため
になされた本発明の検体取り違い判定方法は、検体取り
違いデータの集まるクラスタと正常データの集まるクラ
スタとにクラスタリングされたマップに未知データを配
置させ、その未知データがどのクラスタに属するかによ
って検体を取り違えているか否かを判定する。
Means for Solving the Problems The method for determining a sample error of the present invention made to solve the above-mentioned problem is to provide unknown data on a map clustered into a cluster of sample error data and a cluster of normal data. Are arranged, and it is determined whether or not the sample is confused by which cluster the unknown data belongs to.

【0005】また本発明は、検体取り違い判定に使用す
るマップを作成する方法であって、正常データと検体取
り違いデータの混在する学習データを学習させて学習済
マップを作成し、学習済マップを正常データの集まるク
ラスタと検体取り違いデータの集まるクラスタとにクラ
スタリングするマップ作成方法を提供する。
Further, the present invention is a method for creating a map used for determination of sample difference, in which learning data in which normal data and sample difference data are mixed is learned to create a learned map, and a learned map is created. There is provided a map creation method for clustering a cluster of normal data and a cluster of sample difference data.

【0006】また本発明は、検体取り違い判定に使用す
るマップの作成に使用する学習データを作成する方法で
あって、異なる被験者の検体から検体取り違いデータを
作成し、同一の被験者の検体から正常データを作成し、
検体取り違いデータおよび正常データを混在させる学習
データ作成方法を提供する。
Further, the present invention is a method for creating learning data used for creating a map used for determination of sample difference, in which sample difference data is created from samples of different subjects, and samples of the same subject are obtained. Create normal data,
Provided is a learning data creation method for mixing sample misplacement data and normal data.

【0007】検体取り違いとは、ある被験者Aの検体を
別の被験者Bの検体と間違えてしまうことをいう。通
常、同一被験者の検体の場合、その検査結果は1回目の
検査結果(前回値データ)と2回目の検査結果(今回値
データ)との間には何らかの相関関係がある。これに対
し、異なる被験者の検体を比較してもその検査結果に相
関関係は認められない。本発明は、これを利用して検体
取り違いを判定する方法を提供するものである。
[0007] The difference in the sample means that the sample of one subject A is mistaken for the sample of another subject B. Usually, in the case of a sample of the same subject, the test result has some correlation between the first test result (previous value data) and the second test result (current value data). On the other hand, there is no correlation in the test results even when the samples of different subjects are compared. The present invention provides a method for determining a sample error using this.

【0008】検体取り違いデータとは、ある被験者Aの
検体の検査結果と別の被験者Bの検体の検査結果から作
成したデータであり、好ましくは、両者の検査結果の各
項目についての差の絶対値をベクトル化したデータであ
る。正常データとは、ある被験者Aの検体の1回目の検査
結果(前回値データ)と2回目の検査結果(今回値デー
タ)から作成したデータであり、好ましくは、2つの検
査結果の各項目についての差の絶対値をベクトル化した
データである。このデータは、検体取り違いデータと同
様の方法で作成される。未知データとは、任意の2つの
検体の検査結果から、検体取り違いデータおよび正常デ
ータと同様の方法で作成されたデータである。このデー
タは、検体取り違いか否かを判定されるデータである。
The sample difference data is data created from the test result of the sample of a subject A and the test result of the sample of another subject B, and preferably the absolute difference between each item of the test results of both subjects. It is data that vectorized the value. Normal data is data created from the first test result (previous value data) and the second test result (current value data) of a sample of subject A, and preferably for each item of the two test results. It is the data obtained by vectorizing the absolute value of the difference. This data is created in the same manner as the sample replacement data. The unknown data is data created from the test results of any two samples by the same method as the sample difference data and the normal data. This data is the data for determining whether or not the sample is wrong.

【0009】[0009]

【発明の実施の形態】本発明の方法に使用されるマップ
にはSOM(自己組織化マップ)を用いてもよい。本発
明の方法に使用されるマップを作成する装置としては、
クラスタリング装置が使用でき、例えば、数値の組から
なる「ベクトルデータ」を含んだ「学習データ」が読み
込まれる学習データ読込部と、学習データ読込部で読み
込まれた複数の学習データをもとにして、2次元面上に
規則的に配列された「セル」に位置情報が割り付けられ
たマップを作成するマップ作成部と、マップ上の各セル
間の「距離」を算出する距離演算部と、マップ上に距離
演算部で算出された距離を視覚的に表示するための距離
表示部を設けるクラスタリング装置が使用できる。この
クラスタリング装置によれば、学習データ読込部は数値
の組からなるベクトルデータを含んだ「学習データ」を
読み込む。読み込む学習データの数は、学習データを構
成するベクトルデータの次元数やマップ上のセル数によ
って異なるが、一般に学習データ数が多いほど学習結果
が改善されていく半面、学習に時間を要することになる
のでこれらを勘案して適当な数とする。例えば、3次元
ベクトルデータの学習データの場合は数千個程度あれば
十分である。
The map used in the method of the present invention may be an SOM (self-organizing map). As a device for creating a map used in the method of the present invention,
A clustering device can be used, for example, based on a learning data reading unit in which “learning data” including “vector data” consisting of a set of numerical values is read, and a plurality of learning data read in the learning data reading unit. A map creation unit that creates a map in which position information is assigned to "cells" that are regularly arranged on a two-dimensional surface, a distance calculation unit that calculates a "distance" between each cell on the map, and a map A clustering device provided with a distance display unit for visually displaying the distance calculated by the distance calculation unit can be used. According to this clustering device, the learning data reading unit reads “learning data” including vector data consisting of a set of numerical values. The number of learning data to read depends on the number of dimensions of the vector data that constitutes the learning data and the number of cells on the map. Generally, the larger the number of learning data, the better the learning result, but it takes time for learning. Therefore, the appropriate number should be set in consideration of these. For example, in the case of learning data of three-dimensional vector data, it is sufficient to have several thousands.

【0010】マップ作成部は、学習データ読込部から順
次学習データを取り出す。マップ作成部では、例えば、
T.Kohonenによって提案された自己組織化学習アルゴリ
ズムに基づいて取り出した学習データを用いて順次学習
を行うことにより、2次元面上に規則的に配列されたセ
ルのそれぞれに「ベクトルデータ」と同次元のベクトル
値からなる位置情報としての意味を有する「参照デー
タ」を割り付けたマップ、例えばSOM(自己組織化マ
ップ)を作成する。
The map creating section sequentially extracts the learning data from the learning data reading section. In the map creation section, for example,
By sequentially learning using the learning data extracted based on the self-organizing learning algorithm proposed by T. Kohonen, the same as “vector data” is obtained for each cell regularly arranged on the two-dimensional surface. A map, such as an SOM (self-organizing map), to which “reference data” having a meaning as position information composed of dimensional vector values is assigned is created.

【0011】距離演算部は、マップを構成している各セ
ル間の距離を算出する。距離は、距離測定の対象となる
2つのセルがそれぞれ有する参照ベクトルのベクトル的
な差を数値的に表現できる指標値であれば何でもよい。
例えば後述する「ユークリッド距離」が用いられる。ま
た、「ユークリッド距離」に代えて、ベクトルの「内
積」を用いてもよい。
The distance calculation unit calculates the distance between cells forming the map. The distance may be any index value as long as it can numerically represent the vectorial difference between the reference vectors of the two cells that are the objects of distance measurement.
For example, “Euclidean distance” described later is used. Also, instead of the “Euclidean distance”, the “inner product” of the vector may be used.

【0012】距離表示部は、距離演算部で算出された各
セル間の距離に基づいて、マップ上に距離を視覚的に表
示する。距離を視覚的に表示する方法としては、セル間
の距離を境界線の太さにより表示するのが好ましい。ま
た、境界線の線種(線の種類)を変え、あるいはセルの
色を変えて距離を表現してもよい。
The distance display unit visually displays the distance on the map based on the distance between the cells calculated by the distance calculation unit. As a method of visually displaying the distance, it is preferable to display the distance between cells by the thickness of the boundary line. Further, the line type (line type) of the boundary line may be changed, or the color of the cell may be changed to express the distance.

【0013】また、この発明の方法に使用されるマップ
を作成するクラスタリング装置の別の例としては、数値
の組からなる「ベクトルデータ」とデータの種類に関す
る情報である「属性データ」とを含んだ「学習データ」
が読み込まれる学習データ読込部と、学習データ読込部
で読み込まれた複数の学習データに対して「SOM学習
アルゴリズム」に基づく学習を行うことにより、2次元
面上に規則的に配列された「セル」に対してセルごとに
学習データと同次元のベクトルデータからなる「参照デ
ータ」が割り付けられるとともに、1つの学習データご
とに1つのセルを「発火セル」と定めてこの発火セルに
当該学習データに含まれる属性データと関連付けた「発
火情報」が割り付けられたSOMを作成するSOM作成
部と、SOM上の各セルに対し、セルに割り付けられた
発火情報に基づいて各セルの「クラスタ」を決定する分
類部とを備えるクラスタリング装置が使用できる。
Another example of a clustering device for creating a map used in the method of the present invention includes "vector data" consisting of a set of numerical values and "attribute data" which is information regarding the type of data. "Learning data"
The learning data reading unit that reads the data and the learning data read by the learning data reading unit performs learning based on the “SOM learning algorithm”, and thus the “cells regularly arranged on the two-dimensional surface “Reference data” consisting of vector data of the same dimension as the learning data is assigned to each cell, and one cell is defined as an “ignition cell” for each learning data and the learning data is assigned to this ignition cell. The SOM creating unit that creates the SOM to which the “firing information” associated with the attribute data included in the SOM is created, and for each cell on the SOM, the “cluster” of each cell based on the firing information allocated to the cell. A clustering device having a classifying unit for determining can be used.

【0014】このクラスタリング装置によれば、学習デ
ータ読込部は数値からなるベクトルデータを含んだ「学
習データ」を読み込む。SOM作成部は、学習データ読
込部から順次学習データを取り出し、T.Kohonenによっ
て提案された自己組織化学習アルゴリズム(SOM学習
アルゴリズム)に基づいて取り出した学習データを用い
て順次学習を行うことにより、2次元面上に規則的に配
列されたセルのそれぞれに「ベクトルデータ」と同次元
のベクトル値からなる「参照データ」を割り付ける。
According to this clustering device, the learning data reading unit reads "learning data" including vector data consisting of numerical values. The SOM creating unit sequentially extracts the learning data from the learning data reading unit and sequentially performs learning by using the learning data extracted based on the self-organizing learning algorithm (SOM learning algorithm) proposed by T. Kohonen. "Reference data" composed of vector values of the same dimension as the "vector data" is assigned to each of the cells regularly arranged on the two-dimensional surface.

【0015】SOM作成部は、1つの学習データごとに
その学習データに最も近いベクトル値を有する参照ベク
トルを有するセルを検索し、これを発火セルと定める。
そしてSOM作成部は、発火セルに当該学習データに含
まれる属性データと関連付けた発火情報を割り付ける。
セルによっては複数の学習データにより複数回発火セル
となる場合もある。その場合のセルの発火情報は累積さ
れていく。すべての学習データについて学習を行うとS
OM作成部はセルごとに参照データと発火情報とを割り
付けたSOMを作成する。
The SOM creating unit searches for a cell having a reference vector having a vector value closest to the learning data for each learning data, and defines it as an ignition cell.
Then, the SOM creating unit allocates the firing information associated with the attribute data included in the learning data to the firing cell.
Depending on the cell, a plurality of learning data may result in a firing cell multiple times. The cell firing information in that case is accumulated. When learning is performed for all learning data, S
The OM creation unit creates an SOM in which reference data and ignition information are assigned to each cell.

【0016】分類部は、SOM上の各セルに対し、セル
に割り付けられた発火情報に基づいて例えば後に詳述す
る自動分類アルゴリズムを用いて各セルの「クラスタ」
を決定し、SOMのクラスタリングを行う。
For each cell on the SOM, the classifying section uses a "cluster" of each cell based on the firing information assigned to the cell, for example, using an automatic classification algorithm which will be described in detail later.
And SOM clustering is performed.

【0017】このクラスタリング装置は、セルの発火情
報とセルのクラスタとの関係を示す対照表を表示する対
照表表示部をさらに備えてもよい。また、このクラスタ
リング装置は、セルの発火回数に基づいて算出される
「判別特性値」を表示する判別特性値表示部をさらに備
えてもよい。また、このクラスタリング装置は、分類部
が決定したセルのクラスタを調整するためのクラスタ調
整部をさらに備え、判別特性値表示部はクラスタ調整部
によるクラスタの調整に連動して判別特性値を更新する
ようにしてもよい。
The clustering device may further include a comparison table display section for displaying a comparison table showing the relationship between cell firing information and cell clusters. The clustering device may further include a discriminant characteristic value display unit that displays a “discriminant characteristic value” calculated based on the number of cell firings. The clustering device further includes a cluster adjustment unit for adjusting the cluster of cells determined by the classification unit, and the discrimination characteristic value display unit updates the discrimination characteristic value in synchronization with the cluster adjustment by the cluster adjustment unit. You may do it.

【0018】マップ、特にSOMをクラスタリングする
方法としては、セルごとに割り付けた参照データにもと
づいて算出されるセル間の「距離」を算出し、セルごと
の発火回数にもとづいて算出される「判別特性値」を算
出し、SOM上の各セルに対し、「距離」又は「判別特
性値」のいずれかにもとづいてあるいは両方にもとづい
て各セルの「クラスタ」を決定してクラスタリングする
方法を用いてもよい。このとき判別特性値には「効率」
「感度」「FNR」「FPR」「特異度」のいずれかが
含まれるようにしてもよい。
As a method of clustering maps, particularly SOMs, a "distance" between cells calculated based on reference data assigned to each cell is calculated, and a "discrimination" calculated based on the number of firings of each cell is calculated. A method of calculating a “characteristic value”, determining the “cluster” of each cell based on either “distance” or “discrimination characteristic value” or both for each cell on the SOM, and performing clustering. May be. At this time, the determination characteristic value is "efficiency"
Any of “sensitivity”, “FNR”, “FPR”, and “specificity” may be included.

【0019】[0019]

【実施例】以下、本発明の実施例について図面を用いて
説明する。ここでは、3つの異なる種類の血液検査デー
タ(MCV値、MCH値、MCHC値)を学習データの
対象とした例を用いて説明する。また、「SOM学習ア
ルゴリズム」に基づく学習を行うことによりマップ(S
OM)を作成するクラスタリング装置を使用する検体取
り違い判定方法を例に取り説明する。
Embodiments of the present invention will be described below with reference to the drawings. Here, description will be given using an example in which three different types of blood test data (MCV value, MCH value, MCHC value) are used as learning data targets. In addition, by performing learning based on the “SOM learning algorithm”, the map (S
The sample difference determination method using a clustering apparatus for creating OM) will be described as an example.

【0020】クラスタリング装置の構成 図1は本発明の一実施例の検体取り違い判定方法に使用
されるクラスタリング装置の構成を示すブロック構成図
である。図において10はクラスタリング装置、12は
入力装置、14は出力装置であり、CPU、ROM,R
AM,ハードディスク、キーボード、マウス、CRT等
からなるコンピュータシステムによりハード構成が形成
される。各部はBUSで接続されている。
Configuration of Clustering Device FIG. 1 is a block configuration diagram showing the configuration of a clustering device used in the sample difference determination method according to an embodiment of the present invention. In the figure, 10 is a clustering device, 12 is an input device, 14 is an output device, and is a CPU, ROM, and R.
A hardware configuration is formed by a computer system including an AM, a hard disk, a keyboard, a mouse, a CRT and the like. Each part is connected by BUS.

【0021】クラスタリング装置10は、学習データ読
込部16、SOM作成部18、距離演算部20、距離表
示部22、分類部24、対照表表示部26、判別特性値
表示部28、クラスタ調整部30、未知データ読込部3
2、評価決定部34により構成される。また、クラスタ
リング装置10は、SOMを作成するのに必要な学習デ
ータを格納する学習データDB(データベース)36、
SOM作成途中のマップデータや既に完成されたSOM
のマップデータ(発火情報、参照データが含まれる)を
格納するマップDB38、作成されたSOMを用いて評
価が行われる未知データを格納する未知データDB40
を有している。
The clustering device 10 includes a learning data reading unit 16, an SOM creating unit 18, a distance calculating unit 20, a distance displaying unit 22, a classifying unit 24, a comparison table displaying unit 26, a discriminant characteristic value displaying unit 28, and a cluster adjusting unit 30. , Unknown data reading unit 3
2. The evaluation determining unit 34 is used. In addition, the clustering device 10 includes a learning data DB (database) 36 that stores learning data necessary for creating an SOM,
Map data in the process of creating SOM or already completed SOM
Map DB 38 that stores the map data (including ignition information and reference data) of the unknown data, and the unknown data DB 40 that stores the unknown data that is evaluated using the created SOM.
have.

【0022】学習データ読込部16は、学習データDB
36に蓄積されている学習データからSOMを作成する
ために必要な学習データ群を抽出して読み込む。ここで
読み込まれる学習データの1つ1つには、属性データと
3つの数値の組からなる3次元ベクトルデータとが含ま
れている。このうち3次元ベクトルデータの部分は学習
過程で各セルに参照データを割り付けるために用いられ
るものであり、属性データの部分は学習過程で各セルに
発火情報を与えるときに用いられるものである。また、
属性データは各セルに参照データが割り付けられた後
に、後述する「自動分類」を実行する際に必要となるデ
ータである。学習データ群は、学習データDB36から
取り込むのが便利であるが、入力装置12から入力する
ようにしてもよい。なお、学習データの作成については
後ほどさらに説明をする。
The learning data reading unit 16 is a learning data DB.
A learning data group necessary for creating the SOM is extracted from the learning data accumulated in 36 and read. Each of the learning data read here includes attribute data and three-dimensional vector data composed of a set of three numerical values. Of these, the three-dimensional vector data portion is used for assigning reference data to each cell in the learning process, and the attribute data portion is used when giving firing information to each cell in the learning process. Also,
The attribute data is data required when executing “automatic classification” described later after the reference data is assigned to each cell. Although it is convenient to load the learning data group from the learning data DB 36, the learning data group may be input from the input device 12. It should be noted that the creation of learning data will be further described later.

【0023】SOM作成部18は、学習データ読込部1
6が読み込んだ各学習データのうちの3次元ベクトルデ
ータ部分を用いて「未分類のSOM」作成のための学習
アルゴリズムを実行する。「未分類のSOM」とは、S
OM上の各セルに参照データを割り付けただけであって
類似するセルどうしのグループ(クラスタ)を境界線で
分ける前の状態のSOMをいう。ここで実行される学習
アルゴリズムには、T.Kohonenによって提案されたSO
M学習アルゴリズム(自己組織化学習アルゴリズム)が
用いられる。
The SOM creating unit 18 includes the learning data reading unit 1
The learning algorithm for creating the "unclassified SOM" is executed by using the three-dimensional vector data portion of each learning data read by No. 6. "Unclassified SOM" means S
It refers to the SOM in a state where reference data is simply assigned to each cell on the OM and a group (cluster) of similar cells is not divided by a boundary line. The learning algorithm executed here is the SO proposed by T. Kohonen.
An M learning algorithm (self-organizing learning algorithm) is used.

【0024】SOM作成部18はSOM学習アルゴリズ
ムを実行することで、2次元面上のマップに規則的に配
列された各セルに学習データと同次元を有する参照デー
タを割り付け、これによりクラスタリングがなされてい
ない未分類のSOMを作成し出力装置14に表示させ
る。ここで、SOM学習アルゴリズムについて一般的な
例を用いて説明する。図3に示すような2次元領域から
なるマップ1上にセル2(ニューロンとも呼ばれ、規則
正しく配列された升目(四角形のみならず六角形等でも
よい)により区切られている)が配置される。各セル2
はx座標、y座標からなる直交座標系により特定され、
図3の例ではx方向に32枡、y方向に32枡のセルが
並ぶようにしてあり、32×32=1024個のセル2
が配置されている。そして左上隅のセルを(0,0)右
下隅のセルを(31,31)とし横方向をx座標、縦方
向をy座標にとした座標系により各セル2が特定できる
ようにしてある。
By executing the SOM learning algorithm, the SOM creating unit 18 allocates reference data having the same dimension as the learning data to each cell regularly arranged in the map on the two-dimensional surface, thereby performing clustering. An unclassified SOM that has not been created is created and displayed on the output device 14. Here, the SOM learning algorithm will be described using a general example. Cells 2 (also called neurons, which are divided by regularly arranged squares (not only squares but also hexagons or the like)) are arranged on a map 1 including a two-dimensional region as shown in FIG. Each cell 2
Is specified by a Cartesian coordinate system consisting of x and y coordinates,
In the example of FIG. 3, 32 cells in the x direction and 32 cells in the y direction are arranged side by side, and 32 × 32 = 1024 cells 2 are arranged.
Are arranged. Each cell 2 can be specified by a coordinate system in which the cell at the upper left corner is (0, 0) and the cell at the lower right corner is (31, 31) and the horizontal direction is the x coordinate and the vertical direction is the y coordinate.

【0025】各セル2には、数値の組からなる多次元ベ
クトルデータが割り付けられている。図4の中央欄に示
す例は3次元データの場合であり、(ai,bi,ci
のように3つの数値の組で構成されている(ai,bi
iは任意の数値を示す)。このデータは「参照デー
タ」と呼ばれる。参照データの初期値は乱数で与えられ
るのが一般的であり、それぞれのデータ間には何らの意
味も相関も有していない形式的なデータとなっている。
Multi-dimensional vector data consisting of a set of numerical values is assigned to each cell 2. The example shown in the center column of FIG. 4 is a case of three-dimensional data, and (a i , b i , c i )
As shown in (a i , b i ,
c i represents an arbitrary numerical value). This data is called "reference data". The initial value of the reference data is generally given by a random number, and is formal data having no meaning or correlation between the respective data.

【0026】この初期の「参照データ」に対して、「学
習データ」と呼ばれる前述の参照データと同じ次元数を
有する多次元ベクトルデータを用いて学習を行う。例え
ば血液検査を例にすると、図5に示すようにMCV値、
MCH値、MCHC値などの血液検査データ値を0〜1
の値に規格化した値の組からなる3次元ベクトルデータ
が学習データとして与えられる。
For this initial "reference data", learning is performed using multidimensional vector data called "learning data" having the same number of dimensions as the above-mentioned reference data. For example, taking a blood test as an example, as shown in FIG.
Blood test data values such as MCH and MCHC values are 0 to 1
Three-dimensional vector data consisting of a set of values normalized to the value of is given as learning data.

【0027】SOM学習は、以下のようになされる。ま
ず、最初の学習データ(図5の例では、MCV=0.6
811,MCH=0.8048,MCHC=0.623
7)が与えられると、1024個のセルに割り付けられ
た参照ベクトル群(乱数を用いて割り当てられた形式的
なベクトル群)のなかから、この学習データに最も近い
参照データを検索する。最も近い参照データを有するセ
ルを「発火セル」と呼ぶ。最も近い参照データを有する
セルとして選択されることを発火と呼ぶ。
SOM learning is performed as follows. First, the first learning data (MCV = 0.6 in the example of FIG. 5)
811, MCH = 0.8084, MCHC = 0.623
When 7) is given, the reference data closest to the learning data is searched from the reference vector group (formal vector group assigned by using random numbers) assigned to 1024 cells. The cell with the closest reference data is called the "firing cell". Selection as the cell having the closest reference data is called firing.

【0028】続いて、この発火セルの近傍(例えば発火
セルから2枡以内)にある複数のセルについて、それぞ
れのセルの参照データ(ベクトル値)を所定のルール
(例えばベクトル値を一定割合だけ発火セルに近づける
等のルール)でわずかに学習データに似せる(ベクトル
値を近づける)ことにより、参照データを更新する。以
上により1回の学習が完了する。
Then, for a plurality of cells in the vicinity of this firing cell (for example, within 2 cells from the firing cell), reference data (vector value) of each cell is set according to a predetermined rule (for example, the vector value is fired at a fixed rate). The reference data is updated by slightly resembling the learning data (approaching the vector value) by a rule such as approaching the cell). With the above, one learning is completed.

【0029】以後、次々に学習データを用いて同様の学
習を繰り返していくと(例えば数千回程度)、図4の右
欄に示すように各セルの参照データが定まっていく。こ
のとき任意のセルの近傍には類似した参照データを持っ
たセルが集まることになる。ここでいう「類似した参照
データ」とは、参照データ間のべクトル距離(例えば、
後述するユークリッド距離)が近いことを意味する。
After that, when the same learning is repeated using the learning data one after another (for example, about several thousand times), the reference data of each cell is determined as shown in the right column of FIG. At this time, cells having similar reference data are gathered in the vicinity of arbitrary cells. As used herein, "similar reference data" means a vector distance between reference data (for example,
It means that the Euclidean distance described later) is close.

【0030】図10(a)は、本実施例に使用されるク
ラスタリング装置が作成した未分類のSOMの一例を示
したものである。このSOMにおいて、発火セル、即
ち、学習データに最も近い参照データを有するセルとし
て選択されたセルには、発火したことを示すマーク(発
火情報)を付すことにより発火の痕跡を視覚的に示すよ
うにする。このマークは、学習データに含まれている属
性データごとに異なるマークを付すようにして、視覚的
に発火セルやその発火セルが割り当てられた学習データ
に含まれている属性データを把握できるようにする。
FIG. 10A shows an example of an unclassified SOM created by the clustering device used in this embodiment. In this SOM, the ignition cell, that is, the cell selected as the cell having the reference data closest to the learning data is marked with a mark (ignition information) indicating that the ignition is visually indicated. To This mark is given a different mark for each attribute data included in the learning data so that the firing cell and the attribute data included in the learning data to which the firing cell is assigned can be visually recognized. To do.

【0031】1つのセルに複数の学習データによる発火
が生じる場合もある。その場合は、発火回数が累積的に
計数される。また、1つのセルに異なる属性データを有
する2つ以上の学習データによる発火があった場合は、
そのセルには両方の属性による発火が生じたことがわか
るようにしておく。
There are cases where one cell is ignited by a plurality of learning data. In that case, the number of firings is cumulatively counted. Also, when there is a fire due to two or more learning data having different attribute data in one cell,
Make sure that the cell is known to have fired due to both attributes.

【0032】図10(a)では「+」「−」「±」
「0」のマーク(発火情報)があるが、「+」が付され
たセルは「+」の属性データを有する学習データだけが
そのセルに発火したことを示し、「−」が付されたセル
は「−」の属性データを有する学習データだけがそのセ
ルに発火したことを示している(セルの発火回数は複数
回であってもよい)。また「±」が付されたセルは
「+」の属性データを有する学習データと「−」の属性
データを有する学習データがともに少なくとも1回以上
そのセルに発火したことを示している。また「0」のマ
ークが付されたセルはいずれの属性データを有する学習
データによっても一度も発火されなかったことを示して
いる。なお、詳細は後述するが、本実施例の学習データ
に含まれる属性データは「+」と「−」の2種類であ
る。
In FIG. 10A, "+""-""±"
Although there is a mark (ignition information) of "0", cells marked with "+" indicate that only learning data having attribute data of "+" ignited that cell, and were marked with "-". The cell indicates that only the learning data having the attribute data of "-" has fired in the cell (the number of firings of the cell may be plural times). The cells with "±" indicate that the learning data having the attribute data of "+" and the learning data having the attribute data of "-" are both fired at least once in the cell. The cells marked with "0" indicate that the learning data having any attribute data has never fired. As will be described in detail later, there are two types of attribute data included in the learning data of the present embodiment, "+" and "-".

【0033】距離演算部20は、各セル間の距離を算出
する。ここで、各セル間の距離はその定義の仕方によっ
ていろいろな値を用いることができる。本実施例では距
離は以下に示す「ユークリッド距離」を用いている。セ
ル間のユークリッド距離は、隣接する2つのセルの参照
ベクトルをそれぞれ(X1,X2,・・・,Xi,・・・
Xn)、(Y1,Y2,・・・,Yi,・・・Yn)とす
ると、 ユークリッド距離:D=√(Σ(Xi−Yi)2) として定義される。
The distance calculator 20 calculates the distance between the cells. Here, various values can be used for the distance between the cells depending on how they are defined. In the present embodiment, the following "Euclidean distance" is used as the distance. For the Euclidean distance between cells, the reference vectors of two adjacent cells are (X 1 , X 2 , ..., Xi ,.
Xn), (Y 1 , Y 2 , ..., Yi, ... Yn), the Euclidean distance is defined as D = √ (Σ (Xi-Yi) 2 ).

【0034】SOM上のすべてのセルについて隣接する
セル間のユークリッド距離(D)を算出する。ユークリ
ッド距離Dをその最大値(Dmax)で割ることにより
規格化(すべての距離を0〜1の範囲に収める)するよ
うにしてもよい。
The Euclidean distance (D) between adjacent cells is calculated for all cells on the SOM. The Euclidean distance D may be divided by its maximum value (Dmax) for normalization (all distances are within the range of 0 to 1).

【0035】なお、距離として内積を用いる場合は、以
下に示す式により定義される距離を用いる。 D=ΣXiYi
When the inner product is used as the distance, the distance defined by the following equation is used. D = ΣXiYi

【0036】距離表示部22は、距離演算部20で算出
したセル間の距離を視覚的に表示する。本実施例では距
離をセル間の境界線の太さに変換して表示するようにし
ている。即ち、距離が近いセル間は細い境界線で区切
り、距離が離れているセル間は太い境界線で区切るよう
にして、線の太さを見ることにより距離が判別できるよ
うにする。
The distance display unit 22 visually displays the distance between cells calculated by the distance calculation unit 20. In this embodiment, the distance is converted into the thickness of the boundary line between cells and displayed. That is, cells with a short distance are separated by a thin boundary line, and cells with a long distance are separated by a thick boundary line so that the distance can be determined by checking the thickness of the line.

【0037】具体的に説明すると、例えば距離に応じて
4種類の線の太さに割り当てる場合は、規格化したセル
間の距離(Ds)が0≦Ds<0.25のときは「太さ
1」、0.25≦Ds<0.5のときは「太さ2」、
0.5≦Ds<0.75のときは「太さ3」、0.75
≦Ds≦1のときは「太さ4」として各セル間の境界線
の太さを選択する。
More specifically, for example, when assigning four types of line thicknesses according to distances, when the normalized distance (Ds) between cells is 0≤Ds <0.25, "thickness" 1 ", when 0.25≤Ds <0.5," thickness 2 ",
When 0.5 ≦ Ds <0.75, “thickness 3”, 0.75
When ≦ Ds ≦ 1, the thickness of the boundary line between the cells is selected as “thickness 4”.

【0038】なお、距離の規格化の方法は、必ずしも最
大値で割ることに限られない。平均値で割ったり、中間
値で割ったりして規格化してもよい。
The method of normalizing the distance is not necessarily limited to dividing by the maximum value. You may standardize by dividing by an average value or dividing by an intermediate value.

【0039】図11(a)は、セル間の距離を境界線の
太さにより視覚的に表示したときのSOMの状態を示し
た図である。境界線の太さによりSOM上のセル間の距
離の遠近を把握することができるようになっている。
FIG. 11A is a diagram showing the state of the SOM when the distance between cells is visually displayed by the thickness of the boundary line. The thickness of the boundary line makes it possible to grasp the distance between the cells on the SOM.

【0040】分類部24は、SOM作成部18によって
作成された未分類のSOMに対して、属性データを用い
て統計的な数値計算(後述する効率の計算)を実行して
自動的にクラスタリングを行い、クラスタリングの結果
をSOM上で境界として仕切る(色分けする。境界で仕
切られた塊をクラスタという。)ようにして出力装置1
4に表示させる。ここで実行される自動分類アルゴリズ
ムについては後述する。
The classification unit 24 performs statistical numerical calculation (calculation of efficiency described later) on the unclassified SOM created by the SOM creating unit 18 using the attribute data to automatically perform clustering. The output device 1 is configured such that the clustering result is partitioned as a boundary on the SOM (color-coded. A lump partitioned by the boundary is referred to as a cluster).
Display on 4. The automatic classification algorithm executed here will be described later.

【0041】対照表表示部26は、分類部24(又は後
述する分類調整部30)によりSOMがクラスタリング
されたときの、クラスタごとのセル数、各クラスタのセ
ルに割り付けられている学習データが有する属性データ
ごとの合計発火回数、を表形式でまとめた対照表を表示
する。図8は対照表の構成を示す説明図である。本実施
例ではクラスタの種類は「クラス1」、「クラス2」の
2つがある。なお、クラス1、クラス2の他にクラスタ
の種類が未確定であって定義されていないセルのための
「未定義」のセル数、「未定義」のセルの属性データご
との発火回数を同時に表示するようにしている。
The comparison table display unit 26 has the number of cells for each cluster when the SOM is clustered by the classification unit 24 (or the classification adjustment unit 30 described later) and the learning data assigned to the cells of each cluster. Display a comparison table that summarizes the total number of firings for each attribute data in tabular form. FIG. 8 is an explanatory diagram showing the configuration of the comparison table. In this embodiment, there are two types of clusters, "class 1" and "class 2". In addition to class 1 and class 2, the number of "undefined" cells for which the type of cluster is undetermined and is not defined, and the number of firings for each attribute data of "undefined" cells I am trying to display it.

【0042】合計発火回数の計算は属性データごと、例
えば本実施例では「+」「−」の2つに分けて行われ
る。例えばクラス1に定義されるある1つのセルが
「+」の属性データを有する学習データ2つと「−」の
属性データを有する学習データ3つとに発火していた場
合には、クラス1の「+」に2カウント、クラス1の
「−」に3カウントがなされる。このような計算をすべ
てのセルに対して行い、その合計数が対照表に表示され
る。
The calculation of the total number of firings is performed separately for each attribute data, for example, "+" and "-" in this embodiment. For example, if one cell defined in class 1 is fired into two learning data having attribute data “+” and three learning data having attribute data “−”, “+” of class 1 Is counted as "2", and "-" in Class 1 is counted as 3 counts. This calculation is performed for all cells, and the total number is displayed in the control table.

【0043】判別特性値表示部28は、発火情報に基づ
いて、後述する効率、感度、特異度、FNR、FPR、
などの判別特性値を計算して表示する。これらの判別特
性値はクラスタの境界を調整する際に参考にすることが
できる統計的な情報である。
The discriminant characteristic value display unit 28, based on the ignition information, includes efficiency, sensitivity, specificity, FNR, FPR, which will be described later.
Calculate and display the discrimination characteristic value such as. These discriminant characteristic values are statistical information that can be referred to when adjusting the boundaries of the clusters.

【0044】分類調整部30は、分類部24によりクラ
スタリングがなされた後のSOMに対して手動により任
意にクラスタの境界を変更する際に、これに連動して判
別特性値表示部28により算出される判別特性値を再計
算して表示する。換言すれば、この判別特性値の計算結
果を参照しながらクラスタの境界を任意に変更できるよ
うになっている。そしてクラスタ調整後のSOMが表示
される。
The classification adjusting unit 30 is calculated by the discriminating characteristic value display unit 28 in conjunction with this when manually changing the boundary of the cluster arbitrarily for the SOM after the clustering by the classifying unit 24. Recalculate and display the discriminant characteristic value. In other words, the boundary of the cluster can be arbitrarily changed with reference to the calculation result of the discrimination characteristic value. Then, the SOM after the cluster adjustment is displayed.

【0045】このように、SOM作成部18、分類部2
4、クラスタ調整部30では、それぞれ内容が異なるS
OMが作成されるので、以下の説明においてSOMを区
別する必要があるときは、SOM作成部18により作
成された状態のSOM(クラスタリングがなされていな
い未分類のSOM)を「一次SOM」、分類部24に
よりクラスタリングされたのみの状態のSOMを「二次
SOM」、クラスタ調整部30によりクラスタの境界
を任意に設定した後のSOMを「三次SOM」と呼ぶこ
とにより、便宜上、区別することとする。
In this way, the SOM creating unit 18 and the classifying unit 2
4. In the cluster adjusting unit 30, the contents S are different from each other.
Since the OM is created, when it is necessary to distinguish the SOMs in the following description, the SOM in the state created by the SOM creation unit 18 (unclassified SOM without clustering) is referred to as “primary SOM”. For the sake of convenience, the SOM that is only clustered by the unit 24 is called a “secondary SOM”, and the SOM after the cluster boundary is arbitrarily set by the cluster adjusting unit 30 is called a “third SOM”. To do.

【0046】これらのSOMは、逐次マップDB38に
格納するようにしておけば必要なときに取り出すことが
できる。
If these SOMs are sequentially stored in the map DB 38, they can be taken out when necessary.

【0047】未知データ読込部32は、評価対象となる
未知データを読み込む。この未知データは未知データD
B40から取り込まれてもよいし、入力装置12から入
力されてもよい。
The unknown data reading section 32 reads unknown data to be evaluated. This unknown data is unknown data D
It may be input from B40 or input from the input device 12.

【0048】評価決定部34は、未知データ読込部32
から読み込まれた未知データに対し、二次SOM又は三
次SOMを用いて発火セルを求めることにより、当該未
知データがいずれのクラスタに定義されるかを評価決定
する。
The evaluation deciding unit 34 includes the unknown data reading unit 32.
For the unknown data read from, the firing cell is obtained using the secondary SOM or the tertiary SOM to evaluate and determine in which cluster the unknown data is defined.

【0049】検体取り違い判定の流れの概要 次に、本実施例の検体取り違い判定の処理の流れの概要
について説明する。図2はクラスタリング装置10によ
り行われる典型的な処理の流れを説明するフロー図であ
る。
Outline of Flow of Specimen Differences Judgment Next, an outline of the flow of processing of the sample mistakes determination of the present embodiment will be described. FIG. 2 is a flow chart for explaining a typical process flow performed by the clustering device 10.

【0050】(st101)まず、学習データ読込部1
6が属性データと3次元ベクトルデータとからなる学習
データを読み込み、st102に進む。 (st102)SOM作成部18は、学習データ読込部
16から3次元ベクトルデータを1つずつ取り出し、S
OM学習アルゴリズムを繰り返し実行し、st103に
進む。 (st103)SOM作成部18は、全3次元ベクトル
データに対してSOM学習アルゴリズムを実行した結果
に基づいて、各セルに参照データを割り付けるととも
に、属性データを参照して各セルに発火情報を示すマー
クを付した一次SOM(未分類のSOM)を作成し、s
t104に進む。 (st104)距離演算部20は、各セルに割り付けら
れた参照データを用いて隣接するセル間の距離を計算
し、st105に進む。 (st105)距離表示部22は、距離演算部20によ
る距離の計算結果に基づいて、セル間の境界線の太さを
選択し、一次SOM上に表示する。続いてクラスタリン
グを始めるときにはst106に進む。 (st106)分類部24は、後述する自動分類アルゴ
リズムを実行し、st107に進む。 (st107)分類部24は、自動分類アルゴリズムの
結果に基づいて各セルをクラスタリングし、クラスタご
とに(色分け等により)識別できるようにした二次SO
Mを作成する。判別特性値表示部28は、判別特性値を
計算し、出力装置14に表示させる。続いてクラスタ調
整を実行するときはst108に進む。未知データに対
する評価を実行するときにはst110に進む。 (st108)クラスタ調整部30は、二次SOMに対
してクラスタの境界の調整を受け付ける。判別特性値表
示部28は、クラスタの境界の調整が行なわれると判別
特性値を再計算し、出力装置14に表示させる。 (st109)クラスタ調整部30は、判別特性値に基
づいてクラスタの境界を任意に設定した三次SOMを作
成する。続いて未知データを評価するときはst110
に進む。 (st110)未知データ読込部32は未知データを読
み込み、st111に進む。 (st111)評価決定部34は、二次SOM又は三次
SOMを用いて評価対象である未知データについての発
火セルを検索し、発火セルを決定してst112に進
む。 (st112)評価決定部34は、発火セルが含まれる
クラスタに基づいて当該未知データの属性を決定する。
(St101) First, the learning data reading unit 1
6 reads the learning data consisting of the attribute data and the three-dimensional vector data, and proceeds to st102. (St102) The SOM creating unit 18 extracts the three-dimensional vector data one by one from the learning data reading unit 16, and S
The OM learning algorithm is repeatedly executed, and the process proceeds to st103. (St103) The SOM creation unit 18 allocates reference data to each cell based on the result of executing the SOM learning algorithm on all the three-dimensional vector data, and refers to the attribute data to indicate the firing information to each cell. Create a marked primary SOM (unclassified SOM), s
Proceed to t104. (St104) The distance calculation unit 20 calculates the distance between adjacent cells using the reference data assigned to each cell, and proceeds to st105. (St105) The distance display unit 22 selects the thickness of the boundary line between cells based on the distance calculation result by the distance calculation unit 20, and displays it on the primary SOM. Then, when clustering is started, the process proceeds to st106. (St106) The classification unit 24 executes an automatic classification algorithm described later, and proceeds to st107. (St107) The classification unit 24 clusters each cell based on the result of the automatic classification algorithm, and makes it possible to identify each cluster (by color coding or the like) secondary SO.
Create M. The discriminant characteristic value display unit 28 calculates the discriminant characteristic value and displays it on the output device 14. Then, when performing cluster adjustment, it progresses to st108. When performing evaluation on unknown data, the process proceeds to st110. (St108) The cluster adjustment unit 30 receives the adjustment of the boundary of the cluster with respect to the secondary SOM. The discriminant characteristic value display unit 28 recalculates the discriminant characteristic value when the boundary of the cluster is adjusted, and displays it on the output device 14. (St109) The cluster adjustment unit 30 creates a third-order SOM in which the boundaries of clusters are arbitrarily set based on the discrimination characteristic value. Then, when evaluating unknown data, st110
Proceed to. (St110) The unknown data reading unit 32 reads unknown data and proceeds to st111. (St111) The evaluation determining unit 34 searches the firing cell for the unknown data to be evaluated using the secondary SOM or the tertiary SOM, determines the firing cell, and proceeds to st112. (St112) The evaluation determination unit 34 determines the attribute of the unknown data based on the cluster including the firing cell.

【0051】検体取り違い判定の処理の流れの詳細 次に、本実施例の検体取り違い判定の処理の流れの詳細
について血液検査データを学習データの対象とした実施
例を用いて順次説明する。
Details of Process Flow of Specimen Differences Judgment Next, the details of the process flow of sample wrongness determinations of this embodiment will be sequentially described by using an example in which blood test data is used as learning data.

【0052】学習データの作成例(検体取り違いデー
タおよび正常データの作成例) クラスタリング装置10に用いられる学習データ群の一
例を図7に示す。図に見られるように学習データ群は、
データの種類を表す「属性データ」、3つの数値の組
(MCV値、MCH値、MCHC値を0〜1の値に規格
化した値)からなる「3次元ベクトルデータ」、の対を
1単位とするデータが多数集まって(本実施例では45
00個のデータ)構成されている。図7はその一部を示
したものである。
Example of Creating Learning Data (Example of Creating Sample Conflict Data and Normal Data) FIG. 7 shows an example of a learning data group used in the clustering apparatus 10. As you can see in the figure, the learning data group is
One unit is a pair of "attribute data" representing the type of data, and "three-dimensional vector data" consisting of a set of three numerical values (MCV value, MCH value, MCHC value standardized to a value of 0 to 1). A large number of data to be collected (in this embodiment, 45
00 data). FIG. 7 shows a part thereof.

【0053】本実施例では、一次SOM上のセルを2つ
のクラスタに定義するので、属性データの欄には2つの
異なる種類からなる属性データ(「+」と「−」)が与
えられる。SOM上のセルを3つのクラスタに定義する
ときは属性データの欄に3つの異なる種類からなる属性
データ(例えば「A」と「B」と「C」)が与えられ
る。この属性データは、一般的には他の既知の方法で調
べた属性データが与えられる。3次元ベクトルデータ
は、既述したようにSOM学習アルゴリズムによりSO
Mの各セルに割り付ける参照データを求めるために用い
るものである。
In the present embodiment, since cells on the primary SOM are defined in two clusters, attribute data ("+" and "-") of two different types are given in the attribute data column. When defining cells on the SOM into three clusters, attribute data of three different types (for example, “A”, “B”, and “C”) are given in the attribute data column. This attribute data is generally given as attribute data examined by another known method. As described above, the three-dimensional vector data is converted into SO by the SOM learning algorithm.
It is used to obtain reference data to be assigned to each cell of M.

【0054】本実施例の検体取り違い判定では、以前の
検査結果である前回値データと今回の検査結果である今
回値データとの双方のデータを有する3000名の患者
の血液検査データを用いる。図6に示すように、300
0名の検査データ番号をそれぞれS1からS3000とし、
1についての前回値データをS1a、今回値データをS
1b、同様にS2a、S2 b、・・・Sma、Smb、・・・
na、Snb、・・・、S3000a、S3000bと呼ぶ。データ
1a、S1b、Sma、Smb、・・・等はMCV(平均赤血
球容積)、MCH(平均赤血球ヘモグロビン量)、MC
HC(平均赤血球ヘモグロビン濃度)からなる3つの検
査項目の数値を0〜1の値に規格化した値の組で構成さ
れる3次元ベクトルデータである。
In the sample difference determination of the present embodiment, the blood test data of 3000 patients having both the previous value data which is the previous test result and the current value data which is the current test result is used. As shown in FIG.
The inspection data numbers of 0 persons are respectively S 1 to S 3000 ,
S 1a the previous value data for the S 1, the current value data S
1b , likewise S 2a , S 2 b , ... S ma , S mb , ...
Called S na , S nb , ..., S 3000a , S 3000b . Data S 1a , S 1b , S ma , S mb , etc. are MCV (mean red blood cell volume), MCH (mean red blood cell hemoglobin amount), MC
It is three-dimensional vector data composed of a set of values obtained by normalizing the numerical values of three test items consisting of HC (mean red blood cell hemoglobin concentration) to values of 0 to 1.

【0055】そして、S1からS3000までのそれぞれに
ついて、今回値と前回値との差であるS1b-S1a、Smb
−Sma、S3000b−S3000aを計算して、計3000個の
データ(3次元ベクトルデータ)を作成する。但し、ベ
クトルデータ中の各成分は絶対値をとる。このようにし
て作成した3000個のデータは、検体の取り違えのな
い「正常データ」の属性に含まれるものとして扱われ
る。この正常データには「−」の属性データを結合させ
る。
Then, for each of S 1 to S 3000 , the difference between the present value and the previous value, S 1b -S 1a , S mb
-S ma, by calculating the S 3000b -S 3000a, creating a total of 3000 data (three-dimensional vector data). However, each component in the vector data takes an absolute value. The 3000 pieces of data thus created are treated as being included in the attribute of “normal data” in which the samples are not mixed up. "-" Attribute data is combined with this normal data.

【0056】続いて、S1からS3000の3000個のデ
ータから1500個の対を形成する。例えば検査データ
Sm、Snとが対になったとする。この場合、Smの前
回値とSnの今回値とを用い、Snb−Smaを、Smの今
回値とSnの前回値とを用い、Smb−Snaを計算する。
残りの1499個の対についても同様の計算をする。こ
のようにして3000個のデータ(3次元データ)が作
成される。
Subsequently, 1500 pairs are formed from 3000 pieces of data of S 1 to S 3000 . For example, it is assumed that the inspection data Sm and Sn are paired. In this case, using the current value of the previous value and the Sn of Sm, the S nb -S ma, using the previous value of the present value and Sn of Sm, calculates the S mb -S na.
The same calculation is performed for the remaining 1499 pairs. In this way, 3000 pieces of data (three-dimensional data) are created.

【0057】これらの3000個のデータは、取り違い
が発生した「取り違いデータ」の属性に含まれるものと
して扱われる。この取り違いデータには「+」の属性デ
ータを結合させる。
These 3000 pieces of data are treated as being included in the attribute of "mistake data" in which an error has occurred. Attribute data of "+" is combined with this mistake data.

【0058】続いて、先に示した3000個の正常デー
タと後に示した3000個の取り違いデータとを混合し
て6000個のデータの集合体を形成する。そして、6
000個のデータの中から不作為に4500個のデータ
(正常データ2250個、取り違いデータ2250個)
を選択する。この4500個のデータを一次SOM作成
用の学習データとして用いる(残りの1500個のデー
タは評価用の未知データとしてクラスタリング装置10
の性能確認用に用いることにしている)。
Subsequently, the above-mentioned 3000 normal data and the after-mentioned 3000 misconfiguration data are mixed to form an aggregate of 6000 data. And 6
Randomly 4500 data from 000 data (2250 normal data, 2250 misplaced data)
Select. The 4500 pieces of data are used as learning data for creating the primary SOM (the remaining 1500 pieces of data are unknown data for evaluation and the clustering device 10).
Will be used for performance confirmation).

【0059】このようにして作成された学習データは、
取り違いデータ(「+」)であるか正常データ
(「−」)であるかという属性データを人為的に作り出
し、作り出した属性データを属性データ欄に付すように
して取り違い判定のための学習データとしたものであ
る。
The learning data created in this way is
Learning for artificial judgment by artificially creating attribute data that indicates whether it is mistaking data (“+”) or normal data (“−”) and attaching the created attribute data to the attribute data field. This is data.

【0060】先に説明した図7の学習データはこのよう
にして作成した4500個のデータの一部を示したもの
であり、図7の属性データ欄の「+」は取り違いデー
タ、「−」は正常データを示したものである。なお、図
7に見られるMCV値、MCH値、MCHC値の各数値
は、それぞれの項目における最大値が1となるように規
格化したものである。
The learning data of FIG. 7 described above shows a part of the 4500 pieces of data created in this way, and “+” in the attribute data column of FIG. "Indicates normal data. The numerical values of the MCV value, MCH value, and MCHC value seen in FIG. 7 are standardized so that the maximum value in each item is 1.

【0061】SOM学習アルゴリズムの実行 SOM作成部18は、SOM学習アルゴリズムを実行す
る。SOM学習アルゴリズムについては既述しているた
め、説明を省略する。なお、3次元ベクトルデータとし
て、図7にその一部が示されている3次元ベクトルデー
タ(MCV値、MCH値、MCHC値)が用いられる。
Execution of SOM Learning Algorithm The SOM creating section 18 executes the SOM learning algorithm. Since the SOM learning algorithm has already been described, the description is omitted. As the three-dimensional vector data, the three-dimensional vector data (MCV value, MCH value, MCHC value), a part of which is shown in FIG. 7, is used.

【0062】SOM学習アルゴリズムの実行が終了する
と、1024個のセルに合計4500回の発火が生じる
ので、セルによっては複数回の発火が生じることにな
る。各セルには発火情報として属性データとともにその
セルの発火回数が属性データの種類ごとに記憶される。
When the execution of the SOM learning algorithm is completed, 1024 cells are fired 4500 times in total, so that some cells are fired a plurality of times. In each cell, as the ignition information, the number of times the cell is fired is stored together with the attribute data for each type of attribute data.

【0063】一次SOM(未分類のSOM)の表示 上記SOM学習アルゴリズムの実行によって作成した一
次SOMが既に説明した図10(a)である。すべての
セルに発火情報として「+」「−」「±」「0」のいず
れかが付されている。
Display of Primary SOM (Unclassified SOM) The primary SOM created by executing the above SOM learning algorithm is shown in FIG. One of “+”, “−”, “±”, and “0” is attached to all cells as ignition information.

【0064】このときの対照表を図10(b)に示す。
いずれのセルもまだクラスタが定義されていないので、
すべてのセル(1024個)が「未定義」となってい
る。そして1024個の未定義のセルは「+」の属性デ
ータを有する学習データに2250回、「−」の属性デ
ータを有する学習データに2250回発火したことを示
している。
A control table at this time is shown in FIG. 10 (b).
Since no cluster has been defined for any cell yet,
All cells (1024) are “undefined”. The 1024 undefined cells indicate that the learning data having "+" attribute data has fired 2250 times and the learning data having "-" attribute data has fired 2250 times.

【0065】セル間距離の視覚化 図11は、セル間の距離を境界線の太さにより視覚的に
表示したときの一次SOMの状態を示した図である。境
界線の太さによりSOM上にあるセル間の距離の遠近が
把握できるようになっている。境界線の作成は距離表示
部22が行う。セル間距離の視覚化は、二次SOM、三
次SOMにおいて同様に表示してもよい。
Visualization of inter-cell distance FIG. 11 is a diagram showing the state of the primary SOM when the inter-cell distance is visually displayed by the thickness of the boundary line. The thickness of the boundary line allows the distance between the cells on the SOM to be grasped. The boundary display is performed by the distance display unit 22. The visualization of the inter-cell distance may be similarly displayed in the secondary SOM and the tertiary SOM.

【0066】自動分類アルゴリズムの実行による二次
SOMの作成 次に、クラスタリングを説明する。クラスタリングは、
分類部24が行う。図9はクラスタリングの動作を説明
するフロー図である。また、図12から図22はクラス
タリングの動作途中の状態を説明するSOM、対照表、
判別特性値の表示画面を説明する図である。なお、実際
はSOMと同時に対照表や判別特性値が常時表示されて
いるのであるが、説明の便宜上必要な状態のみを図に示
す。
Generation of Secondary SOM by Executing Automatic Classification Algorithm Next, clustering will be described. Clustering is
The classification unit 24 performs this. FIG. 9 is a flowchart illustrating the operation of clustering. Further, FIG. 12 to FIG. 22 are SOMs, comparison tables, which explain states in the middle of clustering operation,
It is a figure explaining the display screen of a discriminating characteristic value. Although the comparison table and the discrimination characteristic value are always displayed at the same time as the SOM, only the necessary states are shown in the figure for convenience of explanation.

【0067】本実施例では、「+」(取り違いデータ)
と「−」(正常データ)との2種類の属性データを有す
る学習データを用いているので、SOMはクラスタリン
グにより2つのクラスタを定義することができればよい
ことになる。今、クラスタリングにより作成される2つ
のクラスタを「クラス1」(画面上では赤で示す)、
「クラス2」(画面上では青で示す)と呼ぶこととし、
クラス1は「+」の属性データ(即ち、取り違いデー
タ)を有する学習データが本来集まるクラスタ、クラス
2は「−」の属性データ(即ち正常データ)を有する学
習データが本来集まるクラスタであるとする。
In this embodiment, "+" (mistake data)
Since the learning data having the two types of attribute data, "-" and "-" (normal data), is used, the SOM only needs to be able to define two clusters by clustering. Now, the two clusters created by clustering are "class 1" (shown in red on the screen),
We will call it "Class 2" (shown in blue on the screen),
Class 1 is a cluster where learning data having “+” attribute data (that is, mistake data) is originally collected, and class 2 is a cluster where learning data having “−” attribute data (that is, normal data) is originally gathered. To do.

【0068】まず、1つのクラスタを選択する。ここで
はクラス1を選択する(st201)。クラスタが未定
義であるすべてのセル(最初はすべてのセルが未定義)
をクラス1(赤)に属するものと仮設定する(st20
2)。図12(a)(b)は、すべてのセルを「クラス
1」にした(すべてのセルが赤になる)状態のSOMお
よび対照表を示している。
First, one cluster is selected. Here, class 1 is selected (st201). All cells with undefined clusters (initially all cells are undefined)
Is temporarily set as belonging to class 1 (red) (st20
2). FIGS. 12A and 12B show the SOM and the control table in a state where all the cells are set to “class 1” (all cells turn red).

【0069】クラス1に属するすべてのセルについて、
そのセルの近傍セルが「+」の属性データを有する学習
データに発火した回数と「+」及び「−」の属性データ
を有する学習データに発火した回数(本実施例では近傍
セルの合計発火回数)とを求め、その割合(選択割合と
いう)を算出する。ここで近傍セルとは例えば1つのセ
ルを中心とした周囲1枡以内に含まれるセルとして定義
することができる(st203)。
For all cells belonging to class 1,
The number of times a neighboring cell of that cell fired learning data having "+" attribute data and the number of firing of learning data having "+" and "-" attribute data (in this embodiment, the total number of firings of neighboring cells). ) Is calculated, and the ratio (called selection ratio) is calculated. Here, the neighboring cell can be defined as a cell that is included within one square around the one cell, for example (st203).

【0070】選択割合が最も小さいセルをクラス1から
外す(st204)。図13(a)はSOMにおける座
標(23,28)のセルが「クラス1」(赤)から外れ
て「未定義」(白)となった状態を示している。図13
(b)はこのときの対照表を示したものである。未定義
の座標(23,28)のセルには「−」属性の発火回数が
5回、「+」属性の発火回数が0回であったことがわか
る。
The cell with the smallest selection ratio is removed from class 1 (st204). FIG. 13A shows a state in which the cell at the coordinate (23, 28) in the SOM deviates from “class 1” (red) and becomes “undefined” (white). FIG.
(B) shows a control table at this time. It can be seen that the number of firings of the "-" attribute was 5 and the number of firings of the "+" attribute was 0 in the cell of the undefined coordinate (23, 28).

【0071】次に、以下の(1)式に定義する「効率」
(判別特性値の一例)を算出し、そのときのセルの状態
とともに記憶する(st205)。効率は正しくクラス
タリングされた割合を意味することになる。 効率:(TP+TN)/(TP+TN+FP+FN) ・・・・・・・(1)式 TP(True Positive):選択されたクラスタ(ここで
はクラス1)に属するセルが、選択されたクラスタが本
来有する属性データを持つ学習データ(ここでの属性デ
ータは「+」)によって発火した回数。TN(True Ne
gative):選択されていないクラスタ(ここでは「クラ
ス2」および「未定義」)に属するセルが、選択された
クラスタが本来有しない属性データを持つ学習データ
(ここでの属性データは「−」)によって発火した回
数。FP(fault Positive):選択されていないクラ
スタ(ここでは「クラス2」および「未定義」)に属す
るセルが、選択されたクラスタが本来有する属性データ
を持つ学習データ(ここでの属性データは「+」)によ
って発火した回数。FN(fault Negative):選択さ
れたクラスタ(ここでは「クラス1」)に属するセル
が、選択されたクラスタが本来有しない属性データを持
つ学習データ(ここでの属性データは「−」)によって
発火した回数。
Next, "efficiency" defined by the following equation (1)
(Example of discrimination characteristic value) is calculated and stored together with the state of the cell at that time (st205). Efficiency will mean the percentage that is correctly clustered. Efficiency: (TP + TN) / (TP + TN + FP + FN) (1) Formula TP (True Positive): The cells belonging to the selected cluster (class 1 here) are selected The number of firings by learning data (attribute data here is “+”) having attribute data originally possessed by the cluster. TN (True Ne
gative): Learning data in which cells belonging to unselected clusters (here, "class 2" and "undefined") have attribute data that the selected cluster does not originally have (attribute data here is "-"). ). FP (fault Positive): Learning data in which cells belonging to unselected clusters (here, “class 2” and “undefined”) have attribute data originally possessed by the selected clusters (the attribute data here is “ + ") The number of fires. FN (fault Negative): A cell belonging to a selected cluster (here, "class 1") is fired by learning data (attribute data here is "-") having attribute data that the selected cluster does not originally have. The number of times you did it.

【0072】st203からst205の工程をクラス
1に属するセルがすべてなくなるまで繰り返す(st2
06)。図14、図15はセルが順次「クラス1」から
「未定義」に変化する様子を示している。
The steps from st203 to st205 are repeated until all cells belonging to class 1 are exhausted (st2
06). 14 and 15 show how cells are sequentially changed from "class 1" to "undefined".

【0073】また、図16(a)はすべてのセルが「ク
ラス1」から「未定義」に変化した状態を示している。
図16(b)はこのときの対照表を示したものであり、
1024個のセルすべてが「未定義」であり、未定義の
セルは「+」の属性データを有する学習データによる発
火回数が2250回、「−」の属性データを有する学習
データによる発火回数が2250回であることを示して
いる。
Further, FIG. 16A shows a state in which all cells are changed from "class 1" to "undefined".
FIG. 16B shows a comparison table at this time,
All of the 1024 cells are “undefined”, and the undefined cells have 2250 firings due to the learning data having “+” attribute data and 2250 firings due to the learning data having “−” attribute data. It shows that it is a time.

【0074】続いて、記憶した「効率」データから「効
率」最大のときのデータを探し、「効率」最大となった
とき、「クラス1」に定義されるセルを「クラス1」と
決定する(st207、st208)。
Next, the stored "efficiency" data is searched for the data with the maximum "efficiency", and when the "efficiency" is the maximum, the cell defined in "class 1" is determined as "class 1". (St207, st208).

【0075】図17(a)は、「効率」最大の状態を求
めて「クラス1」を決定したときのSOMを示した図で
ある。「クラス1」に決定されたセルは赤く塗られ、残
りのセルは「未定義」であるため白にしてある。図17
(b)は、このときの対照表を示している。この例では
597個のセルが「クラス1」に定義されている。「ク
ラス1」に含まれるセルは、「+」の属性データを持つ
学習データによる発火回数が1997回、「−」の属性
データを持つ学習データによる発火回数が424回であ
る。なお「クラス1」に定義されていない残りの427
個のセルは「未定義」である。
FIG. 17 (a) is a diagram showing the SOM when the "class 1" is determined by obtaining the maximum "efficiency" state. The cells determined to be "class 1" are painted red, and the remaining cells are "undefined" so they are white. FIG. 17
(B) shows the control table at this time. In this example, 597 cells are defined as "class 1". In the cells included in “class 1”, the number of firings by the learning data having the attribute data “+” is 1997, and the number of firings by the learning data having the attribute data “−” is 424. The remaining 427 not defined in "Class 1"
Cells are "undefined".

【0076】このときの効率の計算例を以下に示す。 TP: 1997 TN: 1826 FP: 253 FN: 424 効率:(TP+TN)/(TP+TN+FP+FN)=(1997+18
26)/(1997+1826+253+424)=
0.8496
An example of calculating the efficiency at this time is shown below. TP: 1997 TN: 1826 FP: 253 FN: 424 Efficiency: (TP + TN) / (TP + TN + FP + FN) = (1997 + 18
26) / (1997 + 1826 + 253 + 424) =
0.8496

【0077】次に、すべてのクラスタが定義されている
かを確認する(st209)。すべてのクラスタが定義
済みであれば終了する。今の例ではクラス2については
未定義であるので、st202に戻り、同様の演算を繰
り返す。今度はクラス2を選択する(st210)。ク
ラスタ未定義の残り427個すべてのセル(即ち「クラ
ス1」として決定した597個のセル以外のセル)をク
ラス2(青)のクラスタに属するものと仮設定する(2
順目st202)。
Next, it is confirmed whether all clusters are defined (st209). Exit if all clusters are defined. In the present example, class 2 is undefined, so the process returns to st202 and the same calculation is repeated. This time, class 2 is selected (st210). All the remaining 427 undefined cells (that is, cells other than the 597 cells determined as "class 1") are provisionally set as belonging to the cluster of class 2 (blue) (2
Order st202).

【0078】以下、st203〜st206の動作を繰
り返していく。図18(a)(b)は、427個すべて
のセルを「クラス2」にした(「クラス1」の597個
のセルが赤、残りの427個のセルが青になる)状態の
SOM画面および対照表を示している。
Hereinafter, the operations of st203 to st206 are repeated. 18A and 18B are SOM screens in which all 427 cells are set to “class 2” (597 cells of “class 1” are red and the remaining 427 cells are blue) And the control table is shown.

【0079】図19(a)(b)は、選択割合が最も小
さいセルを「クラス2」から外した状態を示している
(2順目st204)。すなわち、SOMにおける座標
(13,16)のセルが「クラス2」(青)のクラスタ
から外れて「未定義」(白)となった状態を示してい
る。図19(b)はこのときの対照表を示したものであ
る。未定義の座標(13,16)のセルには「−」の属
性データを有する学習データによる発火回数が0回、
「+」の属性データを有する学習データによる発火回数
が1回であったことがわかる。
FIGS. 19A and 19B show a state in which the cell having the smallest selection ratio is excluded from “class 2” (the second order st204). In other words, the cell at the coordinate (13, 16) in the SOM is out of the cluster of “class 2” (blue) and is “undefined” (white). FIG. 19B shows a control table at this time. The number of firings by the learning data having the attribute data of "-" is 0 in the cell of the undefined coordinate (13, 16),
It can be seen that the number of firings by the learning data having the attribute data of “+” was once.

【0080】図20はセルのクラスタが順次「クラス
2」から「未定義」に変化する様子の一場面を示してい
る。また、図21(a)は427個のセルのクラスタが
「クラス2」から「未定義」に変化した状態を示してい
る。図21(b)はこのときの対照表を示したものであ
り、427個のセルが「未定義」であり、未定義のセル
は「+」の属性データを持つ学習データによる発火回数
が253回、「−」の属性データを持つ学習データによ
る発火回数が1826回であることを示している。
FIG. 20 shows a scene in which the cluster of cells sequentially changes from "class 2" to "undefined". Further, FIG. 21A shows a state in which the cluster of 427 cells has changed from “class 2” to “undefined”. FIG. 21B shows a comparison table at this time, in which 427 cells are “undefined”, and the undefined cells have a firing number of 253 due to learning data having “+” attribute data. Times, the number of firings by the learning data having the attribute data of "-" is 1826 times.

【0081】図22(a)は、「効率」最大の状態を求
めて「クラス2」を決定したときのSOMを示した図で
ある。既に「クラス1」に決定されてあるセルは赤く塗
られ、今回「クラス2」に決定したセルは青く塗られて
いる。図22(b)は、このときの対照表を示してい
る。この例では427個のセルが「クラス2」に定義さ
れている。「クラス2」に含まれるセルは、「+」の属
性データを持つ学習データによる発火回数が253回、
「−」の属性データを持つ学習データによる発火回数が
1826回である。なお、この例では427個のセルが
「クラス2」に定義された場合の効率が最大となったた
めSOM上の全てのセルがいずれかのクラスタに定義され
たが、必ずしもSOM上の全てのセルがいずれかのクラス
タに定義された場合の効率が最大となるとは限らない。
この場合は、未定義のセルが残ることとなる。未定義の
セルは、再度自動分類のアルゴリズムを実行すること
や、後述するクラスタ調整によって、いずれかのクラス
タに定義される。
FIG. 22 (a) is a diagram showing the SOM when the "class 2" is determined by obtaining the maximum "efficiency" state. The cells that have already been determined to be "class 1" are painted red, and the cells that have been determined to be "class 2" this time are painted blue. FIG. 22B shows a control table at this time. In this example, 427 cells are defined as "class 2". The cells included in “Class 2” have 253 firings due to the learning data having the attribute data of “+”,
The number of firings by the learning data having the attribute data of "-" is 1826. In this example, all cells on the SOM were defined in one of the clusters because the efficiency was maximized when 427 cells were defined in "class 2". Is not always maximal if is defined in either cluster.
In this case, undefined cells will remain. The undefined cells are defined in any of the clusters by executing the automatic classification algorithm again or by the cluster adjustment described later.

【0082】以上の処理により、図22(a)に見られ
るような二次SOM、即ち一次SOMに自動分類アルゴ
リズムによって発火情報に基づいた統計的な裏付けの元
でクラスタリングがなされたSOMが作成される。
By the above processing, the SOM as shown in FIG. 22A, that is, the SOM that is clustered on the primary SOM by the automatic classification algorithm under the statistical support based on the firing information is created. It

【0083】クラスタ調整による三次SOMの作成と
判別特性値の表示 次に、自動分類アルゴリズムによりクラスタを決定した
二次SOMについて、「判別特性値」を参照しながら任
意にクラスタを調整することによって得られる三次SO
Mについて説明する。「判別特性値」の表示は、分類調
整部30が行う。
Creation of Third-Order SOM by Cluster Adjustment and Display of Discriminant Characteristic Value Next, regarding the secondary SOM whose cluster is determined by the automatic classification algorithm, it is obtained by arbitrarily adjusting the cluster with reference to the “discriminant characteristic value”. Tertiary SO
M will be described. The classification adjustment unit 30 displays the “discrimination characteristic value”.

【0084】ここで用いられる判別特性値の1つとして
は、上述した「効率」が用いられる。
As one of the discrimination characteristic values used here, the above-mentioned "efficiency" is used.

【0085】また、「感度(True Positive Rati
o)」、「特異度(True Negative Ratio)」、「FP
R(Fault Positive Ratio)」、「FNR(Fault Neg
ative Ratio)」の4つの値も判別特性値として用いる
ことができる。
In addition, "sensitivity (True Positive Rati
o) ”,“ Singularity (True Negative Ratio) ”,“ FP
R (Fault Positive Ratio) ”,“ FNR (Fault Neg
The four values of “ative ratio” can also be used as the discrimination characteristic value.

【0086】ここで、感度、特異度、FPR、FNRは
以下の式で定義される。 感度=(「クラス1」に定義されるセルが「+」の属性データを持つ学習デ ータによって発火した回数)/(「クラス1」に定義されるセル全体の発火回数 ) ・・・(2) 特異度=(「クラス2」に定義されるセルが「−」の属性データを持つ学習デ ータによって発火した回数)/(「クラス2」に定義されるセル全体の発火回数 ) ・・・(3) FPR=(「クラス1」に定義されるセルが「−」の属性データを持つ学習デ ータによって発火した回数)/(「クラス1」に定義されるセル全体の発火回数 ) ・・・(4) FNR=(「クラス2」に定義されるセルが「+」の属性データを持つ学習デ ータによって発火した回数)/(「クラス2」に定義されるセル全体の発火回数 ) ・・・(5)
Here, the sensitivity, specificity, FPR and FNR are defined by the following equations. Sensitivity = (number of times a cell defined in "class 1" is fired by learning data having attribute data of "+") / (number of firings of all cells defined in "class 1") (2) Specificity = (number of times cells defined by “class 2” are fired by learning data having attribute data of “−”) / (number of firing times of all cells defined by “class 2”) (3 ) FPR = (number of times a cell defined in “class 1” is fired by learning data having attribute data “−”) / (number of firings of all cells defined in “class 1”) (4 ) FNR = (number of firings of cells defined by "class 2" by learning data having attribute data of "+") / (number of firings of all cells defined by "class 2") (5 )

【0087】作成された二次SOM上のセルを指定し、
入力装置12によってクラスタを変更する指示を行うこ
とにより、当該セルのクラスタが変更され、任意にクラ
スタリングを行った三次SOMが得られる。例えば自動
分類アルゴリズムの実行によるクラスタリングにより
「クラス1」(赤)に定義されていたセルについて「ク
ラス2」にクラスタを変更することができる。このと
き、上述した効率、感度、特異度、FPR、FNRが再
計算されて、画面に表示される。
Designate a cell on the created secondary SOM,
By giving an instruction to change the cluster using the input device 12, the cluster of the cell is changed, and a third-order SOM that is arbitrarily clustered is obtained. For example, the cluster defined by "class 1" (red) can be changed to "class 2" by clustering by executing the automatic classification algorithm. At this time, the above-mentioned efficiency, sensitivity, specificity, FPR and FNR are recalculated and displayed on the screen.

【0088】この状態を図22と図23とを用いて説明
する。図22(a)は上述したように自動分類アルゴリ
ズムにより作成された二次SOMであり、図23(a)
は二次SOMを元にして任意にクラスタ調整した三次S
OMである。図22(b)、図23(b)はそれぞれ対
応する対照表であり、図22(c)、図23(c)は判
別特性値である。図に見られるようにクラスタを調整す
ることよって対照表の値が連動して変化するとともに、
判別特性値も変化する。
This state will be described with reference to FIGS. 22 and 23. FIG. 22A shows the secondary SOM created by the automatic classification algorithm as described above, and FIG.
Is a third-order S that is arbitrarily cluster adjusted based on the second-order SOM
OM. 22 (b) and 23 (b) are corresponding comparison tables, and FIG. 22 (c) and FIG. 23 (c) are discrimination characteristic values. By adjusting the cluster as shown in the figure, the values in the comparison table change in conjunction,
The discrimination characteristic value also changes.

【0089】クラスタリング装置の操作者は、SOM上
に表示されている発火情報を示すマークとともに、この
判別特性値、さらには距離表示部により作成された距離
表示を参考にしてクラスタを任意に調整していく。この
ようにして最終的にクラスタが決定された三次SOMが
完成する。
The operator of the clustering device arbitrarily adjusts the cluster by referring to the mark indicating the ignition information displayed on the SOM, the discriminating characteristic value, and the distance display created by the distance display section. To go. In this way, the third-order SOM whose cluster is finally determined is completed.

【0090】未知データの作成および評価 次に、未知データの作成および作成した二次SOM又は
三次SOMを用いて未知データについてどのクラスタに
属するかを判定する手順を説明する。まず、任意の2つ
の血液検査データを準備する。本実施例では、この2つ
の血液検査データが同一被験者のものか別の被験者のも
のかを判定することができる。そして、2つの血液検査
データから学習データの作成例で示した方法と同様の
方法で「3次元ベクトルデータ」を作成する。この「3
次元ベクトルデータ」が未知データである。次に、未知
データが未知データ読込部32によって読み込まれる
と、参照データのなかから当該未知データと最も近い参
照データを有するセルを検索する。
Creation and Evaluation of Unknown Data Next, a procedure for creating unknown data and determining which cluster the unknown data belongs to by using the created secondary SOM or tertiary SOM will be described. First, two arbitrary blood test data are prepared. In the present embodiment, it is possible to determine whether these two blood test data belong to the same subject or different subjects. Then, “three-dimensional vector data” is created from the two blood test data by a method similar to the method shown in the example of creating learning data. This "3
"Dimensional vector data" is unknown data. Next, when the unknown data is read by the unknown data reading unit 32, the reference data is searched for a cell having the reference data closest to the unknown data.

【0091】図24はこのときの状態を説明する図であ
る。検索の結果、図に示すように未知データに最も類似
する参照データを有しているセルとして座標(6,9)
のセルが発火したとする。このとき、座標(6,9)の
セルのクラスタがいずれであるかを調べる。今の場合座
標(6,9)のセルは「クラス1」に定義されているの
で、当該未知データは「クラス1」に属するデータであ
ることがわかる。
FIG. 24 is a diagram for explaining the state at this time. As a result of the search, as shown in the figure, the coordinates (6, 9) are set as the cells having the reference data most similar to the unknown data.
Suppose that the cell of fired. At this time, it is checked which of the cell clusters at the coordinates (6, 9) is. In this case, the cell with coordinates (6, 9) is defined as "class 1", so it can be seen that the unknown data belongs to "class 1".

【0092】「クラス1」は、本来取り違いデータが集
まるクラスタであるので、この未知データは取違いデー
タであった可能性が高いと判断することができる。
Since "class 1" is a cluster in which the wrong data is originally collected, it can be determined that this unknown data is likely to be wrong data.

【0093】なお、別の観点から、上述した発明の検体
取り違い判定方法を実現するためのコンピュータプログ
ラム、あるいはコンピュータプログラムを記録した媒体
として本発明を実施するようにしてもよい。この場合
は、入力装置12からコンピュータプログラムを読み込
むことにより本発明の検体取り違い方法を実現すること
ができる。
From another point of view, the present invention may be embodied as a computer program for realizing the above-mentioned sample misplacement determination method of the present invention or a medium recording the computer program. In this case, the sample replacement method of the present invention can be realized by reading the computer program from the input device 12.

【0094】[0094]

【発明の効果】以上のように、本発明によれば、すべて
の検査項目を考慮することが可能な、有効な検体取り違
い判定方法を提供することができる。
As described above, according to the present invention, it is possible to provide an effective method for determining a sample error by considering all test items.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例であるクラスタリング装置の
構成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of a clustering device that is an embodiment of the present invention.

【図2】本発明の一実施例であるクラスタリング装置に
より実行される処理の流れの一例を示すフロー図。
FIG. 2 is a flowchart showing an example of a flow of processing executed by a clustering device according to an embodiment of the present invention.

【図3】SOM学習アルゴリズムによる学習過程を説明
する図。
FIG. 3 is a diagram illustrating a learning process by an SOM learning algorithm.

【図4】SOM上のセルに割り付けられる参照データを
説明する図。
FIG. 4 is a diagram illustrating reference data assigned to cells on an SOM.

【図5】SOM学習アルゴリズムで用いられる学習デー
タを説明する図。
FIG. 5 is a diagram illustrating learning data used in the SOM learning algorithm.

【図6】本発明の一実施例であるクラスタリング装置で
用いる学習データの作成例(取違い判定用の学習デー
タ)を説明する図。
FIG. 6 is a diagram illustrating an example of creating learning data (learning data for error determination) used in the clustering device that is an embodiment of the present invention.

【図7】本発明の一実施例であるクラスタリング装置で
用いる学習データの例を示す図。
FIG. 7 is a diagram showing an example of learning data used in a clustering device according to an embodiment of the present invention.

【図8】対照表を説明する図。FIG. 8 is a diagram illustrating a comparison table.

【図9】自動分類アルゴリズムによる処理の流れの一例
を示すフロー図。
FIG. 9 is a flowchart showing an example of the processing flow of an automatic classification algorithm.

【図10】SOMの表示例を示す図(未分類のSO
M)。
FIG. 10 is a diagram showing an example of SOM display (unsorted SO
M).

【図11】SOMの例を示す図(未分類のSOMに距離
表示を加えた状態)。
FIG. 11 is a diagram showing an example of SOM (a state in which distance display is added to unclassified SOM).

【図12】SOMの表示例を示す図(自動分類のために
全セルを「クラス1」に仮設定した状態)。
FIG. 12 is a view showing a display example of SOM (a state in which all cells are provisionally set to “class 1” for automatic classification).

【図13】SOMの表示例を示す図(図12から1つの
セルを未定義にした状態)。
FIG. 13 is a view showing a display example of SOM (a state in which one cell is undefined from FIG. 12).

【図14】SOMの表示例を示す図(図13からさらに
未定義セルを増加した状態)。
FIG. 14 is a view showing a display example of SOM (a state in which undefined cells are further increased from FIG. 13).

【図15】SOMの表示例を示す図(図14からさらに
未定義セルを増加した状態)。
FIG. 15 is a diagram showing a display example of SOM (a state in which undefined cells are further increased from FIG. 14).

【図16】SOMの表示例を示す図(全セルを未定義セ
ルにした状態)。
FIG. 16 is a diagram showing a display example of SOM (a state in which all cells are undefined cells).

【図17】SOMの表示例を示す図(「クラス1」に属
するセルを決定した状態)。
FIG. 17 is a diagram showing a display example of SOM (state in which cells belonging to “class 1” are determined).

【図18】SOMの表示例を示す図(残りの全セルを
「クラス2」に仮設定した状態)。
FIG. 18 is a diagram showing a display example of SOM (a state in which all remaining cells are provisionally set to “class 2”).

【図19】SOMの表示例を示す図(図18から1つの
セルを未定義にした状態)。
FIG. 19 is a view showing a display example of SOM (a state in which one cell is undefined from FIG. 18).

【図20】SOMの表示例を示す図(図19からさらに
未定義セルを増加した状態)。
FIG. 20 is a diagram showing a display example of SOM (a state in which undefined cells are further increased from FIG. 19).

【図21】SOMの表示例を示す図(残りの全セルを未
定義セルにした状態)。
FIG. 21 is a view showing a display example of SOM (a state where all remaining cells are undefined cells).

【図22】SOMの表示例を示す図(自動分類により全
セルの分類を決定した状態)。
FIG. 22 is a view showing a display example of SOM (state in which classification of all cells is determined by automatic classification).

【図23】SOMの表示例を示す図(図22からセルの
分類を調整した状態)。
FIG. 23 is a view showing a display example of SOM (a state in which cell classification is adjusted from FIG. 22).

【図24】SOMの表示例を示す図(図23において未
知データを発火させた状態)。
FIG. 24 is a view showing a display example of SOM (state in which unknown data is fired in FIG. 23).

【符号の説明】[Explanation of symbols]

1:SOM(自己組織化マップ) 2:セル 12:入力装置 10:クラスタリング装置 12:入力装置 14:出力装置 16:学習データ読込部 18:SOM作成部 20:距離演算部 22:距離表示部 24:分類部 26:対照表示部 28:判別特性値表示部 30:クラスタ調整部 32:未知データ読込部 34:評価決定部 36:学習データDB(データベース) 38:マップDB(データベース) 40:未知データDB(データベース) 1: SOM (self-organizing map) 2: cell 12: Input device 10: Clustering device 12: Input device 14: Output device 16: Learning data reading section 18: SOM creation section 20: Distance calculation unit 22: Distance display section 24: Classification section 26: Control display section 28: Discrimination characteristic value display section 30: Cluster adjustment unit 32: Reading unknown data 34: Evaluation determination unit 36: Learning data DB (database) 38: Map DB (database) 40: Unknown data DB (database)

フロントページの続き (72)発明者 金井 一之 神戸市中央区脇浜海岸通1丁目5番1号 シスメックス株式会社内 Fターム(参考) 2G058 GD01 GD05 GD07 Continued front page    (72) Inventor Kazuyuki Kanai             1-5-1, Wakihama Kaigan Dori, Chuo-ku, Kobe-shi             Inside Sysmex Corporation F-term (reference) 2G058 GD01 GD05 GD07

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 検体取り違いデータの集まるクラスタと
正常データの集まるクラスタとにクラスタリングされた
マップに未知データを配置させ、その未知データがどの
クラスタに属するかによって検体を取り違えているか否
かを判定する検体取り違い判定方法。
1. Arrangement of unknown data in a map clustered into a cluster in which sample difference data is collected and a cluster in which normal data is collected, and it is determined whether or not the sample is mixed depending on which cluster the unknown data belongs to A method for determining the sample mix-up.
【請求項2】 マップがSOMである請求項1記載の検
体取り違い判定方法。
2. The method for determining a sample difference according to claim 1, wherein the map is SOM.
【請求項3】 検体取り違い判定に使用するマップを作
成する方法であって、正常データと検体取り違いデータ
の混在する学習データを学習させて学習済マップを作成
し、学習済マップを正常データの集まるクラスタと検体
取り違いデータの集まるクラスタとにクラスタリングす
るマップ作成方法。
3. A method for creating a map to be used for determination of sample difference, wherein learned data is created by learning learning data in which normal data and sample difference data are mixed, and the learned map is created as normal data. A method of creating a map for clustering a cluster of data and a cluster of data of sample difference.
【請求項4】 マップがSOMである請求項3記載のマ
ップ作成方法。
4. The map creating method according to claim 3, wherein the map is an SOM.
【請求項5】 検体取り違い判定に使用するマップの作
成に使用する学習データを作成する方法であって、異な
る被験者の検体から検体取り違いデータを作成し、同一
の被験者の検体から正常データを作成し、検体取り違い
データおよび正常データを混在させる学習データ作成方
法。
5. A method for creating learning data to be used for creating a map used for determination of sample difference, wherein sample difference data is created from samples of different subjects, and normal data is obtained from samples of the same subject. A learning data creation method that creates and mixes sample difference data and normal data.
【請求項6】 マップがSOMである請求項5記載の学
習データ作成方法。
6. The learning data creating method according to claim 5, wherein the map is an SOM.
JP2002100421A 2002-04-02 2002-04-02 Specimen mix-up determining method, and preparing method for map and learning data used in method Pending JP2003296697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002100421A JP2003296697A (en) 2002-04-02 2002-04-02 Specimen mix-up determining method, and preparing method for map and learning data used in method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002100421A JP2003296697A (en) 2002-04-02 2002-04-02 Specimen mix-up determining method, and preparing method for map and learning data used in method

Publications (2)

Publication Number Publication Date
JP2003296697A true JP2003296697A (en) 2003-10-17
JP2003296697A5 JP2003296697A5 (en) 2005-09-15

Family

ID=29388391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002100421A Pending JP2003296697A (en) 2002-04-02 2002-04-02 Specimen mix-up determining method, and preparing method for map and learning data used in method

Country Status (1)

Country Link
JP (1) JP2003296697A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010216868A (en) * 2009-03-13 2010-09-30 Fujitsu Ltd Device and method for supporting inspection of specimen
JP2011508223A (en) * 2007-12-20 2011-03-10 アボット ポイント オブ ケア インコーポレイテッド Automatic method and apparatus for detecting erroneous sample collection in clinical analysis
JP2020507149A (en) * 2017-01-11 2020-03-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Methods and systems for automated detection of inclusion or exclusion criteria

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011508223A (en) * 2007-12-20 2011-03-10 アボット ポイント オブ ケア インコーポレイテッド Automatic method and apparatus for detecting erroneous sample collection in clinical analysis
CN102066914A (en) * 2007-12-20 2011-05-18 雅培医护站股份有限公司 Automated method and apparatus for detecting erroneous sample collection in clinical assays
JP2010216868A (en) * 2009-03-13 2010-09-30 Fujitsu Ltd Device and method for supporting inspection of specimen
JP2020507149A (en) * 2017-01-11 2020-03-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Methods and systems for automated detection of inclusion or exclusion criteria

Similar Documents

Publication Publication Date Title
Gross et al. Defining a" fair" or" unbiased" selection model: A question of utilities.
CN107463796B (en) Early stage virulence factor detection method based on gene co-expressing Internet communication analysis
CN111667050B (en) Metric learning method, device, equipment and storage medium
JP2016133895A (en) Information processing device, information processing method, and program
US20090299646A1 (en) System and method for biological pathway perturbation analysis
CN112633601A (en) Method, device, equipment and computer medium for predicting disease event occurrence probability
CN110634563A (en) Differential diagnosis device for diabetic nephropathy and non-diabetic nephropathy
EP3767582A1 (en) Inspection system, discrimination system, and learning data generator
WO2022121032A1 (en) Data set division method and system in federated learning scene
JP2000339351A (en) System for identifying selectively related database record
CN111554402A (en) Machine learning-based method and system for predicting postoperative recurrence risk of primary liver cancer
CN113242213B (en) Power communication backbone network node vulnerability diagnosis method
CN110084423A (en) A kind of link prediction method based on local similarity
CN112700158B (en) Multi-dimensional model-based algorithm efficiency evaluation method
JP2003296697A (en) Specimen mix-up determining method, and preparing method for map and learning data used in method
CN111739599B (en) Teaching medical record generation method and device
JP2003296696A (en) Clustering device and clustering method
CN115527610A (en) Cluster analysis method of unicellular omics data
CN111652733B (en) Financial information management system based on cloud computing and block chain
CN114972273A (en) Method, system, device and storage medium for enhancing data set of streamlined product
CN114282675A (en) Dynamic causal network construction method, system and storage medium
CN113239195B (en) Knowledge point difficulty grading method based on big data
CN112598048A (en) Method for adaptively selecting positive and negative samples according to statistical characteristics of object
CN111652102A (en) Power transmission channel target object identification method and system
CN110569885A (en) multi-order motif directed network link prediction method based on naive Bayes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080701