KR102510936B1 - Apparatus and method for extract range of antibody data based on gut microorganism data - Google Patents

Apparatus and method for extract range of antibody data based on gut microorganism data Download PDF

Info

Publication number
KR102510936B1
KR102510936B1 KR1020200075590A KR20200075590A KR102510936B1 KR 102510936 B1 KR102510936 B1 KR 102510936B1 KR 1020200075590 A KR1020200075590 A KR 1020200075590A KR 20200075590 A KR20200075590 A KR 20200075590A KR 102510936 B1 KR102510936 B1 KR 102510936B1
Authority
KR
South Korea
Prior art keywords
feature
feature data
data
blood
variables
Prior art date
Application number
KR1020200075590A
Other languages
Korean (ko)
Other versions
KR20210157597A (en
Inventor
김사라
황은총
지요셉
Original Assignee
주식회사 에이치이엠파마
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이치이엠파마 filed Critical 주식회사 에이치이엠파마
Priority to KR1020200075590A priority Critical patent/KR102510936B1/en
Publication of KR20210157597A publication Critical patent/KR20210157597A/en
Application granted granted Critical
Publication of KR102510936B1 publication Critical patent/KR102510936B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Abstract

장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치는 객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득하는 수집부, 기정의된 알고리즘에 기초하여 제 1 특징 데이터로부터 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출하는 제 1 추출부, 제 2 특징 데이터에 대한 유전자 분석에 기초하여 제 2 특징 데이터로부터 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출하는 제 2 추출부, 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 제 3 특징 데이터로부터 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출하는 제 3 추출부 및 객체의 분변으로부터 제 4 개수의 특징 변수를 추출하고, 추출된 제 4 개수의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출하는 혈중 면역지표 범위 도출부를 포함할 수 있다. An apparatus for deriving a range of immune indicators in the blood based on intestinal microbial data collects a plurality of sample data for feces of an object, and includes a first number of feature variables extracted from each of the collected plurality of sample data. A collection unit that acquires feature data; a first extractor that extracts second feature data including a second number of feature variables smaller than the first number from the first feature data based on a predefined algorithm; and a second feature data A second extraction unit for extracting third feature data including a third number of feature variables less than the second number from the second feature data based on genetic analysis for, excluding at least some of the third feature variables A third extractor for extracting a fourth number of feature variables less than the third number from the third feature data based on the classification performance of the machine learning-based blood immune index range prediction model for the third feature data and a feces of the object A blood immune index range derivation unit for extracting a fourth number of feature variables from and inputting the extracted fourth number of feature variables into a machine learning-based blood immune index range prediction model to derive a range of immune index ranges in blood. there is.

Description

장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치 및 방법{APPARATUS AND METHOD FOR EXTRACT RANGE OF ANTIBODY DATA BASED ON GUT MICROORGANISM DATA}Apparatus and method for deriving range of immune indicators in blood based on intestinal microbial data

본 발명은 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for deriving a range of immune indicators in the blood based on intestinal microbial data.

장균총(microbiota)은 숙주(사람)의 면역, 대사물질 등의 항상성 유지에 중요한 역할을 한다고 알려져 있다. 장균총과 숙주는 화학물질 신호를 주고 받으며 장균총에 의한 면역세포의 발현이나 신경전달물질 생성, 단쇄지방산(SCFA; Short chain fatty acids)생성 등 숙주 내 체계에 비대한 영향을 미친다.It is known that the microbiota plays an important role in maintaining host (human) immunity and homeostasis of metabolites. The intestinal microflora and the host exchange chemical signals, and the intestinal microflora exerts a hypertrophic effect on the host system, such as the expression of immune cells, the production of neurotransmitters, and the production of short chain fatty acids (SCFA).

한편, IgE는 알레르기 질환의 발생에 관여하는 면역글로불린의 한 종류로서 잘 알려져 있다. IgE는 전체 Ig의 0.05%를 차지하나, 알레르기 반응에서 비만 세포(mast cell)와 협동하여 조직의 염증과 관계있는 히스타민의 분비를 촉진하기 때문에 가장 강력한 염증 반응을 유도하는 능력을 갖고 있다. Meanwhile, IgE is well known as a type of immunoglobulin involved in the development of allergic diseases. Although IgE accounts for 0.05% of total Ig, it has the ability to induce the strongest inflammatory response because it promotes the secretion of histamine related to tissue inflammation in cooperation with mast cells in allergic reactions.

혈청 총 IgE의 농도는 다양한 알레르기 환자(예컨대, 아토피피부염, 알레르기비염, 기관지천식 등을 갖는 환자)에게서 높게 나타나는 경향을 보이기 때문에 알레르기 질환을 진단하기 위해 사용하는 방법 중 하나로 혈청 내 총 IgE를 측정한다. 또한, 혈청 총 IgE의 농도는 알레르기 질환의 발현 및 악화에 따라 증가하는 것으로 알려져 있다. Since the concentration of serum total IgE tends to be high in patients with various allergies (e.g., patients with atopic dermatitis, allergic rhinitis, bronchial asthma, etc.), total IgE in serum is measured as one of the methods used to diagnose allergic diseases. . In addition, it is known that the concentration of total serum IgE increases with the onset and exacerbation of allergic diseases.

한국공개특허공보 제2019-0004586호 (2019.01.14. 공개)Korean Patent Publication No. 2019-0004586 (published on January 14, 2019)

본 발명은 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치 및 방법을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. An object of the present invention is to provide an apparatus and method for deriving a range of immune indicators in the blood based on intestinal microbial data. However, the technical problem to be achieved by the present embodiment is not limited to the technical problems described above, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치는 객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 상기 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득하는 수집부; 기정의된 알고리즘에 기초하여 상기 제 1 특징 데이터로부터 상기 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출하는 제 1 추출부; 상기 제 2 특징 데이터에 대한 유전자 분석에 기초하여 상기 제 2 특징 데이터로부터 상기 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출하는 제 2 추출부; 상기 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후 상기 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 상기 제 3 특징 데이터로부터 상기 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출하는 제 3 추출부 및 객체의 분변으로부터 상기 제 4 개수의 특징 변수를 추출하고, 상기 추출된 제 4 개수의 특징 변수를 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출하는 혈중 면역지표 범위 도출부를 포함할 수 있다. As a technical means for achieving the above-described technical problem, the apparatus for deriving a range of immune indicators in blood based on intestinal microbial data according to the first aspect of the present invention collects a plurality of sample data for feces of an object, and a collection unit that obtains first feature data including a first number of feature variables extracted from each of a plurality of collected sample data; a first extraction unit extracting second feature data including a second number of feature variables less than the first number from the first feature data based on a predefined algorithm; a second extraction unit extracting third feature data including a third number of feature variables less than the second number from the second feature data based on genetic analysis of the second feature data; After excluding at least some of the third number of feature variables, based on the classification performance of the machine learning-based blood immune index range prediction model for the third feature data, from the third feature data Less than the third number A third extractor for extracting four feature variables and extracting the fourth number of feature variables from the object's feces, and applying the extracted fourth feature variables to the machine learning-based blood immune index range prediction model It may include a blood immune index range derivation unit for deriving a range of immune index in blood by inputting the input.

본 발명의 제 2 측면에 따른 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 방법은 객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 상기 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득하는 단계; 기정의된 알고리즘에 기초하여 상기 제 1 특징 데이터로부터 상기 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출하는 단계; 상기 제 2 특징 데이터에 대한 유전자 분석에 기초하여 상기 제 2 특징 데이터로부터 상기 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출하는 단계; 상기 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후 상기 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 상기 제 3 특징 데이터로부터 상기 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출하는 단계 및 객체의 분변으로부터 상기 제 4 개수의 특징 변수를 추출하고, 상기 추출된 제 4 개수의 특징 변수를 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출하는 단계를 포함할 수 있다. A method for deriving a range of immune indicators in the blood based on intestinal microbial data according to a second aspect of the present invention collects a plurality of sample data for feces of an object, and first extracted from each of the collected plurality of sample data obtaining first feature data including the number of feature variables; extracting second feature data including a second number of feature variables smaller than the first number from the first feature data based on a predefined algorithm; extracting third feature data including a third number of feature variables less than the second number from the second feature data based on genetic analysis of the second feature data; After excluding at least some of the third number of feature variables, based on the classification performance of the machine learning-based blood immune index range prediction model for the third feature data, from the third feature data Less than the third number Extracting four feature variables, extracting the fourth number of feature variables from feces of an object, and inputting the extracted fourth feature variables into the machine learning-based blood immune index range prediction model to obtain blood It may include deriving a range of immune indicators.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described means for solving the problems is only illustrative and should not be construed as limiting the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and detailed description.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치 및 방법을 제공할 수 있다. According to any one of the above-described means for solving the problems of the present invention, the present invention can provide a device and method for deriving a range of immune indicators in blood based on intestinal microbial data.

이를 통해, 본 발명은 객체의 장내 미생물 데이터를 통해 도출된 혈중 면역지표의 범위에 기초하여 객체의 혈중 면역지표가 고위험군에 속하는지 여부를 판별할 수 있다.Through this, the present invention can determine whether the subject's blood immune index belongs to the high-risk group based on the range of blood immune index derived through the subject's intestinal microbial data.

또한, 본 발명은 객체의 혈중 면역지표의 위험군을 초기에 진단 및 예측하여 객체가 적절한 관리를 하도록 함으로써 알레르기 질환의 발병률을 낮추고 치료를 효과적으로 할 수 있도록 도울 수 있다. In addition, the present invention can help reduce the incidence of allergic diseases and effectively treat allergic diseases by diagnosing and predicting the risk group of the subject's blood immune indicators at an early stage so that the subject can properly manage them.

도 1은 본 발명의 일 실시예에 따른, 혈중 면역지표 범위 도출 장치의 블록도이다.
도 2a 내지 2d는 본 발명의 일 실시예에 따른, 혈중 면역지표의 범위를 도출하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른, 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 방법을 나타낸 흐름도이다.
1 is a block diagram of an apparatus for deriving a blood immune index range according to an embodiment of the present invention.
2a to 2d are views for explaining a method of deriving a range of immune indicators in blood according to an embodiment of the present invention.
3 is a flowchart illustrating a method of deriving a range of immune indicators in blood based on intestinal microbial data according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail so that those skilled in the art can easily practice the present invention with reference to the accompanying drawings. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element interposed therebetween. . In addition, when a certain component is said to "include", this means that it may further include other components without excluding other components unless otherwise stated.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. In this specification, a "unit" includes a unit realized by hardware, a unit realized by software, and a unit realized using both. Further, one unit may be realized using two or more hardware, and two or more units may be realized by one hardware.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다. In this specification, some of the operations or functions described as being performed by a terminal or device may be performed instead by a server connected to the terminal or device. Likewise, some of the operations or functions described as being performed by the server may also be performed in a terminal or device connected to the corresponding server.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다. Hereinafter, specific details for the implementation of the present invention will be described with reference to the accompanying configuration diagram or process flow chart.

도 1은 본 발명의 일 실시예에 따른, 혈중 면역지표 범위 도출 장치의 블록도이다. 1 is a block diagram of an apparatus for deriving a blood immune index range according to an embodiment of the present invention.

도 1을 참조하면, 혈중 면역지표 범위 도출 장치(10)는 수집부(100), 제 1 추출부(110), 제 2 추출부(120), 제 3 추출부(130) 및 혈중 면역지표 범위 추출부(140)를 포함할 수 있다. 다만, 도 1에 도시된 혈중 면역지표 범위 도출 장치(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. Referring to FIG. 1, the blood immune index range deriving apparatus 10 includes a collection unit 100, a first extraction unit 110, a second extraction unit 120, a third extraction unit 130, and a blood immune index range An extraction unit 140 may be included. However, the apparatus 10 for deriving the range of immune indicators in blood shown in FIG. 1 is only one implementation example of the present invention, and various modifications are possible based on the components shown in FIG. 1 .

이하에서는 도 2a 내지 2d를 함께 참조하여 도 1을 설명하기로 한다. Hereinafter, FIG. 1 will be described with reference to FIGS. 2A to 2D.

수집부(100)는 객체의 분변에 대한 복수의 샘플 데이터를 수집할 수 있다.The collection unit 100 may collect a plurality of sample data about feces of an object.

수집부(100)는 수집된 복수의 샘플 데이터 각각으로부터 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득할 수 있다. 예를 들어, 수집부(100)는 객체로부터 채취한 객체의 분변이 소분된 제 1 샘플 데이터, 제 2 샘플 데이터 및 제 3 샘플 데이터 각각으로부터 제 1 개수(예컨대, 726개)의 특징 변수를 포함하는 제 1 특징 데이터를 획득할 수 있다. 여기서, 특징 변수는 각 샘플 데이터에 포함된 다양한 장균 변수를 의미한다. The collection unit 100 may obtain first feature data including a first number of feature variables from each of a plurality of collected sample data. For example, the collecting unit 100 includes a first number (eg, 726) of feature variables from each of the first sample data, the second sample data, and the third sample data obtained by subdividing feces of the object collected from the object. It is possible to obtain the first feature data to be. Here, the feature variables refer to various enteric bacteria variables included in each sample data.

제 1 추출부(110)는 기정의된 알고리즘에 기초하여 제 1 특징 데이터로부터 제 1 개수(예컨대, 726개)보다 적은 제 2 개수, 예컨대, 150개 내지 200개의 특징 변수를 포함하는 제 2 특징 데이터를 추출할 수 있다. 이 때, 제 2 개수는 예를 들어, 172개일 수 있다.The first extractor 110 extracts a second feature including a second number less than the first number (eg, 726), for example, 150 to 200 feature variables, from the first feature data based on a predefined algorithm. data can be extracted. At this time, the second number may be, for example, 172.

여기서, 기정의된 알고리즘은 아크사인 제곱근 변환(arcsine square root transformation)을 포함할 수 있다. Here, the predefined algorithm may include arcsine square root transformation.

제 1 추출부(110)는 복수의 샘플 데이터에 대한 복수의 제 1 특징 데이터를 아크사인 제곱근 변환하고, 복수의 제 1 특징 데이터에 포함된 복수의 동일한 특징 변수가 특정 점수 이하인 확률이 기설정된 확률을 초과하는 경우, 복수의 샘플 데이터 별로 제 1 특징 데이터로부터 동일 특징 변수를 제거하여 제 2 특징 데이터를 추출할 수 있다. The first extractor 110 performs arcsine square root transformation on a plurality of first feature data for a plurality of sample data, and the probability that a plurality of identical feature variables included in the plurality of first feature data is equal to or less than a specific score is a predetermined probability If it exceeds, the second feature data may be extracted by removing the same feature variable from the first feature data for each of a plurality of sample data.

예를 들어, 복수의 샘플 데이터 별로 A 특징 변수에 대하여 아크사인 제곱근 변환을 수행할 경우, 제 1 샘플 데이터의 A 특징 변수에 대한 점수가 제 1 점수(예컨대, 0점)이고, 제 2 샘플 데이터의 A 특징 변수에 대한 점수가 제 1 점수이고, 제 3 샘플 데이터의 A 특징 변수에 대한 점수가 제 1 점수인 경우, 복수의 샘플 데이터에서 A 특징 변수가 제 1 점수를 갖는 확률이 기설정된 확률(예컨대, 85%)을 초과하기 때문에 제 1 추출부(110)는 각 샘플 데이터 마다 제 1 특징 데이터에 포함된 제 1 개의 특징 변수에서 A 특징 변수를 제거할 수 있다. For example, when arcsine square root transformation is performed on the A feature variable for each of a plurality of sample data, the score for the A feature variable of the first sample data is a first score (eg, 0 point), and the second sample data When the score for the A feature variable of is the first score and the score for the A feature variable of the third sample data is the first score, the probability that the A feature variable has the first score in the plurality of sample data is a predetermined probability (eg, 85%), the first extractor 110 may remove the A feature variable from the first feature variable included in the first feature data for each sample data.

분류 성능 측정부(미도시)는 복수의 샘플 데이터 각각의 제 1 특징 데이터로부터 추출된 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 분류에 대한 성능 점수를 측정할 수 있다. The classification performance measurement unit (not shown) inputs the second feature data including the second number of feature variables extracted from the first feature data of each of a plurality of sample data into a machine learning-based blood immune index range prediction model and classifies performance score can be measured.

예를 들어, 도 2a를 참조하면, 분류 성능 측정부(미도시)는 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 앙상블 기반의 혈중 면역지표 범위 예측 모델(20) 및 DNN 기반의 혈중 면역지표 범위 예측 모델(22) 각각에 입력하여 혈중 면역지표(예컨대, IgE)의 범위가 기설정된 복수의 범위(하위 범위, 상위 범위) 중 하나로 분류되는지에 대한 분류 성능 점수를 측정할 수 있다. 여기서, 기설정된 하위 범위는 예를 들어, 혈중 면역지표의 농도가 150 UI/ml 미만을 포함하고, 기설정된 상위 범위는 예를 들어, 혈중 면역지표의 농도가 300UL/ml 이상을 포함할 수 있다. 혈중 면역지표가 기설정된 하위 범위 또는 상위 범위 중 하나로 분류되는 경우, 알레르기 질환을 갖고 있는 확률이 높을 것으로 추정될 수 있다. For example, referring to FIG. 2A , the classification performance measuring unit (not shown) converts the second feature data including the second number of feature variables into the ensemble-based blood immune index range prediction model 20 and the DNN-based blood A classification performance score for whether the range of an immune index (eg, IgE) in blood is classified into one of a plurality of predetermined ranges (lower range, upper range) by inputting into each of the immune index range prediction models 22 can be measured. Here, the predetermined lower range may include, for example, a blood immune index concentration of less than 150 UI/ml, and a preset upper range may include, for example, a blood immune index concentration of 300 UL/ml or more. . When the blood immune index is classified into one of a predetermined lower range or upper range, it can be estimated that the probability of having an allergic disease is high.

앙상블 기반의 혈중 면역지표 범위 예측 모델(20)을 통해 분류된 혈중 면역지표의 범위에 대한 분류 성능 점수를 살펴보면, 랜덤 포레스트(Random forest)를 이용한 알고리즘의 분류 성능 점수는 0.179점이고, 에이타부스트(Adaboost)를 이용한 알고리즘의 분류 성능 점수는 0.589점이고, 그레디언트 부스트(Gradient boost)를 이용한 알고리즘의 분류 성능 점수는 0.375점이고, 엑스지부스트(XGBoost)를 이용한 알고리즘의 분류 점수는 0.411 점이다. Looking at the classification performance score for the range of blood immune indicators classified through the ensemble-based blood immune indicator range prediction model (20), the classification performance score of the algorithm using a random forest is 0.179, and Adaboost The classification performance score of the algorithm using ) is 0.589 points, the classification performance score of the algorithm using gradient boost is 0.375 points, and the classification performance score of the algorithm using XGBoost is 0.411 points.

DNN 기반의 혈중 면역지표 범위 예측 모델(22)을 통해 분류된 혈중 면역지표의 범위에 대한 분류 성능 점수는 0.411점이다. The classification performance score for the range of immune indicators in the blood classified through the DNN-based predictive model for the range of immune indicators in the blood (22) is 0.411 points.

이와 같은 분류 성능 점수를 살펴보았을 때, 에이타부스트를 이용한 앙상블 기반의 혈중 면역지표 범위 예측 모델(20)이 혈중 면역지표의 범위에 대한 분류에 있어서 가장 높은 성능을 보임을 확인할 수 있다. When examining such classification performance scores, it can be seen that the ensemble-based blood immune index range prediction model 20 using Athaboost shows the highest performance in classifying the range of blood immune indicators.

다시 도 1로 돌아오면, 제 2 추출부(120)는 제 2 특징 데이터를 시각화 그래프(도 2b 참조)로 표현하고, 시각화 그래프로 표현된 제 2 특징 데이터에 대한 유전자 분석을 수행할 수 있다. 여기서, 시각화 그래프는 예를 들어, 볼캐노 플랏(Volcano plot) 그래프를 포함할 수 있다. 볼캐노 플랏 그래프는 두 그룹 사이에서 발현량 차이를 나타내는 유전자를 효과적으로 시각화한 그래프이다. Returning to FIG. 1 again, the second extractor 120 may express the second feature data as a visualization graph (see FIG. 2B ) and perform genetic analysis on the second feature data expressed as the visualization graph. Here, the visualization graph may include, for example, a Volcano plot graph. A volcano plot graph is a graph that effectively visualizes genes showing a difference in expression level between two groups.

제 2 추출부(120)는 제 2 특징 데이터가 시각화된 시각화 그래프를 통해 DEG(Differentially Expressed Gene) 분석을 수행할 수 있다. 여기서, DEG 분석은 동일한 유전자의 평균 발현량이 서로 다른 조건에서 유의하게 다른지를 분석하는 방법이다. 구체적으로, DEG 분석은 유전자의 발현값을 측정하고 통계적으로 처리하여 대조군과 비교군 간의 발현이 유의한 유전자 후보군을 선발한 후, 특정 조건이나 처리구에 따른 유전자 발현양상을 분석하는 방법이다. The second extractor 120 may perform DEG (Differentially Expressed Gene) analysis through a visualization graph in which the second feature data is visualized. Here, the DEG analysis is a method of analyzing whether the average expression level of the same gene is significantly different under different conditions. Specifically, DEG analysis is a method of measuring gene expression values, processing them statistically, selecting gene candidates with significant expression between a control group and a comparison group, and then analyzing gene expression patterns according to specific conditions or treatment groups.

제 2 추출부(120)는 제 2 특징 데이터에 대한 유전자 분석에 기초하여 제 2 특징 데이터로부터 제 2 개수보다 적은 제 3 개수, 예컨대, 60개 내지 100개의 특징 변수를 포함하는 제 3 특징 데이터를 추출할 수 있다. 여기서 제 3 개수는 예를 들어, 81개일 수 있다.The second extractor 120 extracts third feature data including a third number less than the second number, for example, 60 to 100 feature variables, from the second feature data based on genetic analysis of the second feature data. can be extracted. Here, the third number may be, for example, 81.

제 2 추출부(120)는 제 2 특징 데이터에 포함된 복수의 특징 변수 각각에 대하여 DEG 분석으로부터 P-value 및 Fold-change를 추출하고, 추출된 P-value 및 Fold-change에 기초하여 제 3 특징 데이터를 추출할 수 있다. 여기서, Fold-change는 어떤 유전자에 대하여 실험군에서의 평균발현량이 대조군에서의 평균발현량의 몇배인지를 나타내는 정보이고, P-value는 두 그룹 간의 평균발현량 차이가 통계적으로 유의미한 값인지를 알려주는 정보이다. The second extractor 120 extracts a P-value and a Fold-change from the DEG analysis for each of a plurality of feature variables included in the second feature data, and extracts a third value based on the extracted P-value and Fold-change. Feature data can be extracted. Here, Fold-change is information indicating how many times the average expression level in the experimental group for a gene is the average expression level in the control group, and P-value indicates whether the difference in average expression level between the two groups is a statistically significant value. It is information.

구체적으로, 제 2 추출부(120)는 도출된 제 2 특징 데이터의 각 특징 변수에 대한 P-value 중 기설정된 임계치 미만인 P-value를 갖는 특징 변수를 포함하는 제 3 특징 데이터를 제 2 특징 데이터로부터 추출할 수 있다. 여기서, 기설정된 임계치 미만인 P-value를 갖는 특징 변수의 개수는 제 2 개수보다 적은 제 3 개수를 갖는다. Specifically, the second extractor 120 converts third feature data including a feature variable having a P-value less than a preset threshold among P-values for each feature variable of the derived second feature data into second feature data. can be extracted from Here, the number of feature variables having a P-value less than the predetermined threshold has a third number less than the second number.

예를 들어, 제 2 추출부(120)는 제 2 특징 데이터에 포함된 복수의 특징 변수 각각에 대한 P-value 중 0.5 미만인 P-value를 갖는 특징 변수를 포함하는 제 3 특징 데이터를 제 2 특징 데이터로부터 추출할 수 있다. For example, the second extractor 120 converts third feature data including a feature variable having a P-value of less than 0.5 among P-values for each of a plurality of feature variables included in the second feature data into the second feature data. can be extracted from the data.

제 3 추출부(130)는 추출된 제 3 특징 데이터에 포함된 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후, 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 제 3 특징 데이터로부터 제 3 개수보다 적은 제 4 개수. 예컨대, 40개 내지 60개의 특징 변수를 추출할 수 있다. 여기서, 제 4 개수는 예를 들어, 51개일 수 있다.After the third extractor 130 excludes at least some of the third number of feature variables included in the extracted third feature data, the classification performance of the machine learning-based blood immune index range prediction model for the third feature data A fourth number less than the third number from the third feature data based on . For example, 40 to 60 feature variables may be extracted. Here, the fourth number may be, for example, 51.

제 3 추출부(130)는 제 3 특징 데이터에 포함된 제 3 개수의 특징 변수 중 적어도 일부를 제외한 특징 변수를 혈중 면역지표 범위 예측 모델에 입력한 후, 특징 변수의 개수가 어느 정도일 때, 혈중 면역지표 범위 예측 모델이 혈중 면역지표에 대한 분류(즉, 기설정된 하위 범위 또는 기설정된 상위 범위로 분류)를 잘하는지를 파악할 수 있다. The third extractor 130 inputs characteristic variables excluding at least some of the third number of characteristic variables included in the third characteristic data into the blood immune index range prediction model, and when the number of characteristic variables is to a certain extent, blood It is possible to determine whether the immune index range prediction model is good at classifying immune indicators in blood (ie, classifying into a predetermined lower range or a predetermined upper range).

구체적으로, 제 3 추출부(130)는 제 3 특징 데이터에 포함된 복수의 특징 변수를 Fold-change가 낮은 적어도 일부의 특징 변수를 제외시키면서 측정된 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 제 3 특징 데이터로부터 제 4 개의 특징 변수를 추출할 수 있다. Specifically, the third extractor 130 classifies a plurality of feature variables included in the third feature data while excluding at least some feature variables having a low fold-change, and classifies the measured machine learning-based blood immune index range prediction model Based on the performance, a fourth feature variable may be extracted from the third feature data.

제 3 추출부(130)는 제 3 특징 데이터에 포함된 제 3 개수의 특징 변수 각각에 대한 Fold-change에 절대값을 취한 후, Fold-change의 절대값이 작은 특징 변수를 순차적으로 하나씩 제 3 특징 데이터에서 제외시키면서 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능을 측정할 수 있다. The third extractor 130 takes the absolute value of the fold-change for each of the third number of feature variables included in the third feature data, and then sequentially extracts the feature variables having the small absolute value of the fold-change one by one into the third feature data. It is possible to measure the classification performance of a machine learning-based blood immune index range prediction model while excluding feature data.

예를 들어, 제 3 추출부(130)는 81개의 특징 변수(제 3 개수의 특징 변수) 중 Fold-change의 절대값이 가장 낮은 특징 변수를 제외한 80개의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 분류 성능을 측정하고, 이어서 80개의 특징 변수 중 Fold-change의 절대값이 가장 낮은 특징 변수를 제외한 79개의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 분류 성능을 측정하고, 이어서 79개의 특징 변수 중 Fold-change의 절대값이 가장 낮은 특징 변수를 제외한 78개의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 분류 성능을 측정할 수 있다. 이러한 방식으로 제 3 추출부(130)는 특징 변수의 개수가 충분히 적어질 때까지 특징 변수의 개수를 줄이면서 분류 성능을 측정할 수 있다.For example, the third extractor 130 extracts 80 feature variables excluding the feature variable having the lowest fold-change absolute value among 81 feature variables (the third number of feature variables) as a machine learning-based immune index in the blood. Classification performance is measured by inputting them into the range prediction model, and then inputting 79 feature variables excluding the feature variable with the lowest absolute value of fold-change among the 80 feature variables into the machine learning-based blood immune index range prediction model for classification Classification performance can be measured by measuring performance, and then inputting 78 feature variables excluding the feature variable with the lowest absolute value of fold-change among the 79 feature variables into a machine learning-based blood immune index range prediction model. In this way, the third extractor 130 may measure classification performance while reducing the number of feature variables until the number of feature variables becomes sufficiently small.

여기서, 머신 러닝 기반의 혈중 면역지표 범위 예측 모델은 앙상블 기반의 혈중 면역지표 범위 예측 모델로서, 랜덤 포레스트, 에이다부스트(Adaboost), 그레디언트 부스트(Gradient boost) 및 엑스지부스트(XGBoost)와 DNN 기반의 혈중 면역지표 범위 예측 모델을 포함할 수 있다.Here, the machine learning-based blood immune index range prediction model is an ensemble-based blood immune index range prediction model, which is based on random forest, Adaboost, gradient boost, and XGBoost and DNN. A blood immune index range prediction model may be included.

도 2c 및 2d를 함께 참조하면, 본 발명에 따르면, 예시적으로 81개의 특징 변수(제 3 개수의 특징 변수) 중 Fold-change의 절대값이 높은 상위 51개의 특징 변수(201)를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력할 때 혈중 면역지표 범위 예측 모델이 가장 좋은 분류 성능을 보여줌을 확인하였다.Referring to FIGS. 2C and 2D together, according to the present invention, the top 51 feature variables 201 having high fold-change absolute values among 81 feature variables (the third number of feature variables) are exemplarily based on machine learning It was confirmed that the blood immune index range prediction model showed the best classification performance when input to the blood immune index range prediction model.

51개의 특징 변수(201)가 입력된 앙상블 기반의 혈중 면역지표 범위 예측 모델(24)을 통해 분류된 혈중 면역지표의 범위에 대한 분류 성능 점수를 살펴보면, 랜덤 포레스트(Random forest)를 이용한 알고리즘의 분류 성능 점수는 0.741점이고, 에이타부스트(Adaboost)를 이용한 알고리즘의 분류 성능 점수는 0.714점이고, 그레디언트 부스트(Gradient boost)를 이용한 알고리즘의 분류 성능 점수는 0.589점이고, 엑스지부스트(XGBoost)를 이용한 알고리즘의 분류 점수는 0.571 점이었다. Looking at the classification performance score for the range of blood immune indicators classified through the ensemble-based blood immune indicator range prediction model (24) in which 51 feature variables (201) are input, classification of the algorithm using a random forest The performance score is 0.741 points, the classification performance score of the algorithm using Adaboost is 0.714 points, the classification performance score of the algorithm using gradient boost is 0.589 points, and the classification performance score of the algorithm using XGBoost is The score was 0.571.

51개의 특징 변수(201)가 입력된 DNN 기반의 혈중 면역지표 범위 예측 모델(26)을 통해 분류된 혈중 면역지표의 범위에 대한 분류 성능 점수는 0.482점이다. The classification performance score for the range of immune indicators in the blood classified through the DNN-based blood immune indicator range prediction model 26 in which 51 feature variables 201 are input is 0.482 points.

정리하자면, 앙상블 기반의 혈중 면역지표 범위 예측 모델(24) 및 DNN 기반의 혈중 면역지표 범위 예측 모델(26) 중 랜덤 포레스트(Random forest)를 이용한 앙상블 기반의 혈중 면역지표 범위 예측 모델(24)이 0.741(203)점으로 가장 높은 분류 성능을 보임을 확인할 수 있었다. In summary, among the ensemble-based blood immune indicator range prediction model (24) and the DNN-based blood immune indicator range prediction model (26), the ensemble-based blood immune indicator range prediction model (24) using a random forest is It was confirmed that it showed the highest classification performance with 0.741 (203) points.

다시 도 1로 돌아오면, 혈중 면역지표 범위 추출부(140)는 객체의 분변으로부터 제 4 개수의 특징 변수를 추출하고, 추출된 제 4 개수의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출할 수 있다. Returning to FIG. 1 again, the blood immune index range extractor 140 extracts the fourth number of feature variables from the object's feces, and converts the extracted fourth number of feature variables into a machine learning-based blood immune index range prediction model You can derive the range of immune indicators in the blood by entering

이를 통해, 본 발명은 혈중 면역지표 범위 예측 모델을 통해 도출된 혈중 면역지표의 범위에 기초하여 객체의 혈중 면역지표가 고위험군(즉, 혈중 면역지표가 기설정된 하위 범위 또는 상위 범위에 속하는 위험군)에 속하는지 여부를 판별할 수 있다. Through this, the present invention is based on the range of the blood immune index derived through the blood immune index range prediction model, the subject's blood immune index is in the high-risk group (ie, the risk group whose blood immune index belongs to the preset lower range or upper range) You can determine whether you belong to it or not.

또한, 본 발명은 혈중 면역지표의 고위험군을 초기에 진단 및 예측하여 객체가 적절한 면역력 관리를 하도록 함으로써 알레르기 질환의 발병률을 낮추고 알레르기 치료를 효과적으로 할 수 있도록 도울 수 있다. In addition, the present invention can help reduce the incidence of allergic diseases and effectively treat allergies by diagnosing and predicting a high-risk group of immune indicators in the blood at an early stage so that the subject can properly manage immunity.

한편, 당업자라면, 수집부(100), 제 1 추출부(110), 제 2 추출부(120), 제 3 추출부(130) 및 혈중 면역지표 범위 추출부(140) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다. On the other hand, those skilled in the art, each of the collection unit 100, the first extraction unit 110, the second extraction unit 120, the third extraction unit 130, and the blood immune marker range extraction unit 140 are implemented separately, or , it will be fully understood that one or more of these may be integrated and implemented.

도 3은 본 발명의 일 실시예에 따른, 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 방법을 나타낸 흐름도이다. 3 is a flowchart illustrating a method of deriving a range of immune indicators in blood based on intestinal microbial data according to an embodiment of the present invention.

도 3을 참조하면, 단계 S301에서 혈중 면역지표 범위 도출 장치(10)는 객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득할 수 있다. Referring to FIG. 3, in step S301, the apparatus 10 for deriving a range of immune indicators in the blood collects a plurality of sample data for feces of an object, and includes a first number of feature variables extracted from each of the collected plurality of sample data It is possible to obtain the first feature data to be.

단계 S303에서 혈중 면역지표 범위 도출 장치(10)는 기정의된 알고리즘에 기초하여 제 1 특징 데이터로부터 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출할 수 있다. 여기서, 기정의된 알고리즘은 아크사인 제곱근 변환을 포함할 수 있다. In step S303, the blood immune index range deriving device 10 may extract second feature data including a second number of feature variables smaller than the first number from the first feature data based on a predefined algorithm. Here, the predefined algorithm may include arcsine square root transformation.

단계 S305에서 혈중 면역지표 범위 도출 장치(10)는 제 2 특징 데이터에 대한 유전자 분석에 기초하여 제 2 특징 데이터로부터 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출할 수 있다. In step S305, the apparatus 10 for deriving a range of immune indicators in blood extracts third feature data including a third number of feature variables less than the second number from the second feature data based on the genetic analysis of the second feature data. can

단계 S307에서 혈중 면역지표 범위 도출 장치(10)는 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 제 3 특징 데이터로부터 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출할 수 있다. In step S307, the apparatus 10 for deriving a range of immune indicators in the blood excludes at least some of the third number of feature variables, and then, based on the classification performance of the machine learning-based predictive model for the range of immune indicators in the blood for the third feature data, the third A fourth number of feature variables smaller than the third number may be extracted from the feature data.

단계 S309에서 혈중 면역지표 범위 도출 장치(10)는 객체의 분변으로부터 제 4 개수의 특징 변수를 추출하고, 추출된 제 4 개수의 특징 변수를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출할 수 있다. In step S309, the apparatus 10 for deriving the range of immune indicators in the blood extracts the fourth number of characteristic variables from the feces of the object, and inputs the extracted fourth number of characteristic variables into the machine learning-based predictive model for the range of immune indicators in the blood. A range of immune indicators can be derived.

상술한 설명에서, 단계 S301 내지 S309는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. In the above description, steps S301 to S309 may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Also, some steps may be omitted if necessary, and the order of steps may be changed.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as program modules executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer readable media may include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The above description of the present invention is for illustrative purposes, and those skilled in the art can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and equivalent concepts thereof should be construed as being included in the scope of the present invention. .

10: 혈중 면역지표 범위 도출 장치
100: 수집부
110: 제 1 추출부
120: 제 2 추출부
130: 제 3 추출부
140: 혈중 면역지표 범위 도출부
10: Blood immune index range derivation device
100: collection unit
110: first extraction unit
120: second extraction unit
130: third extraction unit
140: Blood immune index range derivation unit

Claims (12)

장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치에 있어서,
객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 상기 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득하는 수집부;
기정의된 알고리즘에 기초하여 상기 제 1 특징 데이터로부터 상기 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출하는 제 1 추출부;
상기 제 2 특징 데이터에 대한 유전자 분석에 기초하여 상기 제 2 특징 데이터로부터 상기 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출하는 제 2 추출부;
상기 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 임의 개수의 특징 변수를 포함하는 상기 제 3 특징 데이터를 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출할 때의 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 상기 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출하는 제 3 추출부 및
다른 객체의 분변으로부터 상기 제 4 개수의 특징 변수를 추출하고, 상기 다른 객체의 분변으로부터 추출된 제 4 개수의 특징 변수를 포함하는 제 3 특징 데이터를 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출하는 혈중 면역지표 범위 도출부
를 포함하는 것인, 장치.
In the device for deriving the range of immune indicators in the blood based on intestinal microbial data,
a collection unit that collects a plurality of sample data for feces of an object and obtains first feature data including a first number of feature variables extracted from each of the collected plurality of sample data;
a first extraction unit extracting second feature data including a second number of feature variables less than the first number from the first feature data based on a predefined algorithm;
a second extraction unit extracting third feature data including a third number of feature variables less than the second number from the second feature data based on genetic analysis of the second feature data;
When deriving the range of immune indicators in blood by inputting the third feature data including an arbitrary number of feature variables excluding at least some of the third number of feature variables into a machine learning-based blood immune index range prediction model A third extractor for extracting a fourth number of feature variables less than the third number based on the classification performance of the machine learning-based blood immune index range prediction model; and
The fourth number of feature variables are extracted from the feces of another object, and the third feature data including the fourth number of feature variables extracted from the feces of the other object is converted to the machine learning-based blood immune index range prediction model Blood immune index range derivation unit that derives the range of immune index in blood by inputting
A device comprising a.
제 1 항에 있어서,
상기 기정의된 알고리즘은 아크사인 제곱근 변환(arcsine square root transformation)을 포함하고,
상기 제 1 추출부는 상기 복수의 샘플 데이터 각각으로부터 추출된 복수의 제 1 특징 데이터를 상기 아크사인 제곱근 변환하고, 상기 복수의 제 1 특징 데이터에 포함된 복수의 동일한 특징 변수가 특정 점수 이하인 확률이 기설정된 확률을 초과하는 경우, 상기 복수의 제 1 특징 데이터로부터 상기 동일 특징 변수를 제거하여 상기 제 2 특징 데이터를 추출하는 것인, 장치.
According to claim 1,
The predefined algorithm includes an arcsine square root transformation,
The first extractor performs arcsine square root transformation on a plurality of first feature data extracted from each of the plurality of sample data, and a probability that a plurality of identical feature variables included in the plurality of first feature data is equal to or less than a specific score is determined. and extracting the second feature data by removing the same feature variable from the plurality of first feature data when the set probability is exceeded.
제 1 항에 있어서,
상기 제 2 추출부는 상기 제 2 특징 데이터를 시각화 그래프로 표현하고, 상기 시각화 그래프로 표현된 상기 제 2 특징 데이터에 대한 상기 유전자 분석을 수행하는 것인, 장치.
According to claim 1,
Wherein the second extractor expresses the second feature data as a visualization graph, and performs the genetic analysis on the second feature data expressed as the visualization graph.
제 3 항에 있어서,
상기 제 2 추출부는 상기 시각화 그래프를 통해 DEG (Differentially Expressed Gene; DEG) 분석을 수행하고,
상기 제 2 추출부는 상기 제 2 특징 데이터에 포함된 복수의 특징 변수 각각에 대하여 상기 DEG 분석으로부터 P-value 및 Fold-change를 추출하고, 상기 추출된 P-value 및 Fold-change에 기초하여 상기 제 3 특징 데이터를 추출하는 것인, 장치.
According to claim 3,
The second extraction unit performs DEG (Differentially Expressed Gene; DEG) analysis through the visualization graph,
The second extractor extracts a P-value and a Fold-change from the DEG analysis for each of a plurality of feature variables included in the second feature data, and extracts the P-value and Fold-change based on the extracted P-value and Fold-change. 3 apparatus, which extracts feature data.
제 4 항에 있어서,
상기 제 2 추출부는 상기 도출된 P-value 중 기설정된 임계치 미만인 P-value를 갖는 특징 변수를 포함하는 상기 제 3 특징 데이터를 추출하는 것인, 장치.
According to claim 4,
The second extractor extracts the third feature data including a feature variable having a P-value less than a predetermined threshold among the derived P-values.
제 4 항에 있어서,
상기 제 3 추출부는 상기 제 3 특징 데이터에 포함된 복수의 특징 변수를 상기 Fold-change가 낮은 상기 적어도 일부의 특징 변수를 제외시키면서 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능을 측정하는 것인, 장치.
According to claim 4,
The third extractor measures classification performance of the machine learning-based blood immune index range prediction model while excluding at least some feature variables having a low fold-change from a plurality of feature variables included in the third feature data which is, the device.
장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 방법에 있어서,
객체의 분변에 대한 복수의 샘플 데이터를 수집하고, 상기 수집된 복수의 샘플 데이터 각각으로부터 추출된 제 1 개수의 특징 변수를 포함하는 제 1 특징 데이터를 획득하는 단계;
기정의된 알고리즘에 기초하여 상기 제 1 특징 데이터로부터 상기 제 1 개수보다 적은 제 2 개수의 특징 변수를 포함하는 제 2 특징 데이터를 추출하는 단계;
상기 제 2 특징 데이터에 대한 유전자 분석에 기초하여 상기 제 2 특징 데이터로부터 상기 제 2 개수보다 적은 제 3 개수의 특징 변수를 포함하는 제 3 특징 데이터를 추출하는 단계;
상기 제 3 개수의 특징 변수 중 적어도 일부를 제외시킨 후 상기 제 3 특징 데이터에 대한 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능에 기초하여 상기 제 3 특징 데이터로부터 상기 제 3 개수보다 적은 제 4 개수의 특징 변수를 추출하는 단계 및
객체의 분변으로부터 상기 제 4 개수의 특징 변수를 추출하고, 상기 추출된 제 4 개수의 특징 변수를 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델에 입력하여 혈중 면역지표의 범위를 도출하는 단계
를 포함하는 것인, 혈중 면역지표의 범위 도출 방법.
In the method for deriving the range of immune indicators in the blood based on intestinal microbial data,
collecting a plurality of sample data for feces of the object and obtaining first feature data including a first number of feature variables extracted from each of the collected plurality of sample data;
extracting second feature data including a second number of feature variables smaller than the first number from the first feature data based on a predefined algorithm;
extracting third feature data including a third number of feature variables less than the second number from the second feature data based on genetic analysis of the second feature data;
After excluding at least some of the third number of feature variables, based on the classification performance of the machine learning-based blood immune index range prediction model for the third feature data, from the third feature data Less than the third number Extracting 4 feature variables; and
Extracting the fourth number of feature variables from the object's feces, and inputting the extracted fourth number of feature variables to the machine learning-based blood immune index range prediction model to derive a range of immune indicators in blood
A method for deriving a range of immune indicators in the blood, comprising a.
제 7 항에 있어서,
상기 기정의된 알고리즘은 아크사인 제곱근 변환(arcsine square root transformation)을 포함하고,
상기 제 2 특징 데이터를 추출하는 단계는
상기 복수의 샘플 데이터 각각으로부터 추출된 복수의 제 1 특징 데이터를 상기 아크사인 제곱근 변환하고, 상기 복수의 제 1 특징 데이터에 포함된 복수의 동일한 특징 변수가 특정 점수 이하인 확률이 기설정된 확률을 초과하는 경우, 상기 복수의 제 1 특징 데이터로부터 상기 동일 특징 변수를 제거하여 상기 제 2 특징 데이터를 추출하는 단계를 포함하는 것인, 혈중 면역지표의 범위 도출 방법.
According to claim 7,
The predefined algorithm includes an arcsine square root transformation,
Extracting the second feature data
The arcsine square root transform of a plurality of first feature data extracted from each of the plurality of sample data, and a probability that a plurality of identical feature variables included in the plurality of first feature data is equal to or less than a specific score exceeds a predetermined probability. case, extracting the second feature data by removing the same feature variable from the plurality of first feature data.
제 7 항에 있어서,
상기 제 3 특징 데이터를 추출하는 단계는
상기 제 2 특징 데이터를 시각화 그래프로 표현하고, 상기 시각화 그래프로 표현된 상기 제 2 특징 데이터에 대한 상기 유전자 분석을 수행하는 단계를 포함하는 것인, 혈중 면역지표의 범위 도출 방법.
According to claim 7,
The step of extracting the third feature data is
Expressing the second characteristic data as a visualization graph, and performing the genetic analysis on the second characteristic data represented by the visualization graph.
제 9 항에 있어서,
상기 제 3 특징 데이터를 추출하는 단계는
상기 시각화 그래프를 통해 DEG (Differentially Expressed Gene; DEG) 분석을 수행하는 단계; 및
상기 제 2 특징 데이터에 포함된 복수의 특징 변수 각각에 대하여 상기 DEG 분석으로부터 P-value 및 Fold-change를 추출하고, 상기 추출된 P-value 및 Fold-change에 기초하여 상기 제 3 특징 데이터를 추출하는 단계를 포함하는 것인, 혈중 면역지표의 범위 도출 방법.
According to claim 9,
The step of extracting the third feature data is
Performing DEG (Differentially Expressed Gene; DEG) analysis through the visualization graph; and
For each of the plurality of feature variables included in the second feature data, a P-value and a Fold-change are extracted from the DEG analysis, and the third feature data is extracted based on the extracted P-value and Fold-change. Which comprises the step of, how to derive the range of immune indicators in the blood.
제 10 항에 있어서,
상기 제 3 특징 데이터를 추출하는 단계는
상기 도출된 P-value 중 기설정된 임계치 미만인 P-value를 갖는 특징 변수를 포함하는 상기 제 3 특징 데이터를 추출하는 단계를 포함하는 것인, 혈중 면역지표의 범위 도출 방법.
According to claim 10,
The step of extracting the third feature data is
Extracting the third feature data including a feature variable having a P-value less than a predetermined threshold among the derived P-values, a method for deriving a range of immune indicators in blood.
제 10 항에 있어서,
상기 제 4 개수의 특징 변수를 추출하는 단계는
상기 제 3 특징 데이터에 포함된 복수의 특징 변수를 상기 Fold-change가 낮은 상기 적어도 일부의 특징 변수를 제외시키면서 상기 머신 러닝 기반의 혈중 면역지표 범위 예측 모델의 분류 성능을 측정하는 단계를 포함하는 것인, 데이터의 범위 도출 방법.
According to claim 10,
The step of extracting the fourth number of feature variables is
Measuring classification performance of the machine learning-based blood immune index range prediction model while excluding at least some of the feature variables having a low fold-change from a plurality of feature variables included in the third feature data. In, how to derive the range of data.
KR1020200075590A 2020-06-22 2020-06-22 Apparatus and method for extract range of antibody data based on gut microorganism data KR102510936B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200075590A KR102510936B1 (en) 2020-06-22 2020-06-22 Apparatus and method for extract range of antibody data based on gut microorganism data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200075590A KR102510936B1 (en) 2020-06-22 2020-06-22 Apparatus and method for extract range of antibody data based on gut microorganism data

Publications (2)

Publication Number Publication Date
KR20210157597A KR20210157597A (en) 2021-12-29
KR102510936B1 true KR102510936B1 (en) 2023-03-16

Family

ID=79176670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200075590A KR102510936B1 (en) 2020-06-22 2020-06-22 Apparatus and method for extract range of antibody data based on gut microorganism data

Country Status (1)

Country Link
KR (1) KR102510936B1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190004586A (en) 2017-07-04 2019-01-14 (주)바이오일레븐 The method of stool suggestion for FMT

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. L. Richards 외, mSystems 4:e00323-18, 2019.09.03.
K. Tadist 외, Journal of Big Data (2019) 6:79, 2019.
S. Bang 외, Scientific Reports (2019) 9:10189. 2019.07.15.

Also Published As

Publication number Publication date
KR20210157597A (en) 2021-12-29

Similar Documents

Publication Publication Date Title
JP6280997B1 (en) Disease onset determination device, disease onset determination method, disease feature extraction device, and disease feature extraction method
CN116189179B (en) Circulating tumor cell scanning analysis equipment
WO2016049920A1 (en) Biomarkers for coronary artery disease
CN104424386A (en) Multi-parameter magnetic resonance image based prostate cancer computer auxiliary identification system
CN111161882A (en) Breast cancer life prediction method based on deep neural network
WO2021164640A1 (en) Retinal image recognition method and apparatus, electronic device, and storage medium
WO2016049918A1 (en) Biomarkers for coronary artery disease
Sulaiman et al. Improvement of features extraction process and classification of cervical cancer for the neuralpap system
CN112308148A (en) Defect category identification and twin neural network training method, device and storage medium
Sreejini et al. Retrieval of pathological retina images using Bag of Visual Words and pLSA model
TWI816078B (en) Mining method for sample grouping
KR102510936B1 (en) Apparatus and method for extract range of antibody data based on gut microorganism data
CN113705595A (en) Method, device and storage medium for predicting degree of abnormal cell metastasis
CN112861881A (en) Honeycomb lung recognition method based on improved MobileNet model
CN112489022A (en) COVID-19 rapid feature extraction system based on radiologics, rapid diagnosis system and disease course prediction system
WO2023061174A1 (en) Method and apparatus for constructing risk prediction model for autism spectrum disorder
CN116312800A (en) Lung cancer characteristic identification method, device and storage medium based on circulating RNA whole transcriptome sequencing in blood plasma
Casey et al. A machine learning approach to prostate cancer risk classification through use of RNA sequencing data
KR20230007010A (en) Method and system for predicting metabolic disease risk
CN114078137A (en) Colposcope image screening method and device based on deep learning and electronic equipment
Kalbhor et al. DeepCerviCancer-Deep Learning-Based Cervical Image Classification using Colposcopy and Cytology Images
Pugliesi Deep Learning Models for Classification of Pediatric Chest X-ray Images using VGG-16 and ResNet-50
Yördan et al. Hybrid AI-Based Chronic Kidney Disease Risk Prediction
Dong et al. SSGNet: semi-supervised multi-path grid network for diagnosing melanoma
CN113782191B (en) Colorectal lesion type prediction device, model construction method, medium, and device

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant