KR20220088983A - HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS - Google Patents

HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS Download PDF

Info

Publication number
KR20220088983A
KR20220088983A KR1020200179199A KR20200179199A KR20220088983A KR 20220088983 A KR20220088983 A KR 20220088983A KR 1020200179199 A KR1020200179199 A KR 1020200179199A KR 20200179199 A KR20200179199 A KR 20200179199A KR 20220088983 A KR20220088983 A KR 20220088983A
Authority
KR
South Korea
Prior art keywords
model
ppar gamma
compound
fingerprint
candidate compound
Prior art date
Application number
KR1020200179199A
Other languages
Korean (ko)
Other versions
KR102429120B1 (en
Inventor
김은영
고동희
송우선
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020200179199A priority Critical patent/KR102429120B1/en
Publication of KR20220088983A publication Critical patent/KR20220088983A/en
Application granted granted Critical
Publication of KR102429120B1 publication Critical patent/KR102429120B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

학습모델 기반 인간 PPAR 감마의 길항제 예측 방법은 분석장치가 후보 화합물의 식별자를 입력받는 단계, 상기 분석장치가 상기 후보 화합물의 화합물 핑거프린트를 비지도 학습 클러스터링 모델을 입력하여 상기 후보 화합물을 1차 분류하는 단계, 상기 분석장치가 상기 1차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 인실리코(in silico) 분자 표현자를 지도 학습 분류 모델에 입력하여 상기 후보 화합물을 2차 분류하는 단계 및 상기 분석장치가 상기 2차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 상기 화합물 핑거프린트, 상기 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 인공신경망 모델에 입력하여 3차 분류하는 단계를 포함한다.The learning model-based method for predicting an antagonist of human PPAR gamma comprises the steps of: an analysis device receiving an identifier of a candidate compound; the second classification of the candidate compound by inputting, by the analysis device, an in silico molecular descriptor of the candidate compound classified as negative in the primary classification into a supervised learning classification model; The analysis device inputs the compound fingerprint of the candidate compound classified as negative in the secondary classification, the molecular descriptor, and the protein-ligand interaction fingerprint for human PPAR gamma ligand into the artificial neural network model 3 It includes the step of classifying the car.

Description

학습모델 기반 인간 PPAR 감마의 길항제 예측 방법 및 분석장치{HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS}Learning model-based human PPAR gamma antagonist prediction method and analysis device {HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS}

이하 설명하는 기술은 학습 모델을 이용한 인간 PPAR 감마의 길항제를 예측하는 기법에 관한 것이다.The technique described below relates to a technique for predicting antagonists of human PPAR gamma using a learning model.

PPAR(peroxisome proliferator-activated receptor)은 핵에 존재하는 호르몬 수용체의 한 종류로서 지질, 포도당 대사 및 에너지 항상성과 관련된 유전자를 조절하는 전사 인자로 알려졌다. PPAR 감마는 다양한 질병에 관여하는 것으로 알려졌다. 대표적으로 PPAR 감마는 폐 섬유증 (pulmonary fibrosis) 발현 시작에 중요한 역할을 하는 것으로 알려졌다.PPAR (peroxisome proliferator-activated receptor) is a type of hormone receptor present in the nucleus and is known as a transcription factor that regulates genes related to lipid and glucose metabolism and energy homeostasis. PPAR gamma is known to be involved in various diseases. Typically, PPAR gamma is known to play an important role in the initiation of pulmonary fibrosis expression.

QSAR(quantitative structure-activity relationships)은 컴퓨터만을 이용하여 화학물질의 잠재적 유해성을 평가하는 방법론이다. 모든 신규 유기화합물에 포괄적으로 대응 가능한 QSAR를 개발하기 위해서는 예측이 기초하는 학습 데이터의 다양성이 넓어져야 한다. 따라서, 포괄적 예측 QSAR는 Tox21(toxicology in the 21st century) 프로젝트와 같은 대규모의 고속처리 스크리닝(high-throughput screening, HTS)의 데이터를 반드시 활용해야 한다. QSAR (quantitative structure-activity relationships) is a methodology to evaluate the potential hazard of a chemical using only a computer. In order to develop a QSAR that can comprehensively respond to all novel organic compounds, the diversity of learning data on which predictions are based should be broadened. Therefore, comprehensive predictive QSAR must utilize large-scale, high-throughput screening (HTS) data such as the Tox21 (toxicology in the 21st century) project.

미국공개특허 US 제2011-0071142호US Patent Publication No. US 2011-0071142

HTS로 테스트된 대량의 화학물질은 막대한 구조적 다양성을 가진다. 다만, 종래 QSAR 방법론은 다양성 전체를 포괄하여 예측하는데 한계가 있었다. 첫째는 가능한 구조가 무한히 다양한 유기화합물의 특성을 예측하기 어렵기 때문이고, 둘째는 알고리즘이 화학물질의 특성들 중 무엇이 더 예측에 중요한지 평가하는 기준에 필연적으로 편향성이 있기 때문이다.The large amount of chemicals tested with HTS has enormous structural diversity. However, the conventional QSAR methodology has limitations in predicting the entire diversity. First, it is difficult to predict the properties of organic compounds with an infinite variety of possible structures, and second, the algorithm is inevitably biased in the criteria for evaluating which of the properties of a chemical are more important for prediction.

이하 설명하는 기술은 in silico 상의 화학물질 분자구조 정보만으로 인간 PPAR 감마의 길항제를 예측하는 기법을 제공하고자 한다.The technology to be described below is intended to provide a technique for predicting human PPAR gamma antagonists only with chemical molecular structure information on in silico.

학습모델 기반 인간 PPAR 감마의 길항제 예측 방법은 분석장치가 후보 화합물의 식별자를 입력받는 단계, 상기 분석장치가 상기 후보 화합물의 화합물 핑거프린트를 비지도 학습 클러스터링 모델을 입력하여 상기 후보 화합물을 1차 분류하는 단계, 상기 분석장치가 상기 1차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 인실리코(in silico) 분자 표현자를 지도 학습 분류 모델에 입력하여 상기 후보 화합물을 2차 분류하는 단계 및 상기 분석장치가 상기 2차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 상기 화합물 핑거프린트, 상기 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 인공신경망 모델에 입력하여 3차 분류하는 단계를 포함한다. The learning model-based method for predicting an antagonist of human PPAR gamma comprises the steps of: an analysis device receiving an identifier of a candidate compound; the second classification of the candidate compound by inputting, by the analysis device, an in silico molecular descriptor of the candidate compound classified as negative in the primary classification into a supervised learning classification model; The analysis device inputs the compound fingerprint of the candidate compound classified as negative in the secondary classification, the molecular descriptor, and the protein-ligand interaction fingerprint for human PPAR gamma ligand into the artificial neural network model 3 It includes the step of classifying the car.

인간 PPAR 감마의 길항제 예측하는 분석장치는 후보 화합물의 화합물 핑거프린트, 인실리코(in silico) 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 입력받는 입력장치, 인간 PPAR 감마 리간드에 대한 길항제 여부를 예측하는 비지도 학습 클러스터링 모델, 지도 학습 분류 모델 및 인공신경망 모델을 저장하는 저장장치 및 상기 화합물 핑거프린트를 상기 비지도 학습 클러스터링 모델을 입력하여 상기 후보 화합물을 1차 분류하고, 상기 1차 분류 결과가 음성(negative)인 경우 상기 분자 표현자를 상기 지도 학습 분류 모델에 입력하여 상기 후보 화합물을 2차 분류하고, 상기 2차 분류 결과가 음성(negative)인 경우 상기 화합물 핑거프린트, 상기 분자 표현자 및 상기 단백질-리간드 상호작용 핑거프린트를 상기 인공신경망 모델에 입력하여 3차 분류하는 연산장치를 포함한다.The analysis device for predicting an antagonist of human PPAR gamma is an input device that receives a compound fingerprint of a candidate compound, an in silico molecular descriptor and a protein-ligand interaction fingerprint for human PPAR gamma ligand, human PPAR gamma ligand A storage device for storing an unsupervised learning clustering model, a supervised learning classification model, and an artificial neural network model for predicting whether or not an antagonist to When the primary classification result is negative, the molecular descriptor is input to the supervised learning classification model to secondary classify the candidate compound, and when the secondary classification result is negative, the compound fingerprint; and a computing device for tertiary classification by inputting the molecular descriptor and the protein-ligand interaction fingerprint into the artificial neural network model.

이하 설명하는 기술은 화학 물질의 특성 중 분석 목적에 맞는 특성만을 고려하면서 분석 특성의 과적합을 해결하여 인간 PPAR 감마의 길항제를 정확하게 예측한다.The technology to be described below accurately predicts the antagonist of human PPAR gamma by resolving overfitting of analytical properties while considering only properties suitable for the purpose of analysis among the properties of chemical substances.

도 1은 인간 PPAR 감마의 길항제 예측 시스템에 대한 예이다.
도 2는 인간 PPAR 감마의 길항제 예측 모델 학습 과정에 대한 예이다.
도 3은 인간 PPAR 감마의 길항제 예측 과정에 대한 예이다.
도 4는 인간 PPAR 감마의 길항제 예측에 대한 실험 결과이다.
도 5는 인간 PPAR 감마의 길항제 예측에 대한 다른 실험 결과이다.
도 6은 분석장치 구성에 대한 예이다.
1 is an example of an antagonist prediction system of human PPAR gamma.
Figure 2 is an example of the human PPAR gamma antagonist prediction model training process.
3 is an example of an antagonist prediction process of human PPAR gamma.
4 is an experimental result for the prediction of antagonists of human PPAR gamma.
5 is another experimental result for the prediction of antagonists of human PPAR gamma.
6 is an example of the configuration of the analysis device.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The technology to be described below can apply various changes and can have various embodiments, and specific embodiments are illustrated in the drawings and described in detail. However, this is not intended to limit the technology described below to specific embodiments, and it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the technology described below.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various components, but the components are not limited by the above terms, and only for the purpose of distinguishing one component from other components. is used only as For example, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component without departing from the scope of the present invention. and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.In terms of terms used herein, the singular expression should be understood to include the plural expression unless the context clearly dictates otherwise, and terms such as "comprises" include the described feature, number, step, operation, element. , parts or combinations thereof are to be understood, but not to exclude the possibility of the presence or addition of one or more other features or numbers, step operation components, parts or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Prior to a detailed description of the drawings, it is intended to clarify that the classification of the constituent parts in the present specification is merely a division according to the main function each constituent unit is responsible for. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function. In addition, each of the constituent units to be described below may additionally perform some or all of the functions of other constituent units in addition to the main function it is responsible for. Of course, it can also be performed by being dedicated to it.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.In addition, in performing the method or method of operation, each process constituting the method may occur differently from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.

도 1은 인간 PPAR 감마의 길항제 예측 시스템(100)에 대한 예이다.1 is an example of an antagonist prediction system 100 of human PPAR gamma.

화합물 분석장치(110)는 시료를 분석하여 시료에 대한 화합물 구조 및 특성에 대한 데이터를 생성한다. 화합물 분석장치(110)는 연구자들이 특정 물질들을 분석한 장치일 수 있다. 화합물 데이터베이스(DB)(120)는 생성한 화합물에 대한 정보를 저장한다. 화합물 DB(120)는 연구 목적인 공개 DB일 수도 있다. 화합물 DB(120)는 화합물에 대한 구조 및 특성을 나타내는 로데이터(raw data)를 저장할 수 있다. 또는 화합물 DB(120)는 로데이터를 분석하여 화합물에 대한 구조 및 특성을 정보로 산출한 분석용 데이터일 수 있다. 분석용 데이터는 후술할 화합물 핑거프린트, 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 포함할 수도 있다.The compound analyzer 110 analyzes the sample to generate data on the structure and properties of the compound for the sample. The compound analyzer 110 may be a device in which researchers analyze specific substances. The compound database (DB) 120 stores information about the generated compound. The compound DB 120 may be an open DB for research purposes. The compound DB 120 may store raw data indicating the structure and characteristics of the compound. Alternatively, the compound DB 120 may be data for analysis in which the structure and characteristics of the compound are calculated as information by analyzing the raw data. The data for analysis may include a protein-ligand interaction fingerprint for a compound fingerprint, a molecular descriptor, and a human PPAR gamma ligand, which will be described later.

분석장치(130, 140)는 입력되는 화합물 데이터를 이용하여 인간 PPAR 감마의 길항제를 예측한다. 분석장치는 컴퓨터 장치, PC, 스마트기기, 네트워크상의 서버 등과 같이 다양한 형태로 구현될 수 있다. 도 1에서 분석장치는 서버(130) 및 컴퓨터 단말(140) 형태로 도시하였다.The analyzers 130 and 140 predict the antagonist of human PPAR gamma using the input compound data. The analysis device may be implemented in various forms such as a computer device, a PC, a smart device, a server on a network, and the like. In FIG. 1 , the analysis device is shown in the form of a server 130 and a computer terminal 140 .

분석장치(130, 140)는 화합물 DB(120)에 저장된 로데이터를 분석하여 학습 모델에 입력할 분석용 데이터(입력 데이터)를 생성할 수 있다.The analysis devices 130 and 140 may analyze the raw data stored in the compound DB 120 to generate data for analysis (input data) to be input to the learning model.

분석장치(130, 140)는 특정 후보 화합물이 인간 PPAR 감마의 길항제 후보 일지에 대한 예측 결과를 산출한다. 분석장치(130, 140)는 in silico에서 학습모델을 이용하여 특정 후보 화합물의 인간 PPAR 감마의 길항제 후보인지 여부를 분석한다.The analyzers 130 and 140 calculate a prediction result for whether a specific candidate compound is a human PPAR gamma antagonist candidate. The analyzers 130 and 140 analyze whether a specific candidate compound is a human PPAR gamma antagonist candidate using an in silico learning model.

사용자(10, 20)는 특정 후보 화합물에 대한 분석 결과를 확인할 수 있다. 사용자(10)는 사용자 단말(PC, 스마트폰 등)을 통해 서버(130)에 접속하여, 서버(130)가 수행한 분석 결과를 확인할 수 있다. 사용자(20)는 자신이 사용하는 컴퓨터 단말을 통해 분석 결과를 확인할 수도 있다. The users 10 and 20 may check an analysis result for a specific candidate compound. The user 10 may access the server 130 through a user terminal (PC, smart phone, etc.) and check the analysis result performed by the server 130 . The user 20 may check the analysis result through the computer terminal he/she uses.

이하 PPAR 감마 리간드의 길항제 예측을 위한 모델에 대하여 설명한다. 이하 연구자는 해당 모델을 개발한 주체를 의미한다. 연구자는 분석장치를 이용하여 화학물질 구조를 기준으로 타깃 수용체의 리간드 결합 부위에 in silico 도킹(docking) 시뮬레이션을 수행하였다. Hereinafter, a model for predicting an antagonist of PPAR gamma ligand will be described. Hereinafter, “researcher” refers to the person who developed the model. The researcher performed an in silico docking simulation at the ligand binding site of the target receptor based on the chemical structure using an analysis device.

연구자는 시뮬레이션 결과로부터 화학물질의 특성을 추출하였다. 이 과정은 가상 실험을 통하여 유기화합물의 무한한 구조적 가능성을 결합부위의 틀로 제한하여, 예측모델이 사용할 판별 규칙을 유한한 개수로 줄인다.The researcher extracted the chemical properties from the simulation results. This process limits the infinite structural possibilities of organic compounds to the frame of binding sites through virtual experiments, and reduces the number of discrimination rules to be used by the predictive model to a finite number.

모델 구축에 사용된 학습 데이터에 대하여 설명한다. 연구자는 종래 연구에서 활용된 공개된 데이터를 이용하였다. 연구자는 CompTox Chemistry Dashboard(The CompTox Chemistry Dashboard: a community data resource for environmental chemistry, J Cheminform . 2017 Nov 28;9(1):61)를 사용하였다. 최초 데이터에서 MOE(Molecular Operating Environment)에 적용할 수 있는 구조만을 선별하여 사용하였다. 화합물 2차 구조(SMILES) 표현 가능한 화합물만을 대상으로 하였다.The training data used to build the model will be described. The researcher used the published data utilized in the previous study. The researcher used the CompTox Chemistry Dashboard (The CompTox Chemistry Dashboard: a community data resource for environmental chemistry, J Cheminform. 2017 Nov 28;9(1):61). From the initial data, only structures applicable to the Molecular Operating Environment (MOE) were selected and used. Only compounds capable of expressing compound secondary structure (SMILES) were targeted.

이렇게 마련된 모델 구축을 위한 학습 데이터는 5,218개의 화합물이다. 학습 데이터 중 543개는 양(positive)이고, 4,675개는 음(negative)인 데이터이다. 모델의 표현자(descriptor)는 2,454개를 사용하였다. The training data for building the model prepared in this way is 5,218 compounds. Of the training data, 543 are positive and 4,675 are negative. 2,454 model descriptors were used.

모델 표현자는 화합물 핑거프린트, 단백질-리간드-상호작용 핑거프린트 및 분자 표현자를 사용한다. Model descriptors use compound fingerprints, protein-ligand-interaction fingerprints and molecular descriptors.

in silico에서 화합물은 MOE를 이용하여 표현할 수 있다. 연구자는 MOE 기반하여 화합물 구조 및 특성을 파악하였다.In silico, compounds can be expressed using MOE. The researcher identified the compound structure and properties based on the MOE.

화합물 핑거프린트는 모르간 핑거프린트(Morgan fingerprint)를 사용한다. 모르간 핑거프린트는 RDKit를 사용하여 입력 화합물을 분석한 결과로 산출된다. 연구자는 입력 화합물에 모르간 알고리즘을 적용하여 2,048개 핑거프린트를 산출하였다. 모르간 핑거프린트가 제시하는 분자 구조적 연결성은 PPAR 감마 리간드 결합 부위에 대한 상호관계의 일치성을 나타낸다.The compound fingerprint uses a Morgan fingerprint. The Morgan fingerprint is calculated as a result of analyzing the input compound using RDKit. The researcher applied Morgan's algorithm to the input compound, yielding 2,048 fingerprints. The molecular structural connectivity presented by the Morgan fingerprint indicates the correspondence of the correlation to the PPAR gamma ligand binding site.

단백질-리간드-상호작용 핑거프린트(PLIF)는 PPAR 감마 리간드 결합 부위에 대한 도킹 시뮬레이션 결과이다. 도킹 시뮬레이션은 PPAR 감마 리간드의 결합 부위를 대상으로 수행된다. PPAR 감마 리간드 결합 부위는 RCSB 단백질 데이터 뱅크로부터 구축된 5LSG 구조를 사용한다. 도킹 시뮬레이션은 ASEDock 소프트웨어를 사용하였다. 물론, 다른 도킹 시뮬레이션 소프트웨어를 사용할 수도 있다. 단백질-리간드-상호작용 핑거프린트는 PPAR 감마 리간드가 결합하는 부위에 있는 화학구조에 결합하는 타깃 아미노산을 나타낸다. 단백질-리간드-상호작용 핑거프린트는 결합 구조에서의 접촉, 이온, 방향족, 수소 결합(받개(acceptor)), 사이드 체인 공여 원자 및 27개 아미노산의 백본에 대한 정보를 포함한다. 연구자는 모두 70개의 단백질-리간드-상호작용 핑거프린트를 사용하였다.The protein-ligand-interaction fingerprint (PLIF) is a docking simulation result for the PPAR gamma ligand binding site. Docking simulation is performed for the binding site of the PPAR gamma ligand. The PPAR gamma ligand binding site uses the 5LSG structure constructed from the RCSB Protein Data Bank. Docking simulation was performed using ASEDock software. Of course, other docking simulation software may also be used. The protein-ligand-interaction fingerprint indicates the target amino acid binding to the chemical structure at the site where the PPAR gamma ligand binds. The protein-ligand-interaction fingerprint contains information about contacts in the bonding structure, ions, aromatics, hydrogen bonds (acceptors), side chain donor atoms and the backbone of 27 amino acids. The investigators used all 70 protein-ligand-interaction fingerprints.

분자 표현자(Molecular descriptor)는 MOE에서 분자 구조 및 특성을 나타내는 인자들로 구성된다. 분자 표현자는 물리적 특성 표현자, 휘켈 이론(Huckel theory) 관련 인자, 분할된 표면 영역 인자, 원자 수, 결합 수, Kier-Hall 분자 연결 인자, 카파 모양 인자(kappa shape indice), 인접도, 거리 매트릭스, 부분 전하, 포텐셜 에너지, 파마코포어(pharmacophore) 모델 인자 및 MOPAC 관련 인자를 포함한다. 연구자는 모두 336개의 분자 표현자를 사용하였다. 분자 표현자는 PPAR 감마 리간드 결합 부위에 결합하는 분자 형태의 방향성을 나타낼 수 있다.Molecular descriptor is composed of factors representing molecular structure and properties in the MOE. Molecular descriptors include physical property descriptors, Huckel theory related factors, partitioned surface area factors, number of atoms, number of bonds, Kier-Hall molecular coupling factors, kappa shape indice, proximity, distance matrix. , partial charge, potential energy, pharmacophore model factors and MOPAC related factors. The researchers used a total of 336 molecular descriptors. Molecular descriptors may indicate the orientation of the molecular conformation that binds to the PPAR gamma ligand binding site.

인간 PPAR 감마의 길항제 평가를 위하여 다양한 학습 모델을 활용할 수 있다. 연구자는 서로 다른 알고리즘에 기반한 복수의 QASR 모델을 사용하였다. 연구자는 길항제 가능성을 예측할 때, 과적합 경향이 강한 모델부터 단계적으로 적용해서 길항제의 가능성이 높은 화학물질부터 순차적으로 선별하도록 하였다. 이 과정은 각 알고리즘이 가지는 단점을 상호보완하고 장점에 시너지 효과를 가져온다.Various learning models are available for the evaluation of antagonists of human PPAR gamma. The researchers used multiple QASR models based on different algorithms. When predicting the potential of an antagonist, the researchers applied it step-by-step from a model with a strong overfitting tendency, and sequentially selected chemicals with a high potential for an antagonist. This process complements the weaknesses of each algorithm and brings synergy to the strengths.

연구자는 3개의 학습 모델을 순차적으로 사용하였다. 제1 모델은 비지도 학습 기반의 클러스터링 모델이고, 제2 모델은 지도 학습 기반의 분류 모델이고, 제3 모델은 인공신경망 모델이다. 각 모델은 다양한 방식이나 구조를 갖는 모델들이 있다. 이하 연구자가 최종적으로 활용한 모델을 예시로 설명한다.The researcher used three learning models sequentially. The first model is an unsupervised learning-based clustering model, the second model is a supervised learning-based classification model, and the third model is an artificial neural network model. Each model has models with various methods or structures. Hereinafter, the model finally utilized by the researcher will be described as an example.

비지도 학습 기반의 클러스터링 모델은 DBSCAN(Density-based spatial clustering of applications with noise)을 사용할 수 있다. DBSCAN은 밀도 기반 알고리즘이다. DBSCAN는 주어진 데이터에 대해 밀도를 기반으로 개수와 형태가 정해지지 않은 클러스터들을 형성하고, 노이즈 데이터를 분류하는 알고리즘이다. DBSCAN은 입력되는 데이터가 어떤 클러스터에 포함되는지 분류한다. DBSCAN은 두 개의 매개 변수를 사용한다. 하나는 클러스터를 구성하는 데이터의 최소 개수이고, 다른 하나는 주변 데이터를 식별하는 거리이다. 연구자는 코사인(cosine) 유사도를 기준으로 클러스터링을 하였다. An unsupervised learning-based clustering model can use DBSCAN (Density-based spatial clustering of applications with noise). DBSCAN is a density-based algorithm. DBSCAN is an algorithm for classifying noise data by forming clusters with an undetermined number and shape based on density for given data. DBSCAN classifies which cluster the input data is included in. DBSCAN takes two parameters. One is the minimum number of data constituting the cluster, and the other is the distance for identifying surrounding data. The researcher performed clustering based on the cosine similarity.

DBSCAN은 모르간 핑거프린트를 입력데이터로 사용한다. DBSCAN은 입력되는 데이터의 순서 등에 영향을 받는다. 연구자는 입력하는 데이터에 가중치를 부여하여 가공하는 과정을 수행하였다. 물론, 이 과정은 생략하여도 분류는 가능하다. DBSCAN uses Morgan fingerprint as input data. DBSCAN is affected by the order of input data. The researcher performed the process of processing by assigning weights to the input data. Of course, classification is possible even if this process is omitted.

연구자는 모르간 프린트에 대한 가공을 위하여 별도의 인공신경망 모델을 구축하였다. DBSCAN의 입력데이터 가공을 위한 인공신경망 모델을 전처리 모델이라고 명명한다. 전처리 모델은 전술한 제3 모델과 동일한 구성과 방법을 사용하여 구축 가능하다. 단만, 전처리 모델은 후보 화합물에 대해 입력할 단일 종류의 데이터만으로 (본 예시에서는 모르간 핑거프린트에 해당됨) 학습되어야 한다. 전처리 모델인 인공신경망은 Keras로 6-레이어로 구성하였다. 후보 화합물에 대한 모르간 핑거프린트를 학습된 인공신경망에 입력하면, 레이어의 각 노드는 활성값(activation value)을 갖게 된다. DBSCAN은 각 노드의 활성값을 표현자(descriptor)로 사용하여 클러스터링을 수행할 수 있다.The researcher built a separate artificial neural network model for processing the Morgan print. The artificial neural network model for processing the input data of DBSCAN is called the preprocessing model. The preprocessing model can be built using the same configuration and method as the third model described above. However, the preprocessing model must be trained only with a single type of data to be input for the candidate compound (corresponding to the Morgan fingerprint in this example). The artificial neural network, which is a preprocessing model, is composed of 6-layers in Keras. When the Morgan fingerprint of the candidate compound is input to the trained artificial neural network, each node of the layer has an activation value. DBSCAN can perform clustering by using the active value of each node as a descriptor.

지도 학습 기반의 분류 모델은 SVM(support vector machine)을 사용할 수 있다. SVM은 지도 학습으로 입력 데이터를 분류한다. SVM은 초평면(hype-rplane)을 기준으로 각 클러스터에 대한 마진(margine)이 최대가 되도록 하여 입력 데이터를 분류한다.A classification model based on supervised learning may use a support vector machine (SVM). SVM classifies input data by supervised learning. SVM classifies input data by maximizing the margin for each cluster based on the hyper-rplane.

인공신경망 모델은 벡터 데이터 처리가 가능한 다양한 모델을 이용할 수 있다. 연구자는 6-레이어를 갖는 인공신경망을 이용하였다. 인공신경망의 출력값은 보통 0~1 사이의 값을 갖는다. 연구자는 출력값을 4개의 임계값을 기준으로 5개의 결과로 분류하였다. 4개의 임계값은 0.5, 0.75, 0.875 및 0.984375이었다. 물론, 학습 과정에서 양성 분류를 위한 기준이나 임계값은 정정될 수 있다.The artificial neural network model can use various models capable of processing vector data. The researcher used an artificial neural network with 6 layers. The output value of an artificial neural network usually has a value between 0 and 1. The researcher classified the output values into 5 results based on 4 thresholds. The four thresholds were 0.5, 0.75, 0.875 and 0.984375. Of course, in the learning process, criteria or thresholds for benign classification may be corrected.

컴퓨터 장치가 학습 모델을 학습하는 과정을 수행할 수 있다. 컴퓨터 장치는 화합물 데이터 처리 및 학습 모델을 훈련하는 장치이다. 컴퓨터 장치는 PC, 서버 등과 같이 데이터 연산 처리가 가능한 장치이다. 컴퓨터 장치는 전술한 분석장치 또는 별도의 장치일 수도 있다.The computer device may perform a process of learning the learning model. A computer device is a device for processing compound data and training a learning model. A computer device is a device capable of processing data, such as a PC or a server. The computer device may be the aforementioned analysis device or a separate device.

도 2는 인간 PPAR 감마의 길항제 예측 모델 학습 과정(200)에 대한 예이다. 컴퓨터 장치는 화합물 DB에서 모델 학습을 위한 데이터를 수신한다. 화합물 DB는 다수의 화합물에 대한 구조 및 특성 데이터를 저장한다. 컴퓨터 장치는 MOE에서 화합물의 구조 및 특성을 정의할 수 있다.2 is an example of a human PPAR gamma antagonist prediction model training process 200 . The computer device receives data for model training from the compound DB. The compound DB stores structural and property data for a number of compounds. The computer device can define the structure and properties of the compound in the MOE.

컴퓨터 장치는 화합물 DB로부터 수신하는 데이터에서 MOE에 적용할 수 있는 구조만을 선별할 수 있다(210). 즉, 컴퓨터 장치는 in silico에서 구조 표현이 가능한 데이터만을 훈련 데이터로 선별할 수 있다. The computer device may select only structures applicable to the MOE from data received from the compound DB ( 210 ). That is, the computer device may select only data that can be structured in silico as training data.

컴퓨터 장치는 후보 화합물에 대한 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 생성할 수 있다.The computer device may generate a Morgan fingerprint, an MOE molecular descriptor, and a protein-ligand-interaction fingerprint (PLIF) for the candidate compound.

컴퓨터 장치는 후보 화합물에 대한 인간 PPAR 감마의 길항제 평가를 위하여 3개의 학습 모델을 사용할 수 있다. 도 2는 3개의 학습 모델을 개별적으로 마련하는 예이다.The computer device may use the three learning models for the evaluation of antagonists of human PPAR gamma for candidate compounds. 2 is an example of providing three learning models individually.

컴퓨터 장치는 제1 모델인 비지도 학습 기반 클러스터링 모델에 화합물에 대한 모르간 핑거프린트를 입력하여 분류를 수행한다(220). DBSCAN은 비지도 학습이지만, 클러스터링을 위한 매개 변수를 최적화할 필요가 있다. 따라서, 컴퓨터 장치는 복수의 학습 데이터를 반복적으로 이용하면서 DBSCAN을 최적화할 수 있다. The computer device performs classification by inputting the Morgan fingerprint of the compound into the unsupervised learning-based clustering model, which is the first model ( 220 ). DBSCAN is unsupervised learning, but there is a need to optimize parameters for clustering. Accordingly, the computer device may optimize DBSCAN while repeatedly using a plurality of training data.

한편, 컴퓨터 장치는 화합물에 대한 모르간 핑거 프린트에 가중치를 부여하여 일정하게 가공하여 사용할 수 있다. 전술한 바와 같이 컴퓨터 장치는 사전에 학습된 전처리 모델인 인공신경망에 모르간 핑거 프린트를 입력하고, 레이더의 각 노드에서 활성값을 추출하여, 해당 활성값을 표현자로 삼아 DBSCAN에 입력할 수도 있다.On the other hand, the computer device can be used after constant processing by giving weight to the Morgan fingerprint for the compound. As described above, the computer device may input the Morgan fingerprint to an artificial neural network, which is a pre-trained preprocessing model, extract an activation value from each node of the radar, and use the activation value as a presenter to input to DBSCAN.

컴퓨터 장치는 화합물에 대한 MOE 분자 표현자를 제2 모델인 SVM에 입력하여 분류를 수행한다(230). 컴퓨터 장치는 현재 화합물에 대한 예측 결과를 피드백받고, 알고 있는 라벨값과 비교하여 SVM을 훈련한다.The computer device inputs the MOE molecular descriptor for the compound into the second model, SVM, to perform classification (230). The computer device receives the prediction result for the current compound as feedback and trains the SVM by comparing it with known label values.

컴퓨터 장치는 모르간 핑거 프린트, MOE 분자 표현자 및 PLIF를 제3 모델인 인공신경망 모델(ANN)에 입력하여 예측을 수행한다(240). 컴퓨터 장치는 현재 화합물에 대한 예측 결과를 피드백받고, 알고 있는 라벨값과 비교하여 인공신경망 모델을 훈련한다.The computer device inputs the Morgan fingerprint, the MOE molecular descriptor, and the PLIF into a third model, an artificial neural network model (ANN), to perform prediction ( 240 ). The computer device receives the prediction result for the current compound as feedback and trains the artificial neural network model by comparing it with known label values.

컴퓨터 장치는 제1 모델, 제2 모델 및 제3 모델에 대하여 각 모델이 충분히 정답을 예측하도록 훈련 과정을 반복하여 모델의 파라미터를 조정한다.The computer device adjusts parameters of the model by repeating the training process with respect to the first model, the second model, and the third model so that each model sufficiently predicts the correct answer.

분석장치는 전술한 과정을 통해 학습된 학습 모델을 이용하여 후보 화합물이 PPAR 감마의 길항제 또는 길항제 후보일지 예측한다. 도 3은 인간 PPAR 감마의 길항제 예측 과정(300)에 대한 예이다.The analyzer predicts whether the candidate compound is an antagonist of PPAR gamma or a candidate antagonist by using the learning model learned through the above-described process. 3 is an example of an antagonist prediction process 300 of human PPAR gamma.

분석장치는 화합물 DB에서 모델 학습을 위한 데이터를 수신한다. 화합물 DB는 길항제 후보 인지를 평가할 대상 화합물에 대한 정보를 저장한다. 화합물 DB는 다수의 화합물에 대한 구조 및 특성 데이터를 저장한다. 분석장치는 MOE에서 화합물의 구조 및 특성을 정의할 수 있다.The analysis device receives data for model training from the compound DB. The compound DB stores information about the target compound to be evaluated for antagonist candidate recognition. The compound DB stores structural and property data for a number of compounds. The analyzer can define the structure and properties of the compound in the MOE.

분석장치는 화합물 DB로부터 수신하는 데이터에서 MOE에 적용할 수 있는 구조만을 선별할 수 있다(310). 즉, 분석장치는 in silico에서 구조 표현이 가능한 데이터만을 분석 대상 데이터로 선별할 수 있다. The analyzer may select only structures applicable to the MOE from data received from the compound DB (310). That is, the analysis device may select only data that can be structured in silico as the analysis target data.

분석장치는 후보 화합물에 대한 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 생성할 수 있다.The assay device may generate a Morgan fingerprint, an MOE molecular descriptor, and a protein-ligand-interaction fingerprint (PLIF) for a candidate compound.

분석장치는 후보 화합물에 대한 인간 PPAR 감마의 길항제 평가를 위하여 3개의 학습 모델을 사용한다.The analyzer uses three learning models for the evaluation of antagonists of human PPAR gamma for candidate compounds.

분석장치는 제1 모델인 비지도 학습 기반 클러스터링 모델(DBSCAN)에 화합물에 대한 모르간 핑거프린트를 입력하여 분류를 수행한다(320). The analysis apparatus performs classification by inputting the Morgan fingerprint of the compound to the first model, an unsupervised learning-based clustering model (DBSCAN) ( 320 ).

한편, 분석 장치는 화합물에 대한 모르간 핑거 프린트에 가중치를 부여하여 일정하게 가공하여 사용할 수 있다. 전술한 바와 같이 분석장치는 사전에 학습된 인공신경망에 모르간 핑거 프린트를 입력하고, 레이더의 각 노드에서 활성값을 추출하여, 해당 활성값을 표현자로 삼아 DBSCAN에 입력할 수도 있다. 분석장치는 여러 번 인공 신경망에 모르간 핑거 프린트를 입력하면서 활성값을 결정할 수 있다. 분석장치는 반복적으로 활성값을 나타내는 값을 결정하면서, 반복적 과정 중 독립되게 또는 공통되게 활성을 나타내는 값을 최종 입력 데이터로 결정할 수 있다.On the other hand, the analysis device can be used after constant processing by giving weight to the Morgan fingerprint for the compound. As described above, the analysis apparatus may input the Morgan fingerprint to the artificial neural network learned in advance, extract an activation value from each node of the radar, and use the activation value as a presenter to input to DBSCAN. The analysis device may determine the active value while inputting the Morgan fingerprint to the artificial neural network several times. The analysis device may determine a value indicating an activity independently or commonly during an iterative process as final input data while repeatedly determining a value indicating an activity value.

분석장치는 DBSCAN이 현재 후보 화합물을 양성으로 분류하면, 후보 화합물을 인간 PPAR 감마의 길항제 후보로 선택한다.When DBSCAN classifies the current candidate compound as positive, the analyzer selects the candidate compound as a human PPAR gamma antagonist candidate.

분석장치는 현재 후보 화합물을 DBSCAN이 음성으로 예측한 경우, DBSCAN의 예측 결과를 무시하고, 현재 후보 화합물의 데이터를 제2 모델의 학습에 입력하여 새로운 예측을 수행한다. 분석장치는 현재 후보 화합물에 대한 MOE 분자 표현자를 제2 모델인 SVM에 입력하여 분류를 수행한다(330). When the DBSCAN predicts the current candidate compound as negative, the analysis device ignores the prediction result of the DBSCAN and inputs the data of the current candidate compound to the training of the second model to perform a new prediction. The analyzer performs classification by inputting the MOE molecular descriptor for the current candidate compound into the SVM, which is the second model ( 330 ).

분석장치는 SVM이 현재 후보 화합물을 양성으로 분류하면, 후보 화합물을 인간 PPAR 감마의 길항제 후보로 선택한다.When the SVM classifies the current candidate compound as positive, the analyzer selects the candidate compound as a human PPAR gamma antagonist candidate.

분석장치는 현재 후보 화합물을 SVM이 음성으로 예측한 경우, SVM의 예측 결과를 무시하고, 현재 후보 화합물의 데이터를 제3 모델의 학습에 입력하여 새로운 예측을 수행한다. 분석장치는 현재 후보 화합물의 모르간 핑거 프린트, MOE 분자 표현자 및 PLIF를 제3 모델인 인공신경망 모델(ANN)에 입력하여 예측을 수행한다(340). When the SVM predicts the current candidate compound as negative, the analysis device ignores the prediction result of the SVM, and inputs the data of the current candidate compound to the training of the third model to perform a new prediction. The analysis device inputs the Morgan fingerprint, MOE molecular descriptor, and PLIF of the current candidate compound into an artificial neural network model (ANN) as a third model to perform prediction ( 340 ).

분석장치는 인공신경망 모델이 현재 후보 화합물을 양성으로 분류하면, 후보 화합물을 인간 PPAR 감마의 길항제 후보로 선택한다. 분석장치는 인공신경망 모델이 현재 후보 화합물을 음성으로 분류하면, 해당 후보 화합물을 인간 PPAR 감마의 길항제 후보가 아닌 것으로 최종 분류한다.When the artificial neural network model classifies the current candidate compound as positive, the analysis device selects the candidate compound as a human PPAR gamma antagonist candidate. When the artificial neural network model classifies the current candidate compound as negative, the analysis device finally classifies the candidate compound as not a human PPAR gamma antagonist candidate.

도 4는 인간 PPAR 감마의 길항제 예측에 대한 실험 결과이다. 도 4는 연구자라 구축한 모델을 이용하여 공개 DB에서의 화합물을 평가한 결과이다. 공개 DB의 화합물이 인간 PPAR 감마의 길항제인지 여부는 사전에 알려진 정보이다.4 is an experimental result for the prediction of antagonists of human PPAR gamma. 4 is a result of evaluating a compound in the public DB using a model constructed as a researcher. Whether a compound in the public DB is an antagonist of human PPAR gamma is known in advance.

연구자는 CompTox Chemistry Dashboard를 사용하였다. 최초 데이터에서 MOE에 적용할 수 있는 구조만을 선별하여 사용하였다. 화합물 2차 구조(SMILES) 표현 가능한 화합물만을 대상으로 하였다. 이렇게 마련된 모델 구축을 위한 학습 데이터는 5,218개의 화합물이다. 학습 데이터 중 543개는 양성이고, 4,675개는 음인 데이터이다. 모델의 표현자는 2,454개를 사용하였다. 모르간 핑거프린트는 2,048개, 분자 표현자는 336개, PLIF는 70개를 사용하였다.The researcher used the CompTox Chemistry Dashboard. From the initial data, only structures applicable to MOE were selected and used. Only compounds capable of expressing compound secondary structure (SMILES) were targeted. The training data for building the model prepared in this way is 5,218 compounds. Of the training data, 543 were positive and 4,675 were negative. 2,454 presenters were used for the model. 2,048 Morgan fingerprints, 336 molecular descriptors, and 70 PLIFs were used.

DBSCAN은 모르간 핑거프린트를 입력데이터로 사용한다. 연구자는 입력하는 데이터를 선별하는 과정을 수행하였다. 연구자는 사전에 학습한 인공신경망 모델(전술한 전처리 모델)을 이용하였다. 인공신경망은 Keras로 6-레이어로 구성하였다. 후보 화합물에 대한 모르간 핑거프린트를 학습된 인공신경망에 입력하면, 레이어의 각 노드는 활성값을 갖게 된다. 연구자는 4차례 반복하여 독립적으로 활성값을 결정하였다.DBSCAN uses Morgan fingerprint as input data. The researcher performed the process of selecting the input data. The researcher used an artificial neural network model (pre-processing model described above) learned in advance. The artificial neural network is composed of 6-layers in Keras. When the Morgan fingerprint of the candidate compound is input to the trained artificial neural network, each node of the layer has an active value. The researcher independently determined the activity value by repeating it 4 times.

DBSCAN은 각 노드의 활성값을 표현자로 사용하여 클러스터링을 수행할 수 있다.DBSCAN can perform clustering by using the active value of each node as a presenter.

SVM은 지도 학습으로 입력 데이터를 분류한다. SVM은 초평면을 기준으로 각 클러스터에 대한 마진이 최대가 되도록 하여 입력 데이터를 분류한다.SVM classifies input data by supervised learning. SVM classifies the input data by maximizing the margin for each cluster based on the hyperplane.

인공신경망 모델은 벡터 데이터 처리가 가능한 다양한 모델을 이용할 수 있다. 연구자는 6-레이어를 갖는 인공신경망을 이용하였다. 인공신경망의 출력값은 보통 0~1 사이의 값을 갖는다. 연구자는 출력값을 4개의 임계값을 기준으로 5개의 결과로 분류하였다. 4개의 임계값은 0.5, 0.75, 0.875 및 0.984375이었다. 5개의 그룹 중 앞쪽에 위치할 수록 양성 가능성이 높은 그룹 분류하였다. The artificial neural network model can use various models capable of processing vector data. The researcher used an artificial neural network with 6 layers. The output value of an artificial neural network usually has a value between 0 and 1. The researcher classified the output values into 5 results based on 4 thresholds. The four thresholds were 0.5, 0.75, 0.875 and 0.984375. Among the five groups, the more forward the more likely the positive group, the higher the classification.

도 4는 PPV(positive predict value)와 NPV(negative positive value) 값을 표시하였다. 분류는 순차적으로 DBSCAN, SVM 및 ANN을 이용하였다. 연구자는 라벨값이 알려진 검증 데이터를 사용하여 모델을 검증하였다. 도 4는 전체 예측 결과와 일치한 검증 데이터를 나타낸다. DBSCAN은 양성으로 분류한 결과 중 78.13%가 검증용 양성 데이터로 적중하였다. 나머지 21.87%는 오분류된 검증용 음성 데이터였다.4 shows PPV (positive predict value) and NPV (negative positive value) values. Classification was sequentially using DBSCAN, SVM, and ANN. The researcher validated the model using validation data with known label values. 4 shows verification data consistent with the overall prediction result. In DBSCAN, 78.13% of the results classified as positive hit as positive data for verification. The remaining 21.87% were misclassified negative data for verification.

SVM은 DBSCAN이 음성으로 분류한 데이터를 대상으로 분류를 하였다. SVM은 양성으로 분류한 결과 중 41.75%가 검증용 양성 데이터로 적중하였고, 나머지 58.25%는 오분류된 검증용 음성 데이터였다.SVM classified the data classified as negative by DBSCAN. In SVM, 41.75% of the results classified as positive were correct as positive data for verification, and the remaining 58.25% were misclassified negative data for verification.

ANN은 SVM에서 음성으로 분류한 데이터를 대상으로 분류를 하였다. 분류 결과는 5개의 세트로 구분된다. 5개는 전술한 임계값을 이용한 구분이다. 3rd 세트가 가장 하위 그룹이고, 7th 세트가 가장 상위 그룹이다. 즉, 7th 세트가 가장 음성 가능성이 높은 그룹이다. 7th 세트를 기준으로 보면 음성으로 분류한 결과 중 97.85%가 검증용 음성 데이터로 적중하였다. 따라서, 상당한 정확도를 갖는 것으로 알 수 있다.ANN classified the data classified as negative in the SVM as a target. The classification results are divided into five sets. 5 is a classification using the above-described threshold value. The 3rd set is the lowest group, and the 7th set is the highest group. That is, the 7th set is the group with the highest negative probability. Based on the 7th set, 97.85 % of the results classified as negative were hit as negative data for verification. Therefore, it can be seen that it has considerable accuracy.

도 5는 인간 PPAR 감마의 길항제 예측에 대한 다른 실험 결과이다. 도 5는 민감도(sensitivity)와 특이도(specificity)를 표현하였다. 도 5는 전체 검증 데이터에 대한 예측 결과를 나타낸다. 도 5에서 1st 세트~ 7th 세트는 도 4에서 각 학습모델이 분류한 결과에 해당한다. DBSCAN은 검증용 양성 데이터 중 13.81%를 양성으로 분류하였다. DBSCAN은 검증용 음성 데이터 중 99.55.%를 음성으로 분류하였다. SVM은 양성 데이터 중 59.67%를 양성으로 분류하였고, DBSCAN부터의 누적치는 73.48%였다. SVM은 음성 데이터 중 89.88%를 음성으로 분류하였다. ANN은 6th, 7th 세트 간의 임계값을 기준으로 보면 양성 데이터 중 14.18%를 양성으로 분류하였고, DBSCAN부터의 누적치는 전체 훈련용 양성 데이터의 87.66%였다. 또한 같은 기준에서 음성 데이터 중 65.20%를 음성으로 분류하였다. 따라서, 상당한 분류 효율을 갖는 것을 알 수 있다.5 is another experimental result for the prediction of antagonists of human PPAR gamma. 5 shows sensitivity and specificity. 5 shows prediction results for the entire verification data. 1st set to 7th set in FIG. 5 correspond to the results of classification by each learning model in FIG. 4 . DBSCAN classified 13.81% of positive data for verification as positive. DBSCAN classified 99.55.% of the negative data for verification as negative. SVM classified 59.67% of positive data as positive, and the cumulative value from DBSCAN was 73.48%. SVM classified 89.88% of the negative data as negative. ANN classified 14.18% of the positive data as positive based on the threshold between the 6th and 7th sets, and the cumulative value from DBSCAN was 87.66% of the total positive data for training. In addition, 65.20% of the negative data were classified as negative under the same criteria. Therefore, it can be seen that it has a significant classification efficiency.

도 6은 분석장치(400) 구성에 대한 예이다. 분석장치(400)는 전술한 분석장치(도 1의 130 및 140)에 해당한다. 분석장치(400)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(400)는 PC와 같은 컴퓨터 장치, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.6 is an example of the configuration of the analysis device 400 . The analysis device 400 corresponds to the aforementioned analysis devices (130 and 140 in FIG. 1). The analysis device 400 may be physically implemented in various forms. For example, the analysis device 400 may have the form of a computer device such as a PC, a server of a network, a chipset dedicated to data processing, and the like.

분석장치(400)는 저장장치(410), 메모리(420), 연산장치(430), 인터페이스 장치(440), 통신장치(450) 및 출력장치(460)를 포함할 수 있다.The analysis device 400 may include a storage device 410 , a memory 420 , an arithmetic device 430 , an interface device 440 , a communication device 450 , and an output device 460 .

저장장치(410)는 분석 대상인 화합물에 대한 MOE 원시 데이터를 저장할 수 있다. 저장장치(410)는 분석 대상인 화합물에 대한 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 저장할 수 있다.The storage device 410 may store raw MOE data for a compound to be analyzed. The storage device 410 may store a Morgan fingerprint, an MOE molecular descriptor, and a protein-ligand-interaction fingerprint (PLIF) for a compound to be analyzed.

저장장치(410)는 전술한 바와 같은 과정으로 분석 대상 화합물을 분석하는 프로그램 코드를 저장할 수 있다. The storage device 410 may store a program code for analyzing a compound to be analyzed through the same process as described above.

저장장치(410)는 전술한 화합물 DB를 저장할 수 있다.The storage device 410 may store the aforementioned compound DB.

저장장치(410)는 분석에 사용되는 학습 모델을 저장할 수 있다. 저장장치(410)는 사전에 학습된 DBSCAN, SVM 및 ANN을 저장할 수 있다.The storage device 410 may store a learning model used for analysis. The storage device 410 may store previously learned DBSCAN, SVM, and ANN.

저장장치(410)는 분석 결과(인간 PPAR 감마의 길항제 평가 결과)를 저장할 수 있다.The storage device 410 may store the analysis result (the human PPAR gamma antagonist evaluation result).

메모리(420)는 분석장치(400)가 인간 PPAR 감마의 길항제 예측 과정에서 생성되는 데이터 및 정보 등을 저장할 수 있다.The memory 420 may store data and information generated by the analysis device 400 during the human PPAR gamma antagonist prediction process.

인터페이스 장치(440)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(440)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 샘플들의 화합물 데이터를 입력받을 수 있다. 인터페이스 장치(440)는 화합물 DB로부터 화합물의 구조 내지 특성을 나타내는 원시 데이터 또는 분석용 데이터를 입력받을 수 있다. 분석용 데이터는 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 포함한다. 인터페이스 장치(440)는 인간 PPAR 감마의 길항제 예측 과정에 필요한 명령 내지 정보를 입력받을 수 있다. 예컨대, 인터페이스 장치(440)는 분석 대상인 화합물의 식별자를 입력받을 수 있다. The interface device 440 is a device that receives predetermined commands and data from the outside. The interface device 440 may receive compound data of samples from a physically connected input device or an external storage device. The interface device 440 may receive raw data representing the structure or characteristics of a compound or data for analysis from the compound DB. Data for analysis include Morgan fingerprints, MOE molecular descriptors and protein-ligand-interaction fingerprints (PLIF). The interface device 440 may receive commands or information necessary for the human PPAR gamma antagonist prediction process. For example, the interface device 440 may receive an identifier of a compound to be analyzed.

통신장치(450)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(450)는 외부 객체로부터 샘플들의 화합물 데이터를 수신할 수 있다. 통신장치(450)는 화합물 DB로부터 화합물의 구조 내지 특성을 나타내는 원시 데이터 또는 분석용 데이터를 입력받을 수 있다. 분석용 데이터는 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 포함한다. 통신장치(450)는 인간 PPAR 감마의 길항제 예측 과정에 필요한 명령 내지 정보를 수신할 수 있다. 예컨대, 통신장치(450)는 분석 대상인 화합물의 식별자를 입력받을 수 있다. 통신장치(450)는 분석 대상 화합물의 분석 결과를 외부 객체로 송신할 수 있다.The communication device 450 means a configuration for receiving and transmitting certain information through a wired or wireless network. The communication device 450 may receive compound data of samples from an external object. The communication device 450 may receive raw data representing the structure or characteristics of a compound or data for analysis from the compound DB. Data for analysis include Morgan fingerprints, MOE molecular descriptors and protein-ligand-interaction fingerprints (PLIF). The communication device 450 may receive commands or information necessary for the human PPAR gamma antagonist prediction process. For example, the communication device 450 may receive an identifier of a compound to be analyzed. The communication device 450 may transmit an analysis result of the compound to be analyzed to an external object.

통신장치(450) 내지 인터페이스 장치(440)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(450) 내지 인터페이스 장치(440)는 일정한 데이터를 입력받기에 입력장치라고 명명할 수 있다.The communication device 450 and the interface device 440 are devices that receive predetermined data or commands from the outside. The communication device 450 or the interface device 440 may be referred to as an input device to receive predetermined data.

출력장치(460)는 일정한 정보를 출력하는 장치이다. 출력장치(460)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다. 출력장치(460)는 후보 화합물에 대한 인간 PPAR 감마의 길항제 예측 결과를 출력할 수도 있다.The output device 460 is a device that outputs certain information. The output device 460 may output an interface necessary for a data processing process, an analysis result, and the like. The output device 460 may output the human PPAR gamma antagonist prediction result for the candidate compound.

연산 장치(430)는 저장장치(410)에 저장된 프로그램 및 학습 모델을 이용하여 후보 화합물에 대한 인간 PPAR 감마의 길항제 예측을 수행한다.The computing unit 430 performs an antagonist prediction of human PPAR gamma for the candidate compound using the program and the learning model stored in the storage unit 410 .

연산 장치(430)는 분석 대상인 화합물에 대한 원시 데이터를 이용하여 모르간 핑거프린트, MOE 분자 표현자 및 단백질-리간드-상호작용 핑거프린트(PLIF)를 생성할 수 있다.The computing device 430 may generate a Morgan fingerprint, an MOE molecular descriptor, and a protein-ligand-interaction fingerprint (PLIF) by using raw data for a compound to be analyzed.

연산 장치(430)는 후보 화합물의 화합물 핑거프린트를 DBSCAN에 입력하여 후보 화합물에 대한 1차 분류를 한다. 1차 분류 결과가 음성인 경우, 연산 장치(430)는 후보 화합물의 분자 표현자를 SVM에 입력하여 후보 화합물에 대한 2차 분류를 한다. 2차 분류 결과가 음성(negative)인 경우, 연산 장치(430)는 후보 화합물에 대한 화합물 핑거프린트, 분자 표현자 및 단백질-리간드 상호작용 핑거프린트를 ANN에 입력하여 3차 분류를 수행한다.The calculation unit 430 performs primary classification of the candidate compound by inputting the compound fingerprint of the candidate compound into DBSCAN. When the primary classification result is negative, the calculating unit 430 performs secondary classification on the candidate compound by inputting the molecular descriptor of the candidate compound into the SVM. When the secondary classification result is negative, the computing device 430 inputs the compound fingerprint, molecular descriptor, and protein-ligand interaction fingerprint of the candidate compound into the ANN to perform tertiary classification.

연산 장치(430)는 후보 화합물의 화합물 핑거프린트 중 사전에 학습된 전처리 모델인 인공신경망 모델에 입력하여 학습된 인공신경망 모델의 노드들에서 활성된 값을 DBSACN에 입력하여 1차 분류를 수행할 수 있다.The computational device 430 may perform primary classification by inputting to the artificial neural network model, which is a pre-trained pre-processing model, of the compound fingerprint of the candidate compound, and inputting the values activated in the nodes of the trained artificial neural network model into the DBSACN to perform primary classification. have.

연산 장치(430)는 1차 분류 결과, 2차 분류 결과 또는 3차 분류 결과가 양성인 경우 후보 화합물을 인간 PPAR 감마 리간드에 대한 길항제 후보 물질로 판단할 수 있다.When the primary classification result, the secondary classification result, or the tertiary classification result is positive, the computing device 430 may determine the candidate compound as a candidate antagonist for human PPAR gamma ligand.

연산 장치(430)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.The computing device 430 may be a device such as a processor, an AP, or a program embedded chip that processes data and processes a predetermined operation.

또한, 상술한 바와 인간 PPAR 감마의 길항제 예측 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.In addition, as described above, the method for predicting an antagonist of human PPAR gamma may be implemented as a program (or application) including an executable algorithm that can be executed in a computer. The program may be provided by being stored in a temporary or non-transitory computer readable medium.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.The non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, and the like, and can be read by a device. Specifically, the various applications or programs described above are CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), EPROM (Erasable PROM, EPROM) Alternatively, it may be provided by being stored in a non-transitory readable medium such as an EEPROM (Electrically EPROM) or flash memory.

일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.Temporarily readable media include Static RAM (SRAM), Dynamic RAM (DRAM), Synchronous DRAM (SDRAM), Double Data Rate SDRAM (DDR SDRAM), Enhanced SDRAM (Enhanced) SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (Direct Rambus RAM, DRRAM) refers to a variety of RAM.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.This embodiment and the drawings attached to this specification only clearly show a part of the technical idea included in the above-described technology, and within the scope of the technical idea included in the specification and drawings of the aforementioned technology, those skilled in the art can easily It will be said that it is obvious that all inferred modified examples and specific embodiments are included in the scope of the above-described technology.

Claims (12)

분석장치가 후보 화합물의 식별자를 입력받는 단계;
상기 분석장치가 상기 후보 화합물의 화합물 핑거프린트를 비지도 학습 클러스터링 모델을 입력하여 상기 후보 화합물을 1차 분류하는 단계;
상기 분석장치가 상기 1차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 인실리코(in silico) 분자 표현자를 지도 학습 분류 모델에 입력하여 상기 후보 화합물을 2차 분류하는 단계; 및
상기 분석장치가 상기 2차 분류에서 음성(negative)으로 분류된 상기 후보 화합물의 상기 화합물 핑거프린트, 상기 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 인공신경망 모델에 입력하여 3차 분류하는 단계를 포함하되,
상기 비지도 학습 클러스터링 모델, 상기 지도 학습 분류 모델 및 상기 인공신경망 모델은 각각의 입력데이터에 대한 인간 PPAR 감마 리간드에 대한 길항제 여부를 예측하는 모델이고,
상기 분석장치는 상기 후보 화합물에 대하여 상기 비지도 학습 클러스터링 모델, 상기 지도 학습 분류 모델 및 상기 인공신경망 모델 중 어느 하나가 양성(positive)으로 분류한 경우 상기 후보 화합물을 인간 PPAR 감마 리간드에 대한 길항제 후보 물질로 예측하는 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
receiving, by the analysis device, an identifier of a candidate compound;
first classifying the candidate compound by the analysis device inputting the compound fingerprint of the candidate compound into an unsupervised learning clustering model;
secondarily classifying the candidate compound by inputting, by the analysis device, an in silico molecular descriptor of the candidate compound classified as negative in the primary classification into a supervised learning classification model; and
The analysis device inputs the compound fingerprint of the candidate compound classified as negative in the secondary classification, the molecular descriptor, and the protein-ligand interaction fingerprint for human PPAR gamma ligand into the artificial neural network model. Including the step of tertiary classification,
The unsupervised learning clustering model, the supervised learning classification model, and the artificial neural network model are models for predicting whether or not antagonists of human PPAR gamma ligand for each input data,
When any one of the unsupervised learning clustering model, the supervised learning classification model, and the artificial neural network model is classified as positive with respect to the candidate compound, the analysis device selects the candidate compound as an antagonist candidate for human PPAR gamma ligand. A method for predicting antagonists of human PPAR gamma based on a learning model that predicts substances.
제1항에 있어서,
상기 비지도 학습 클러스터링 모델은 DBSCAN(Density-based spatial clustering of applications with noise)이고, 상기 지도 학습 분류 모델은 SVM(support vector machine)인 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
According to claim 1,
The unsupervised learning clustering model is a density-based spatial clustering of applications with noise (DBSCAN), and the supervised learning classification model is a support vector machine (SVM).
제1항에 있어서,
상기 화합물 핑거프린트는 모르간 알고리즘을 적용한 모르간 핑거프린트(Morgan fingerprint)이고,
상기 분자 표현자는 MOE(Molecular Operating Environment)에서 분자 구조 및 특성을 나타내는 인자인 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
According to claim 1,
The compound fingerprint is a Morgan fingerprint to which the Morgan algorithm is applied,
The molecular descriptor is a learning model-based method for predicting an antagonist of human PPAR gamma, which is a factor indicating molecular structure and properties in a Molecular Operating Environment (MOE).
제1항에 있어서,
상기 분자 표현자는 물리적 특성 표현자, 휘켈 이론(Huckel theory) 관련 인자, 분할된 표면 영역 인자, 원자 수, 결합 수, Kier-Hall 분자 연결 인자, 카파 모양 인자(kappa shape indice), 인접도, 거리 매트릭스, 부분 전하, 포텐셜 에너지, 파마코포어(pharmacophore) 모델 인자 및 MOPAC 관련 인자를 포함하는 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
According to claim 1,
The molecular descriptor is a physical property descriptor, Huckel theory related factor, partitioned surface area factor, number of atoms, number of bonds, Kier-Hall molecular coupling factor, kappa shape indice, proximity, distance An antagonist prediction method of human PPAR gamma based on a learning model including matrix, partial charge, potential energy, pharmacophore model factors and MOPAC-related factors.
제1항에 있어서,
상기 단백질-리간드 상호작용 핑거프린트는 PPAR 감마 리간드 결합 부위에 대한 도킹 시뮬레이션 결과로 PPAR 감마 리간드 결합 부위 대한 타깃 아미노산의 정보를 포함하는 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
According to claim 1,
The protein-ligand interaction fingerprint is a learning model-based method for predicting human PPAR gamma antagonists including information on target amino acids for the PPAR gamma ligand binding site as a result of docking simulation for the PPAR gamma ligand binding site.
제1항에 있어서,
상기 분석장치는 상기 후보 화합물의 화합물 핑거프린트 중 사전에 학습된 인공신경망 모델에 입력하고, 상기 학습된 인공신경망 모델의 노드들에서 활성된 값을 상기 비지도 학습 클러스터링 모델에 입력하여 상기 1차 분류하는 학습모델 기반 인간 PPAR 감마의 길항제 예측 방법.
According to claim 1,
The analysis device inputs to an artificial neural network model trained in advance among the compound fingerprints of the candidate compound, and inputs the values activated in nodes of the learned artificial neural network model to the unsupervised learning clustering model to perform the primary classification A learning model-based method for predicting antagonists of human PPAR gamma.
후보 화합물의 화합물 핑거프린트, 인실리코(in silico) 분자 표현자 및 인간 PPAR 감마 리간드에 대한 단백질-리간드 상호작용 핑거프린트를 입력받는 입력장치;
인간 PPAR 감마 리간드에 대한 길항제 여부를 예측하는 비지도 학습 클러스터링 모델, 지도 학습 분류 모델 및 인공신경망 모델을 저장하는 저장장치; 및
상기 화합물 핑거프린트를 상기 비지도 학습 클러스터링 모델을 입력하여 상기 후보 화합물을 1차 분류하고, 상기 1차 분류 결과가 음성(negative)인 경우 상기 분자 표현자를 상기 지도 학습 분류 모델에 입력하여 상기 후보 화합물을 2차 분류하고, 상기 2차 분류 결과가 음성(negative)인 경우 상기 화합물 핑거프린트, 상기 분자 표현자 및 상기 단백질-리간드 상호작용 핑거프린트를 상기 인공신경망 모델에 입력하여 3차 분류하는 연산장치를 포함하되,
상기 연산장치는 상기 후보 화합물에 대하여 상기 비지도 학습 클러스터링 모델, 상기 지도 학습 분류 모델 및 상기 인공신경망 모델 중 어느 하나가 양성(positive)으로 분류한 경우 상기 후보 화합물을 인간 PPAR 감마 리간드에 대한 길항제 후보 물질로 예측하는 인간 PPAR 감마의 길항제 예측하는 분석장치.
an input device for receiving a compound fingerprint of a candidate compound, an in silico molecular descriptor, and a protein-ligand interaction fingerprint for human PPAR gamma ligand;
a storage device for storing an unsupervised learning clustering model, a supervised learning classification model, and an artificial neural network model for predicting whether or not an antagonist to human PPAR gamma ligand; and
The compound fingerprint is input to the unsupervised learning clustering model to first classify the candidate compound, and when the primary classification result is negative, the molecular descriptor is input to the supervised learning classification model to input the candidate compound Calculating device for secondary classification, and tertiary classification by inputting the compound fingerprint, the molecular descriptor, and the protein-ligand interaction fingerprint to the artificial neural network model when the secondary classification result is negative including,
When any one of the unsupervised learning clustering model, the supervised learning classification model, and the artificial neural network model is classified as positive for the candidate compound, the computing device selects the candidate compound as an antagonist candidate for human PPAR gamma ligand. An analysis device that predicts the antagonist of human PPAR gamma predicted by the substance.
제7항 있어서,
상기 비지도 학습 클러스터링 모델은 DBSCAN(Density-based spatial clustering of applications with noise)이고, 상기 지도 학습 분류 모델은 SVM(support vector machine)인 인간 PPAR 감마의 길항제 예측하는 분석장치.
8. The method of claim 7,
The unsupervised learning clustering model is DBSCAN (Density-based spatial clustering of applications with noise), and the supervised learning classification model is an SVM (support vector machine) analysis apparatus for predicting an antagonist of human PPAR gamma.
제7항 있어서,
상기 화합물 핑거프린트는 모르간 알고리즘을 적용한 모르간 핑거프린트(Morgan fingerprint)이고,
상기 분자 표현자는 MOE(Molecular Operating Environment)에서 분자 구조 및 특성을 나타내는 인자인 인간 PPAR 감마의 길항제 예측하는 분석장치.
8. The method of claim 7,
The compound fingerprint is a Morgan fingerprint to which the Morgan algorithm is applied,
The molecular descriptor is an analysis device for predicting an antagonist of human PPAR gamma, which is a factor indicating molecular structure and properties in Molecular Operating Environment (MOE).
제7항 있어서,
상기 분자 표현자는 물리적 특성 표현자, 휘켈 이론(Huckel theory) 관련 인자, 분할된 표면 영역 인자, 원자 수, 결합 수, Kier-Hall 분자 연결 인자, 카파 모양 인자(kappa shape indice), 인접도, 거리 매트릭스, 부분 전하, 포텐셜 에너지, 파마코포어(pharmacophore) 모델 인자 및 MOPAC 관련 인자를 포함하는 인간 PPAR 감마의 길항제 예측하는 분석장치.
8. The method of claim 7,
The molecular descriptor is a physical property descriptor, Huckel theory related factor, partitioned surface area factor, number of atoms, number of bonds, Kier-Hall molecular coupling factor, kappa shape indice, proximity, distance An analysis device for predicting antagonists of human PPAR gamma, including matrix, partial charge, potential energy, pharmacophore model factors and MOPAC-related factors.
제7항 있어서,
상기 단백질-리간드 상호작용 핑거프린트는 PPAR 감마 리간드 결합 부위에 대한 도킹 시뮬레이션 결과로 PPAR 감마 리간드 결합 부위 대한 타깃 아미노산의 정보를 포함하는 인간 PPAR 감마의 길항제 예측하는 분석장치.
8. The method of claim 7,
The protein-ligand interaction fingerprint is a docking simulation result for the PPAR gamma ligand binding site, and an analysis device for predicting human PPAR gamma antagonists including information on target amino acids for the PPAR gamma ligand binding site.
제7항 있어서,
상기 연산장치는 상기 후보 화합물의 화합물 핑거프린트 중 사전에 학습된 인공신경망 모델에 입력하고, 상기 학습된 인공신경망 모델의 노드들에서 활성된 값을 상기 비지도 학습 클러스터링 모델에 입력하여 상기 1차 분류하는 인간 PPAR 감마의 길항제 예측하는 분석장치.
8. The method of claim 7,
The computing device inputs to an artificial neural network model trained in advance among the compound fingerprints of the candidate compound, and inputs the values activated in nodes of the learned artificial neural network model to the unsupervised learning clustering model to perform the primary classification An analysis device that predicts antagonists of human PPAR gamma.
KR1020200179199A 2020-12-21 2020-12-21 HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS KR102429120B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200179199A KR102429120B1 (en) 2020-12-21 2020-12-21 HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200179199A KR102429120B1 (en) 2020-12-21 2020-12-21 HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS

Publications (2)

Publication Number Publication Date
KR20220088983A true KR20220088983A (en) 2022-06-28
KR102429120B1 KR102429120B1 (en) 2022-08-03

Family

ID=82268718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200179199A KR102429120B1 (en) 2020-12-21 2020-12-21 HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS

Country Status (1)

Country Link
KR (1) KR102429120B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071142A1 (en) 2006-11-06 2011-03-24 Beth Israel Deaconess Medical Center Identification and use of small molecules to modulate transcription factor function and to treat transcription factor associated diseases

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071142A1 (en) 2006-11-06 2011-03-24 Beth Israel Deaconess Medical Center Identification and use of small molecules to modulate transcription factor function and to treat transcription factor associated diseases

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. Jeong et al., Development of Adverse Outcome Pathway for PPARγ Antagonism Leading to Pulmonary Fibrosis and Chemical Selection for Its Validation, Chem. Res. Toxicol. Vol.32(2019)* *
J. Liang et al., Identification of Novel PI3Kδ Selective Inhibitors by SVM-Based Multistage Virtual Screening and Molecular Dynamics Simulations, Int. J. Mol. Sci. Vol.20, 6000(2019)* *
Z. Jiao et al., Machine Learning and Deep Learning in Chemical Health and Safety: A Systematic Review of Techniques and Applications, ACS Chem. Health Saf. Vol.27, pp316-334(2020.10.18.)* *

Also Published As

Publication number Publication date
KR102429120B1 (en) 2022-08-03

Similar Documents

Publication Publication Date Title
Cano et al. Automatic selection of molecular descriptors using random forest: Application to drug discovery
Miholca et al. A novel approach for software defect prediction through hybridizing gradual relational association rules with artificial neural networks
US10607331B1 (en) Image segmentation into overlapping tiles
Xu et al. LDFR: Learning deep feature representation for software defect prediction
Nguyen et al. Learning graph representation via frequent subgraphs
US20230084638A1 (en) Method and apparatus for classification model training and classification, computer device, and storage medium
Sathya et al. Cancer categorization using genetic algorithm to identify biomarker genes
CN111582651A (en) User risk analysis model training method and device and electronic equipment
Wang et al. Predicting protein interactions using a deep learning method-stacked sparse autoencoder combined with a probabilistic classification vector machine
CN110674636A (en) Power utilization behavior analysis method
Nowotny Two challenges of correct validation in pattern recognition
Casalino et al. A predictive model for microrna expressions in pediatric multiple sclerosis detection
KR20200030769A (en) Method of predicting multiple targets of drug utilizing random forest QSAR models
CN114743600A (en) Gate-controlled attention mechanism-based deep learning prediction method for target-ligand binding affinity
CN115776401A (en) Method and device for tracing network attack event based on few-sample learning
CN113764034B (en) Method, device, equipment and medium for predicting potential BGC in genome sequence
WO2020255414A1 (en) Learning assistance device, learning assistance method, and computer-readable recording medium
Sha et al. DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction
Welchowski et al. A framework for parameter estimation and model selection in kernel deep stacking networks
Ferreira et al. Autoencoders as weight initialization of deep classification networks for cancer versus cancer studies
KR102429120B1 (en) HUMAN PPARγ ANTAGONIST PREDICTION METHOD BASED ON LEARNING MODEL AND ANALYSIS APPARATUS
WO2023148733A1 (en) Method and system for predicting drug-drug interactions
CN114300036A (en) Genetic variation pathogenicity prediction method and device, storage medium and computer equipment
CN114818900A (en) Semi-supervised feature extraction method and user credit risk assessment method
Ladouceur et al. Modeling continuous diagnostic test data using approximate Dirichlet process distributions

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant