KR102228552B1

KR102228552B1 - 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법

Info

Publication number: KR102228552B1
Application number: KR1020180109415A
Authority: KR
Inventors: 김동섭; 이경열; 이민호
Original assignee: 한국과학기술원; 가톨릭대학교 산학협력단
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2021-03-16
Also published as: KR20200030769A

Abstract

인체에 존재하는 다수의 표적들에 대한 약물의 결합을 예측하는 방법이 개시된다. 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트 예측 모델을 생성한 후, 그 예측 모델에 예측대상 약물의 구조 정보를 입력한다. 각 표적 별 랜덤 포레스트 예측모델에서, 표적들 각각에 대한 구조 정보가 입력된 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하고, 각 표적별 표적 점수를 평가 데이터의 점수를 기반으로 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환한다. 그 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환한다. 이런 알고리즘을 약물 표적 예측 서버에 구현하여, 사용자가 클라이언트 단말기를 통해 예측대상 약물의 최상위 표적을 검색할 수 있다.

Description

랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법 {Method of predicting multiple targets of drug utilizing random forest QSAR models}

본 발명은 약물의 표적(target)을 예측하는 기술 분야에 관한 것으로, 보다 상세하게는 표적 식별을 위해 최적화 된 매개 변수를 갖는 랜덤 포레스트 구조-활성 정량적 관계 모델(random forest quantitative structure-activity relationship model)을 활용한 약물의 다중 표적 예측 방법에 관한 것이다.

인체는 다양한 생물학적인 물질들(예: 단백질, RNA, DNA 등)로 이루어져 있고, 이 물질들의 상호작용을 통해 대사활동을 수행하고 생명을 유지한다. 인체가 질병에 걸리면 인체 내에서는 특정 물질(들)의 비정상적인 활성 혹은 비활성이 관측된다. 이는 질병의 원인이거나 혹은 결과로서, 질병의 다양한 증상을 일으킬 수 있다. 따라서 사람들은 인체 내의 특정 물질을 표적으로 하는 다양한 약물을 개발해 왔으며, 이를 통해 병을 치료하거나 증상을 완화하기도 한다.

신약의 독성, 낮은 효능 및 임상 안전성에 대한 불확실성은 임상 실패의 주요 원인이며, 승인된 신약 개발에 드는 비용과 시간을 증가시킨다. 최근에 표현형적 선별(phenotypic screening) 기술 분야에서 상당한 기술적인 진전이 이루어지고 있다. 이러한 최근의 발전은 생물학적 네트워크 또는 시스템의 화학 반응에 대한 새로운 통찰력을 제공한다. 즉, 표현형적 선별 기술의 발달로 세포와 같은 생명 시스템의 약물에 대한 반응을 관측하는 일이 가능해졌다. 그에 따라 특정한 표적이 아닌 시스템 전체를 조절하는 약물들이 새로이 각광을 받게 되었다. 그러나 여전히 그와 같은 약물들도 인체 내에서 특정한 물질들과 결합함으로써 약효를 발휘하므로, 약물들의 표적을 밝혀 작용기작(mechanism of action)을 이해하는 일이 주요한 과제로 남아있다.

또한, 특정 물질을 표적으로 삼는 많은 약물들이 예기치 못한 부작용으로 인해 상용화에 실패하는 경우가 자주 발생한다. 그 실패의 가장 큰 원인으로 지목받는 것은 약물이 목표로 한 표적이 아닌 다른 표적과 결합함으로써 발생하는 탈표적(off-target) 효과이다. 약물의 표적이 이미 알려져 있더라도 다른 표적과의 연관성을 예측할 필요가 있다. 대부분의 약물이 하나 이상의 표적에 작용한다는 것이 일반적으로 인식되고 있다. 만일 새로 개발한 약물의 다양한 표적을 미리 예측할 수 있다면, 부작용을 사전에 예상하고 이를 줄이는 방향으로 약물을 최적화(lead optimization)하는 일이 가능하다.

이와 같이 약물의 알려지지 않은 표적을 예측하는 일은 약학적, 생물학적인 측면에서 매우 유용하다. 약물의 표적을 확인하는 전통적인 방법은 친화성 크로마토그래피, 2D 겔 전기영동 및 mRNA 발현을 기반으로 하는 여러 방법들을 포함한다. 이러한 방법들을 사용하여 약물 표적을 높은 정확도로 식별할 수 있다. 하지만 새로운 약물이 수많은 인체 단백질 중 어떤 표적과 결합하는지 실험으로 측정하기 위해서는 막대한 양의 시간과 비용이 소모된다. 이는 신약 개발에 있어서 해가 갈수록 개발 비용이 증가하는 원인이 되기도 한다.

이러한 제한으로 인해 인-실리코(컴퓨터 시뮬레이션과 같은 가상 환경에서의) 표적 예측(in-silico target prediction)은 표적 식별을 위한 유망한 대안으로 고려되고 있다. 인-실리코 표적 예측은 리간드 기반 방법과 구조 기반 방법의 두 가지 범주로 분류할 수 있다. 특히, 리간드 기반 방법은 낮은 계산 비용과 높은 실행 가능성 때문에 대규모 가상 선별에서 유리하다. 리간드 기반 표적 식별의 가장 보편적 인 방법 중 하나는 구조-활성도 관계(structure-activity relationships: SAR)를 사용하여 리간드를 분류하는 것이다. SAR 접근법의 원리는 구조적으로 유사한 리간드가 비슷한 성질을 가질 수 있다는 것이다. SAR 접근법의 목적은 공지된 활성을 갖는 리간드 구조를 포함하는 화학 공간을 탐색하여 쿼리 리간드의 활성을 예측하는 것이다. 인-실리코 표적 예측에서, 리간드들의 구조는 분자 스크립터(molecular descriptors)나 분자 지문(molecular fingerprint)으로 표현될 수 있으며, 활성은 특정 표적과의 결합으로 정의될 수 있다.

PubChem, ChEMBL, WOMBAT, ZINC와 같은 다양한 화학 유전체학 라이브러리(chemogenomics libraries)들은 다양한 약물과 표적 사이의 결합 강도를 측정한 에세이(assay) 데이터를 제공한다. 이와 같은 약물-표적 결합 정보를 바탕으로 전산적, 통계적 기법을 이용해 약물의 새로운 표적을 예측하려는 시도가 각광 받고 있다. 다수의 약물 정보로부터 효과적으로 특징을 알아내기 위해 주로 기계 학습(machine learning) 기법이 사용되고 있다. 기계학습 기법의 대표적인 예로는 서포트-벡터 머신(Support-vector machine: SVM), 나이브 베이즈 분류기(naive Bayesian classifier: NB), 인공 신경망(artificial neural network: ANN), 커널 판별(kernel discrimination) 등에 기반을 둔 기계학습법을 들 수 있다.

이러한 방법들 중 NB는 리간드의 표적 분류에 효과적이지만, 분자적 특징에 조건부 의존성이 있는 경우에는 약하다. 또한, NB를 제외한 기계학습 방법들은 1,000여개 이상의 대규모 인체 표적 집합 가운데 진정한 표적과의 결합을 정확하게 예측하지 못하고, 특정한 개수의 예측 표적들 가운데 정확하게 예측된 표적의 비율을 나타내는 재현율(Recall rate)을 보고하지 않았다. 약물의 실험에 앞서 표적선별의 기능을 수행하는 기술의 특성상 적은 개수의 예측 표적 가운데 최대한 많은 정답 표적을 선별하는 성능은 중요하며 알고리즘의 효율을 나타내는 척도가 된다.

표적 예측을 위한 SAR의 사용과 관련된 몇 가지 이슈로는 활성 자료의 불균형과 표적 전체의 비활성 리간드의 모호함 등이다. 이러한 문제는 이용 가능한 데이터에 대한 리간드 기반 접근법의 의존성에 기반을 두고 있다. 수십 년 동안 활발히 실험되어온 주요 단백질은 다른 표적보다 더 활동적인 데이터를 가지고 있다. 또한, 많은 관련 연구들에서, 표적에 대해 활성적이지 않은 것으로 알려진 리간드는 그 표적에 대한 비활성 리간드로 간주된다. 그러나 실제 리간드-표적 상호 작용들의 일부는 실험되지 않았을 수 있다. 데이터베이스에서 관찰된 이러한 편향으로 인해 특히 활성 데이터가 적은 표적의 경우 실제 상호 작용을 예측하는 데 실패에 이를 수 있다. 기계 학습 기법 가운데 하나인 랜덤포레스트(random forest: RF) 알고리즘은 과적합(overfitting)을 피하고 불균형한 데이터를 적절하게 다룰 수 있다고 여겨진다.

이런 점들을 고려하여, 본 발명은 표준화 된 샘플링 방법으로 랜덤 포레스트 기계학습 알고리즘을 이용하여 다중 표적 모델을 구축함으로써 1,121개의 인체 표적들에 대한 약물의 결합을 예측할 수 있는 방법을 제공하기 위한 것이다. 특히, 본 발명은 교차 검증(cross-validation) 결과에 기초하여, 비활성 리간드들을 정의하는 표준과, 활성 리간드들과 비활성 리간드들 사이의 비율을 최적화하여 여러 표적 모델들을 포함하는 포괄적인 약물 다중 표적 예측 모델을 구축하기 위한 것이다.

본 발명은 또한 각 표적 별로 독립적인 랜덤 포레스트 예측 모델을 생성하는 것을 통해 사용자가 지정하는 특정 표적군에 대한 약물의 결합 결과를 용이하게 예측할 수 있는 방법을 제공하는 것이다.

또한, 본 발명의 또 다른 목적은 각 표적 모델들이 약물과 표적이 결합할 객관적인 확률을 계산하므로 단순한 표적 순위가 아닌 약물-표적 결합 확률을 사용자에게 제시할 수 있는 표적에 대한 약물의 결합을 예측할 수 있는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 상술한 과제들에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

상기 본 발명의 일 목적을 실현하기 위한 실시예들에 따른 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법은 컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 인체에 관한 다수의 표적들에 대한 약물의 결합을 예측하는 방법으로서, 상기 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계; 예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력하는 단계; 각 표적 별 랜덤 포레스트 예측모델에서, 상기 표적들 각각에 대한 구조 정보가 입력된 상기 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하는 단계; 각 표적 별 랜덤 포레스트 예측 모델이 상기 각 표적별 표적 점수를 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환하는 단계; 및 상기 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환하는 단계를 포함한다.

예시적인 실시예들에 있어서, 상기 '랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계'는 상기 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 전처리를 수행하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택하는 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 활성 리간드에 더 큰 가중치를 부여하여 활성 리간드를 상대적으로 더 많이 선택하는 양성-오버샘플링 방법을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 전처리를 수행하는 단계는 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시키는 처리를 수행하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 '표적 점수로 생성하는 단계'는 상기 표적들 중에서 특정 표적을 결과에서 제외하는 표적 필터링을 수행하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 상기 다중 표적 예측 방법의 성능 검증을 위해 외부 테스트 집합을 이용하여 상기 다중 표적 예측 방법의 재현율(Recall rate)을 평가하는 단계를 더 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 각 표적별 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터로 표현할 수 있다.

예시적인 실시예들에 있어서, 상기 각 표적별 표적 점수는 외부 검증 집합으로부터 획득한 평가 데이터의 점수를 기반으로 하여 상기 약물-표적 결합 확률로 전환될 수 있다.

예시적인 실시예들에 있어서, 상기 입력하는 단계는 웹서버 컴퓨터를 통해 사용자 인터페이스를 제공하여 사용자로 하여금 클라이언트 단말기에 표시되는 상기 사용자 인터페이스를 통해 예측 대상 약물의 쿼리 리간드의 구조 정보를 입력하게 하는 단계를 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 상기 웹서버 컴퓨터가 상기 예상 표적 리스트에 관한 정보를 웹 페이지에 담아 상기 클라이언트 단말기로 제공하는 단계를 더 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 약물의 다중 표적 예측 방법은 다양한 소스의 약물-표적 상호작용에 관한 생체 활성 데이터(Bioactivity data)로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집하는 단계를 더 포함할 수 있다.

예시적인 실시예들에 있어서, 상기 랜덤 포레스트(Random Forest) 예측 모델은 1,121개의 표적에 대한 ChEMBL 데이터베이스의 약물 활성 데이터를 이용하여 구축될 수 있다.

본 발명의 예시적인 실시예들에 따르면 새로운 알고리즘인 RF QSAR은 랜덤 포레스트 기계학습 기법을 활용하여 1,121개의 인체 표적들에 대한 약물의 결합을 예측할 수 있다.

독립된 외부 테스트 집합(external validation set)로 평가하였을 때, 본 발명에 따른 인체 표적들에 대한 약물 결합 예측 방법은 기존의 NB 모델들의 성능을 뛰어넘는 재현율을 보인다. 뿐만 아니라, 각 표적 별로 독립적인 랜덤 포레스트 모델을 생성하는 알고리즘의 특성으로 인해, 사용자가 지정하는 특정 표적군에 대해서 결과를 예측하기 용이하다. 또한, 각 표적 모델들이 약물과 표적이 결합할 객관적인 확률을 계산하므로 단순한 표적 순위가 아닌 약물-표적 결합 확률을 사용자에게 제시할 수 있다.

특히 기존 알고리즘과의 비교에서 기존에 사용한 것보다 더 유사도가 낮은-예측이 상대적으로 더 어려운-외부 테스트 집합을 사용했음에도, 더 높은 재현율을 달성하여 우수한 성능을 입증하였다. 즉, 상위 11 개(전체 표적의 상위 1 %에 해당)의 표적과 상위 33개의 표적(전체 표적의 상위 3%에 해당)에 대해 66.6%의 재현율과 73.9%의 재현율을 각각 보인다.

도 1은 본 발명의 예시적인 실시예에 따른 서버 컴퓨터에서 실행되는 RF-QSAR 모델을 활용한 약물의 다중 표적 예측 방법의 전체적인 절차를 나타낸다.
도 2는 1121개의 표적 모델들의 클래스 분포를 나타낸다.
도 3은 모델 점수와 상호작용의 추정 확률 간의 관계를 나타내는 그래프로서, 좌측 그래프는 점수에 따른 추정 확률의 그래프이고, 오른쪽 그래프는 로그 스케일 점수에 따른 추정 확률의 그래프이다.
도 4는 ROC 곡선과 내부 교차 검증에 의해 계산된 영역 하부곡선을 나타낸다.
도 5는 각 표적 모델과 모델 특성에 대한 성능의 산점도(scatter plot)이다.
도 6은 각 표적에 대한 활성 및 비활성 리간드들 간의 평균 점수를 비교한 것을 나타내는 그래프이다.
도 7은 내부 교차 검증에 의해 측정된 다양한 상위 k 값 (k = 1, 4, 8, 11, 33, 66, 88, 110)에 대한 재현율의 변화를 나타낸다.
도 8은 특정 표적들에 가장 가까운 활성 리간드의 타니모토(Tanimoto) 계수 분포를 나타낸다.
도 9는 외부 유효성 검증 집합의 결과를 선별하기 위한 ROC 곡선을 나타낸다.
도 10은 본 발명의 예시적인 실시예에 따른 RF-QSAR 모델 기반 다중 표적 예측 방법이 웹 서버 형태로 구현된 약물표적 예측서버가 사용자의 클라이언트 단말기의 쿼리에 대한 웹서비스를 제공하기 위한 시스템의 구성을 나타낸다.
도 11은 도 10의 약물표적 예측서버가 사용자의 클라이언트 단말기의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 RF-QSAR 모델을 활용한 약물의 다중 표적 예측 방법(이하, '다중 표적 예측 방법'이라 함)의 전체적인 절차를 나타낸다. 이 다중 표적 예측 방법은 웹 서버에 구현될 수 있다. 이에 관한 자세한 사항은 후술한다(도 10 및 11에 관한 설명 참조)

도 1을 참조하면, 본 발명의 예시적인 실시예에 따른 다중 표적 예측 방법을 실행하기 위해, 우선 다양한 소스의 Bioactivity(약물-표적 상호작용) 데이터로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집할 수 있다(S10 단계). 예시적인 실시예에 따르면, 1,121 개의 표적 모델이 ChEMBL 데이터베이스의 생체 활성 데이터로 구축될 수 있다. 이 때, 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 처리를 할 수 있다.

수집된 약물의 구조 정보를 활용하여, 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 표적 별로 학습된 랜덤 포레스트(Random Forest) 예측 모델을 각각 생성할 수 있다. 그런 다음, 예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력할 수 있다. 즉, 사용자가 서버에 쿼리 리간드를 입력하면 표적 모델에 대한 점수가 계산되어 점수 벡터가 작성될 수 있다(S20). 구체적으로, 각 랜덤 포레스트 예측모델에서, 구조 정보가 입력된 상기 예측대상 약물과 복수의 표적들 간의 결합 가능성을 표적 점수로 나타낼 수 있다. 그 표적 점수는 예컨대 0에서 1까지의 범위에서 실수 값으로 부여할 수 있다. 1,121개의 표적 전체에 대하여 표적 점수를 부여하면, 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터 즉, 점수 벡터로 표현할 수 있게 된다.

그런 다음 점수 벡터가 활성화 확률로 변환될 수 있다. 즉, 각 표적 모델이 약물 결합 데이터를 기반으로 표적 점수를 약물-표적 결합 확률로 전환할 수 있다(S30). 약물-표적 결합 확률은 약물과 표적이 상호작용할 확률을 의미한다.

얻어진 약물-표적 결합 확률에 기초하여, 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 입력한 예측대상 약물의 예상 표적 리스트로 반환할 수 있다(S50). 마지막으로, 쿼리 리간드에 대한 확률에 따라 표적들의 순위가 매겨지고 순위에 따라 순서대로 사용자에게 보여질 수 있다.

예시적인 실시예에 따르면, 검색할 표적은 사용자의 기호에 따라 클래스별로 필터링 할 수 있다. 즉, 사용자는 편의에 따라 표적들 가운데 특정 표적을 예측에서 제외할 수 있다(S40). 이러한 표적 필터링을 통해 예측 대상 표적의 수를 줄일 수 있다. 필터링을 통해 예측된 표적들 가운데 상위 결합 확률을 가지는 표적들을 선별하여 입력한 약물의 예상 표적 리스트로 반환할 수 있다. 이러한 표적 필터링은 단계 S30에서 얻어진 약물-표적 결합 확률에 기초하여 수행할 수 있다.

외부 테스트 집합으로 상기 다중 표적 예측 방법에 따른 알고리즘의 재현율(Recall rate)을 평가하여 기존의 알고리즘과 성능을 비교할 수 있다. 비교 평가에 따르면, 본 발명에 따른 다중 표적 예측 방법은 우수한 예측 성능을 보임을 확인할 수 있다.

이하에서는 상기 다중 표적 예측 방법의 각 단계(S10-S50)에 관한 좀 더 구체적으로 설명한다.

S10 단계와 관련하여, 본 발명의 예시적인 실시예에 따른 RF-QSAR 방법은 다양한 소스의 생체 활성(Bioactivity)(약물-표적 상호작용) 데이터로부터 특정 표적과 결합하는 약물의 구조 정보들을 수집할 수 있다. 예컨대 ChEMBL (버전 20) 데이터베이스가 SAR 모델링을 위한 활성 및 비활성 훈련 데이터 집합을 구축하는 데 사용될 수 있다. 특정 표적들에 대한 활성 리간드는 IC50, EC50, Ki 및 Kd 를 사용하여 테스트하여 10μM보다 낮은 활성을 갖는 분자들로 정의될 수 있다. ChEMBL에 예치된 인간 단백질들 중에서, 예컨대 적어도 10 개의 공지된 결합 리간드를 갖는 단백질이 모델 개발을 위해 선택될 수 있다. 이렇게 함으로써 불충분하게 낮은 양의 활성 데이터를 갖는 신뢰할 수 없는 모델이 생성되는 것을 피할 수 있다.

선택된 훈련 집합은 1121 개의 표적 및 235,713 개의 고유한 리간드에 대응한다. 각 표적에 대해 알려진 활성 리간드의 수는 10 내지 4305이다. 또한 클래스, 시퀀스 및 도메인을 포함한 표적 정보는 ChEMBL 데이터베이스에서 검색되어 서버에서 더 활용될 수 있다.

도 2는 표적 모델의 클래스 분포를 보여준다.1121 개의 표적들은 효소, 멤브레인 수용체, 이온 채널 등 다양한 표적 클래스 아래로 분류될 수 있다. 대부분의 표적(685 개)은 효소이므로, 키나아제, 프로테아제 및 포스파타제와 같은 효소 서브 클래스에 의해 분류될 수 있다. 소수의 표적들이 여러 클래스에 속하기 때문에 각 클래스의 표적 개수 합계는 1121개 (총 표적 개수) 대신 1143 개이다.

예시적인 실시에 따르면, 상기 RF-QSAR 방법은 표적들과 결합하는 약물 구조 정보를 기계 학습하여 표적 별로 랜덤 포레스트 알고리즘을 이용하여 랜덤 포레스트(Random Forest) 예측 모델 생성할 수 있다.

ChEMBL로부터 얻어진 리간드 데이터는 ChemAxon 표준화 장치를 사용하여 표준화된다. "단편 제거", "중성화", "명시적 수소 제거", "Clean 2D", "Mesomerize" 및 "Tautomerize" 옵션들이 사용될 수 있다. 결과물로 얻어지는 SMILES는 예컨대 RDKit python 모듈을 사용하여 예컨대 2048 비트 길이의 문자열을 가진 ECFP_4 지문 (직경 4의 확장 연결성 지문)을 생성하는 데 이용될 수 있다. 이어서, 각각의 표적에 대해, 공지된 활성 데이터를 갖는 리간드는 양성(positive) 리간드로서 사용되지만, 활성 데이터가 없는 리간드는 음성(negative) (비활성) 리간드로 가정될 수 있다. 아래에 설명된 샘플링 및 필터링 프로세스 후, 표적 모델들은 sklearn python 모듈에 구현된 랜덤 포레스트(RF) 알고리즘을 사용하여 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP) 데이터를 기반으로 훈련할 수 있다. 활성 예측과 표적 예측(target fishing) 모두에 사용될 각 표적에 대한 개별 모델을 구축할 수 있다.

랜덤 포레스트 알고리즘은 과적합(overfitting) 및 클래스 불균형으로 인한 바이어스를 감소시키는 것으로 알려져 있다. ChEMBL로부터 얻은 생체 활성 데이터는 활성 데이터와 비활성 데이터 사이, 그리고 표적 사이에서도 여러 등급의 불균형을 가지고 있기 때문에, 랜덤 포레스트 분류 방법은 그러한 편향을 효과적으로 처리할 수 있다. 랜덤 포레스트 알고리즘은 계층적 특성으로 인한 의사 결정 트리 모델의 불안정성을 극복하기 위해 배깅(bagging) 및 하위 집합 선택 기법을 적용할 수 있다. 여러 개의 훈련 집합을 무작위로 샘플링하여 여러 개의 나무를 만들고, 그 특징들을 아웃오브-백 케이스(out-of-bag cases)를 기반으로 정제할 수 있다. 본 발명의 예시적인 실시예에서 각 표적 모델의 수를 100으로 설정할 수 있다. 0에서 1까지의 점수는 쿼리 리간드가 활성임을 결정하는 트리의 비율로 정의될 수 있다.

예시적인 실시예에 따르면, 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이기 위한 전처리를 수행할 수 있다. 이 전처리를 통해, 예측 모델을 학습하기 전에 비활성 데이터의 클래스 불균형과 모호성을 처리할 수 있다.

구체적으로, 몇 개의 표적의 경우, 비활성 리간드에 대한 활성 리간드의 비가 1 : 23,570 일 정도로 엄청나게 크다. 이는 활성 리간드의 수가 비활성 리간드의 수보다 현저히 적음을 의미한다. 이러한 불균형으로 인해 예측의 정확성이 현저히 떨어질 수 있다. 그러므로 다음과 같은 두 가지 샘플링 방법을 사용하여 상기 전처리를 함으로써 클래스 불균형을 해결할 수 있다. 예시적인 실시예에 따르면, 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택할 수 있다. 예시적인 다른 실시예에 따르면, 양성-오버 샘플링 방법(positive-oversampling method)을 사용하여 활성 리간드를 반복적으로 선택할 수도 있다. 실용성 때문에, 양성-오버 샘플링 방법은 훈련 시 활성 리간드에 더 큰 가중치(weight)를 부과함으로써 활성 리간드를 상대적으로 더 많이 선택되게 할 수 있다. 이들 방법을 통해 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소할 수 있다. 예시적인 실시예에서는 표적들이 다수의 활성 리간드들과 과적합화 되지 않도록 표적들 전반에 걸쳐 공통의 비를 사용할 수도 있다.

비활성 리간드들을 정의하는 것은 종종 비활성 리간드가 활성 리간드에 비해 상대적으로 모호하므로 논란의 여지가 있을 수 있다. 활성 데이터가 없는 일부 리간드들이 실제로는 활성 상태일 수도 있으며, 그것들은 비활성 리간드 집합에서 제외해야 한다. 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시킬 수 있다.

S20 단계와 관련하여, 생성된 랜덤 포레스트 예측 모델에 대하여 내부 교차 유효성 검사를 통해 각 랜덤 포레스트 예측 모델의 예측 성능을 평가할 수 있다. 예시적인 실시예에 따르면, 랜덤 포레스트 모델의 성능을 검증하기 위해, 5중 교차 검증 방법(five-fold cross-validation method)을 사용하여 훈련 데이터에 대한 모델의 예측 성능을 평가할 수 있다. 예컨대, 모든 표적들에 걸친 235,713 개의 활성 리간드를 5개의 부분 집합으로 나누고, 하나의 부분 집합을 테스트 리간드 집합으로 따로 설정할 수 있다. 나머지 집합들의 리간드들은 상기 데이터 전처리에 이어 예측 모델을 개발하기 위한 훈련 데이터로 사용될 수 있다. 테스트 리간드들과 표적 모델 간의 결합 가능성에 관한 점수가 계산될 수 있다. 점수 임계값보다 높은 점수를 갖는 리간드는 양성 표지(positive labels)로서 예측되고 다른 것들은 음성으로 예측될 수 있다.

예시적인 실시예에 따르면, 먼저 테스트 집합에 대한 각각의 훈련된 모델의 성능은 점수 문턱값을 0에서 1로 변화시켜 수신자 조작 특성(receiver-operating characteristic: ROC) 곡선을 사용하여 평가할 수 있다. 또한, 활성 리간드의 평균 점수와 비활성 리간드의 평균 점수를 비교하여 그 두 평균값이 크게 다른지 확인할 수 있다. 활성 리간드의 평균 점수와 비활성 리간드의 평균 점수 간의 비율을 각 표적에 대해 계산하고 예컨대 5중(five-fold)으로 평균할 수 있다. 끝으로, 각 리간드에 대한 표적들의 점수를 기반으로 1,121 개의 표적들에 대하여 순서대로 정리하여 표적들의 순위를 매길 수 있다. 그리고 재현율을 계산할 수 있다. 재현율의 계산은 순위가 매겨진 표적들의 목록으로부터 최상위 k 값 (k = 4, 7, 11, 33, 66, 88 및 110)이 양성으로 예측되는 것을 가정하여 이루어질 수 있다.

그런 다음, 서로 다른 5 가지 테스트 집합에 대해 평가를 평균할 수 있다. 샘플링 방법, 비활성 리간드 수와 활성 리간드 수 간의 비율, 그리고 비활성 리간드에 대한 타니모토 계수 Tc 유사성 컷오프를 변경하여 다양한 표적 예측 모델을 구축하고 평가할 수 있고 이로부터 최적의 매개 변수를 결정할 수 있다.

따라서 ChEMBL 버전 20의 전체 훈련 집합을 가지고서 최적화된 전처리 방법을 사용하는 벤치마크 모델을 만들 수 있다. 하지만 그 벤치마크 모델을 평가하려면 독립적인 검증 집합이 필요하다. 따라서 ChEMBL 버전 21에서 추가적인 생체 활성 데이터를 검색하여 외부 유효성 검증 집합으로 사용할 수 있다. 그 외부 집합은 표적 모델들로부터 선택된 적어도 하나의 활성 표적을 갖는 신규 리간드만을 함유할 수 있다. 훈련 집합에서와 동일한 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)을 갖는 리간드들 또한 그 유효성 검증 집합에서 제거될 수 있다. 그 결과로 얻어지는 13,589 개의 외부 리간드로, 검증 집합과 1121개의 표적 모델 사이의 점수 매트릭스가 얻어질 수 있다. 그 후, ROC 곡선과 그 곡선 아래의 면적(AUC) 값, 그리고 상위-k 표적 (k = 11과 33, 이는 각각 총 표적 개수의 1%와 3%에 해당함)에 대한 재현율을 평가할 수 있다. 평가된 재현율을 기존의 다른 방법을 통해서 얻은 결과와 비교할 수 있다.

다음으로, 표적들과 예측대상 약물(리간드) 간의 예측 점수를 그 약물과 표적의 상호작용 확률로 전환하는 단계 S30과 관련하여 좀 더 구체적으로 설명한다.

위와 같은 가상적인 분석을 통해 얻은 예측 점수가 비활성 리간드와 활성 리간드를 구별하는 데는 유용하지만, 사용자는 특정 점수를 갖는 상호작용(표적과 예측대상 약물 간)이 실제로 활성인지 여부를 알고 싶어 할 수 있다. 표적들의 순위를 매김에 있어, 일부 리간드들은 순위가 상위인 표적들과도 상호작용할 확률이 낮을 수도 있다. 예시적인 실시예에 따르면, 이러한 모호성을 극복하기 위해 예측 모델의 예측 점수를 상호작용 확률로 변환하는 확률 추정 함수를 제안할 수 있다. 외부 검증 집합의 가상적인 분석으로부터, 리간드-표적 쌍들을 0에서 1까지의 몇 가지 점수 컷오프에 의해 구분할 수 있다. 각 점수 컷오프에 대해, 해당 컷오프보다 더 높은 점수를 갖는 상호작용 쌍들은 유지될 수 있다. 활성 쌍의 개수를 각 컷오프의 전체 쌍의 개수로 나눈 값을 기준으로 상호작용의 확률이 추정될 수 있다.

이를 위한 예시적인 실시예에 따르면, 새로운 리간드들에 관한 벤치마크 모델의 성능을 테스트하기 위해 ChEMBL의 새 버전의 데이터를 사용하여 외부 검증 집합을 개발할 수 있다. 외부 검증 집합의 약물 구조를 각 표적 모델에 입력하면 해당하는 약물-표적 쌍의 점수를 얻을 수 있다. 그렇게 얻어진 점수들(총 13589 약물 x 1121 표적)을 이용해 확률 값을 추정할 수 있다. 즉, 외부 평가 데이터에서 활성 약물과 비활성 약물의 모델 점수를 측정해서 점수가 특정 값 이상 일 때 약물이 활성일 확률을 측정할 수 있다. 벤치마크 모델에서 구현 된 가장 가까운 리간드에 대한 외부 검정 집합의 평균 Tc 유사성 값이 0.55로 얻어지므로, 이 값을 상기 특정 값으로 사용할 수도 있다.

상호작용의 추정 확률이 얻어지면, 도 3에 예시된 것처럼 그 추정 확률과 모델의 예측 점수 간의 관계를 그래프로도 나타낼 수 있다. 도 3에서, 좌측 그래프는 모델의 예측 점수에 따른 추정 확률을 나타낸 것이고, 오른쪽 그래프는 로그 스케일된 예측 점수에 따른 추정 확률을 나타낸 것이다. 도시된 그래프의 곡선은 시그모이드 함수에 맞춰질 수 있다.

위와 같은 다중 표적 예측 방법의 알고리즘은 컴퓨터에서 실행될 수 있는 프로그램으로 구현될 수 있다. 예시적인 실시예에 따르면, 그 프로그램은 웹 기반 서버에 표적 예측 모델(target fishing model)로 구현될 수 있다. 사용자들은 클라이언트 단말기로 그 웹 서버 컴퓨터에 접속하여 표적 예측 모델을 이용할 수 있다. 이를 통해 쿼리 리간드의 예상 표적을 자유롭게 검색할 수 있다. 현재 ChEMBL 버전 20의 생체 활성 데이터를 사용하여 최적화 된 매개 변수로 랜덤 포레스트 모델을 구축할 수 있다. PHP와 jQeury가 웹 프로그래밍에 사용될 수 있다. ChemAxon standardizer는 훈련에 사용된 것과 똑같이 SMILES 형식을 표준화하기 위해 구현된다. 또한 Open Babel 소프트웨어는 리간드 구조를 2D 그림으로 변환하기 위해 포함되어 있다.

본 발명의 예시적인 실시예에 따라 제안된 SAR 모델들에 대한 내부 검증이 5중 교차 검증 절차를 사용하여 수행될 수 있다. 내부 검증의 성능은 최적화된 샘플링 방법 및 매개 변수를 사용하여 측정된다. 5중 교차 검증의 가상 선별 결과가 각 표적 모델의 성능을 측정하는 데 첫 번째로 사용될 수 있다. 따라서 각 모델의 ROC 곡선은 5중 교차 검증으로부터 ROC 곡선의 평균을 취하여 계산될 수 있다. ROC 곡선 (AUC) 아래쪽 면적을 평가하여 각 표적 모델의 성능을 평가할 수 있다.

도 4는 1121 표적 모델에 대한 ROC 곡선 및 전체 ROC 곡선(왼쪽 도면)과, 표적들에 대한 AUC 값의 박스 플롯(오른쪽 도면)을 보여준다. 왼쪽 그래프에서, 파란색 점선은 AUC = 0.5인 임의 선택을 위한 ROC 곡선을 나타낸다. 빨간색 곡선은 각 표적에 대한 ROC 곡선이며, 검은색 선은 전체 표적에 걸친 모든 선별 데이터를 사용하여 작성된 전체 ROC 곡선이다. 오른쪽 도면에서, 빨간색 선은 AUC의 중간 값을 나타낸다. 전체 ROC에 대한 AUC의 중간값은 0.97이다. 이는 이들 모델이 활성 리간드를 비활성 리간드로부터 우수한 민감도로 구별하는 데 사용될 수 있음을 암시한다. 박스 플롯은 대부분의 모델 (~ 75 %)의 AUC 값이 0.9 이상임을 보여줍니다. 몇몇 모델 (~ 7 %)의 AUC 값은 0.7 미만이지만, 그 모델들의 AUC 값은 0.5 이상이며 AUC 값의 중간 값은 0.97이다.

도 5는 각 표적 모델과 모델 특성에 대한 성능을 나타내는 산점도로서, 좌측의 a는 AUC 값들의 산포도를 나타내고, 우측의 B는 활성 데이터의 평균 점수에 대한 산포도를 나타낸다. 모델 특성은 활성 리간드의 수 (클래스 크기) 및 활성 리간드(클래스 내 Tc)들 간의 Tc 유사성을 포함할 수 있다. 그래프의 각 점은 각 표적 모델의 사양을 나타낸다. 전반적인 경향은 낮은 성능을 가진 모델들이 작은 클래스 크기와 낮은 클래스 내 Tc를 가진다는 것을 보여준다.

낮은 AUC 값을 갖는 모델은 도 5a에 도시된 바와 같이 일반적으로 적은 수의 활성 리간드 (클래스 크기)와 활성 리간드들(클래스 내 Tc) 사이에 낮은 Tc 유사성을 갖는다. 이는 아마도 교차 검정될 활성 리간드들의 일부는 작고 소한 표적 클래스에 대하여 근처에 어떤 다른 활성 리간드들을 갖지 않기 때문일 것이다. 표적 모델의 점수는 많은 다른 것들 간의 진정한 상호 작용을 결정하기 위해 사용되기 때문에, 활성 리간드들의 점수는 비활성 리간드의 점수보다 상당히 높아야 한다. 이러한 추세를 확인하기 위해 5중 교차 검증을 사용하여 각 표적에 대해 양성 및 음성 집합들의 평균 점수를 계산할 수 있다. 도 6의 a는 각 표적에 대한 활성 리간드와 비활성 리간드들 간의 평균 점수의 박스 플롯을 나타내며, b는 비활성 리간드의 평균 점수에 대한 활성 리간드의 평균 점수의 비율 분포를 나타낸다. Ratio = 10은 활성 데이터의 평균 점수가 표적에 대한 비활성 리간드의 평균 점수보다 10 배 큰 것을 의미한다. 비율의 간격을 1, 10, 100, 1000, 10,000, 100,000, 1,000,000으로 나눈 표적 수를 측정하고 그래프의 X 축을 로그 스케일링한다. 음성 집합의 평균 점수가 표적 모델 (최대 = 0.02)에 대해 거의 영인 반면, 양성 집합의 평균 점수는 0.64의 중간 값을 가지면서 넓게 분포된다는 것을 관찰한다(도 6의 a 참조). 양성 집합에서 평균 점수가 낮은 표적들은 일반적으로 작은 클래스 사이즈 및 낮은 클래스 내 Tc 값들을 갖는데, 이는 AUC 분포에서 관찰된 추세와 유사하다 (도 5의 b 참조). 그럼에도 불구하고 대부분의 표적 모델 (99 %)의 양성 집합의 평균 점수는 음성 집합의 평균 점수보다 적어도 10 배 이상 높다 (도 6의 b 참조).

각 쿼리 리간드의 가상 선별 결과는 1121 개의 표적 모델을 사용하여 구성된 점수 벡터일 수 있다. 예시적인 이 실시예에 따른 모델의 주요 응용은 쿼리 리간드에 관한 표적들의 순위를 매겨서 사용자들이 합리적인 수의 테스트 표적을 얻을 수 있도록 하는 것이다. 따라서 표적 랭킹의 모델 성능은 교차 검증을 통해 검증될 수 있다.

성능을 확인하는 일반적인 방법 중 하나는 최상위 순위 표적에 대한 재현율(recall rate)을 사용하는 것이다. 본 발명의 예시적인 실시예에 따른 방법에서, 최상위-k (k는 실행 가능한 표적 개수임)에 순위가 매겨진 표적들은 쿼리 리간드에 대하여 활성 표적으로 인식된다. 재현율은 TP/(TP+FN)로 정의되며, 이는 실제 활성 표적에 대한 검출된 활성 표적의 개수의 비이다. 여기서, TP는 참 양성(true positive)이고, FN는 거짓 음성(false negative)이다. 예컨대 재현율은 5중 교차 검증 과정에서 5 가지 시험 집합에 대해 평균을 내어 구할 수 있다. 재현율이 높다는 것은 활성 표적을 더 적게 놓쳐서 모델의 감도가 더 좋음을 의미한다.

도 7은 내부 교차 검증에 의해 측정된 다양한 최상위-k 문턱값에 대한 재현율의 변화를 보여준다. 재현율은 상위-k 문턱값(k = 1, 4, 8, 11, 33, 66, 88, 110)의 증가에 따라 증가한다. 그러나 최상위-k 문턱값이 높으면 활성으로 인식되는 많은 표적들이 실제로 비활성 상태일 수 있다. 또한 실험을 통해 확인해야 할 표적의 수가 늘어나면, 그 모델 적용의 효율성이 떨어진다. 실제로 재현율은 상위-4개 문턱값 이후에는 약간만 변경된다. 이 모델에서 상위-4위와 상위-11위 (전체 표적의 1 %) 표적에 대한 재현율은 각각 0.823과 0.871이다. 이를 고려하여, 실용성을 위해 일반적으로 총 표적 중 약 10 표적이 후보 표적으로 제안될 수 있다.

각 표적에 대한 활성 및 비활성 표적을 정의하는 것은 SAR를 성공적으로 모델링하는 데 매우 중요하다. 샘플링 방법(음성-언더샘플링과 양성-오버샘플링)에 따라 각 표적 모델에 대한 활성 및 비활성 집합을 작성하는 두 가지 방법이 제안될 수 있다. 비활성 리간드의 수가 활성 리간드의 개수(임의로 20개러 설정 됨)의 고정된 비에 이를 때까지 표적의 리간드를 샘플링 할 수 있다. 첫째, 다른 샘플링 방법들의 성능들을 상위 1, 4, 8 및 11 표적에 대한 재현율과 전체 AUC 값(표 1)을 계산하여 비교할 수 있다. 음성-언더샘플링 방법이 전반적인 AUC의 측면에서 양성-오버샘플링 방법보다 약간 더 나은 성능을 나타내긴 하지만, 재현율은 양성-언더 샘플링 방법을 사용하여 얻은 것보다 상대적으로 낮다.

샘플링 방법	음성-언더샘플링	양성-오버샘플링
전체 ROC AUC	0.975	0.956
상위 1 재현	0.534	0.549
상위 4 재현	0.81	0.822
상위 8 재현	0.849	0.855
상위11 재현	0.86	0.865

음성-언더샘플링과 양성-오버샘플링 간의 성능 비교

또한 양성-오버샘플링 방법에서는 AUC 값이 충분히 높고, 표적 예측의 적용을 위해서는 재현율이 더 중요하기 때문에, 일반적인 샘플링 방법으로 양성-오버샘플링 방법을 선택할 수 있다. 양성-오버샘플링 방법은 피어슨의 카이-자성 테스트에서 p-값 = 6.39E-10으로 음성-언더샘플링 방법과 비교하여 더 많은 활성 리간드들을 양성으로 인식한다. 활성 리간드의 수에 대한 비활성 리간드의 수의 비율을 1에서 40 사이에서 바꾸어 가며 다수의 양성-오버샘플링 모델을 구축할 수 있다.

비 (비활성/활성)	1	10	20	30	40
전체 ROC AUC	0.961	0.956	0.956	0.955	0.955
상위 1 재현	0.549	0.549	0.549	0.549	0.549
상위 4 재현	0.823	0.822	0.822	0.822	0.822
상위 8 재현	0.857	0.856	0.855	0.855	0.855
상위11 재현	0.868	0.866	0.865	0.865	0.865

양성-오버샘플링용 리간드 개수의 다른 비율들 간의 성능 비교

표 2는 그 모델들 간의 성능 비교를 나타낸다. 결과는 활성 리간드와 비활성 리간드 사이의 균형 잡힌 비율이 모든 문턱값에서 가장 좋은 재현율을 산출함을 보여준다. 전반적인 AUC의 값은 같은 추세를 따른다. 따라서, 활성 리간드의 수에 대한 비활성 리간드의 수의 비는 1로 설정될 수 있다. 피어슨의 카이-자승 테스트는 p 값이 7.09E-3, 7.60E-4, 6.40E-5, 및 1.71E-5인 10, 20, 30 및 40의 비율을 갖는 모델들보다 1의 비율을 가진 모델이 더 많은 실제 양성들을 인식하였음을 보여준다.

표적 모델에 사용된 많은 비활성 리간드는 그 표적에 대해 실험적으로 시험되지 않았다. 그들 중 일부는 활성 리간드로 밝혀 질 수도 있다. 특히, 공지된 활성 리간드와 유사한 리간드들은 활성일 가능성이 더 높다. 경우에 따라 그 모델의 그러한 비활성 리간드로 인해 활성 쿼리가 비활성으로 평가될 수도 있다.

이러한 편향(bias)을 감소시키는 방법 중 하나는 활성 리간드와 유사한 비활성 리간드를 어느 정도 제외하는 것이다. 잘 알려진 Tc 유사성은 이 목적을 위한 컷오프로 사용될 수 있다. 도 8은 특정 표적들에 가장 가까운 활성 리간드의 타니모토(Tanimoto) 계수 분포를 나타낸다. 도 8을 참조하면, 특정 표적들 내에서 가장 가까운 활성 리간드들 간의 Tc 유사성을 조사한 결과, 그 쌍의 95%가 0.32 이상의 Tc 유사도를 가지며, 그 쌍의 90%가 0.5 이상의 Tc 유사도를 가진다.

Tc 컷오프	0.3	0.5	컷오프 없음
전체 ROC AUC	0.973	0.966	0.961
상위 1 재현	0.527	0.538	0.548
상위 4 재현	0.815	0.823	0.823
상위 8 재현	0.858	0.86	0.857
상위11 재현	0.87	0.871	0.868

비활성 리간드들을 제외하기 위한 다른 Tc 컷오프들 간의 성능 비교

다른 Tc 유사성 컷오프 (0.3, 0.5 및 컷오프 없음)에 대해서, 표적들을 식별하기 위한 최적 적합성을 얻기 위해 표적 순위의 재현율들을 조사할 수 있다. 그 결과가 표 3에 정리되어 있다. Tc 컷오프 값을 적용하여 얻은 결과는 Tc 컷오프 0.3 및 0.5를 적용하여 얻은 결과가 다소 모호하다는 것에 비해 우수한 성능을 보였다. AUC 값은 0.3의 Tc 컷오프로부터 증가하지만, 재현율은 0.5의 Tc 컷오프에 대해 더 좋다.

앞서 언급했듯이 재현율은 실용성을 위해 더 식별력이 있어야 하기 때문에 0.5의 Tc 컷오프를 선택할 수 있다. 0.5의 Tc 컷오프를 적용한 모델은 카이-자승 테스트의 p 값이 1.89E-6인 Tc 컷오프 없는 경우에 비해 더 많은 진짜 양성들을 인식하였다. 따라서 벤치마크 모델은 '활성/비활성 비'= 1 및 'Tc 컷오프'= 0.5와 같은 최적화된 매개 변수를 채용하여 양성-오버 샘플링 방법을 사용하여 구축될 수 있다.

본 발명자들은 새로운 리간드들에 관한 벤치마크 모델의 성능을 테스트하기 위해 ChEMBL의 새 버전의 데이터를 사용하여 외부 검증 집합을 개발하였다. 벤치마크 모델에서 구현 된 가장 가까운 리간드에 대한 외부 검정 집합의 평균 Tc 유사성 값은 0.55였다. ROC 곡선과 재현율을 사용하여 외부 검증 집합의 가상 선별 결과를 평가하였다. 도 9는 외부 유효성 검증 집합의 결과를 선별하기 위한 ROC 곡선을 나타낸다. ROC 곡선은 알려진 활성 데이터를 양성 집합으로 정의하여 그려졌으며, ROC 곡선 아래의 면적은 0.89이다. 이 값은 교차 유효성 검증을 통해 얻은 AUC(0.97)에 비해 낮다. 이는 주로 더 많은 수의 활성 상호작용들이 0의 점수로 등급이 저하되기 때문이다. ROC 곡선은 활성 리간드의 약 20%의 점수가 0 인 반면, 비활성 리간드의 93%의 점수는 0이다. 점수가 0인 활성 리간드들은 모델에 의해 설명되지는 않지만 외부 집합에 포함되는 것이다.

그럼에도 불구하고 그 결과는 벤치마크 모델의 성능이 외부 검증에 대해 여전히 약 0.9의 값으로 높은 것을 나타낸다. 외부 검증의 성능을 검증하기 위해 최상위-k 표적들에 대한 재현율도 계산하였다. 상위 11개 (1 %) 표적의 경우, 벤치마크 모델을 사용한 외부 집합의 재현율은 67.6 %였다. 상위 33개 (3%) 표적의 경우, 재현율은 73.9 %이다. 이 결과는 Alexise Koutsoukas 등이 Parzen-Rosenblatt Window 기반의 Naive Bayesian 모델을 사용하여 측정한 성능보다 약간 더 좋았으며, 결과는 상위 1%와 3%의 표적들에 대하여 66 %와 73.9 %였다.

예시적인 실시예에 따른 방법을 사용하여 얻은 재현율은 Laplacian 수정 Naㅿve Bayes (상위 1 %는 63.3 %, 상위 3 %는 72.1 %) 또는 Bernoulli Naㅿve Bayes (상위 1 %는 62.5 %, 상위 3 %는 72.5 %)와 같은 다른 Naㅿve Bayes 모델을 사용하여 얻은 재현율보다 우수하다. 이들 테스트에 사용된 WOMBAT 외부 집합은 그 트레이닝 집합의 평균 Tc 값이 0.58인 반면, 본 발명의 예시적인 실시예의 테스트에 사용된 외부 집합의 값은 0.55로, 문제의 어려움이 증가한다는 것을 나타낸다. 따라서 본 발명의 예시적인 실시예에 따른 방법의 성능이 종래의 방법들의 성능보다 우수하다고 말할 수 있다. 또한 현재의 벤치마크 모델은 개별 표적 모델의 단순한 모음이므로 추가 수정을 통해 결과가 개선될 것으로 기대한다.

예시적인 실시예에 따르면, RF-QSAR라는 표적 예측용 웹 서버가 제공될 수 있다. 사용자는 RF-QSAR을 사용하여 한 번에 여러 쿼리 리간드의 표적들을 식별할 수 있다. 각 리간드는 1121 개의 표적 모델에 의해 평가되고 리간드들과 표적들 간의 점수 매트릭스가 작성될 수 있다. 점수 행렬은 또한 확률 행렬로 변환되며, 여기서 각 셀은 리간드-표적 상호작용이 활성화될 확률을 나타낸다. 사용자가 다른 발명을 위해 점수 행렬을 더 활용할 수 있도록 행렬을 링크에 의해 다운로드 할 수 있다. 예를 들어, 표적 모델로부터의 점수는 리간드의 프로파일로서 사용될 수 있고, 그 리간드의 독성은 그 프로파일에 의해 예측될 수 있다.

예시적인 실시예에 따르면, 서버는 리간드와 상호 작용할 가능성에 따라 순위가 매겨진 상위-k 표적을 제공할 수 있다. k 값과 검색할 표적 클래스는 표적 예측의 목적에 따라 사용자가 결정할 수 있다. 상위 순위의 표적들에 대해 Uniprot ID, 표적 클래스, 시퀀스, 도메인 및 유사한 리간드를 포함한 정보 및 상호 참조가 제공될 수 있다. 순위가 매겨진 표적들의 각 표적 클래스의 비율도 표시되어 사용자가 쿼리 리간드에 관한 일반적인 표적 클래스를 추정할 수 있다.

위에서도 언급하였듯이, 이상에서 설명한 예시적인 실시예에 따른 다중 표적 예측 방법은 다양한 컴퓨팅 장치에 의해 실행될 수 있는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함한 형태(이하 '소프트웨어'로 통칭함)로 구현될 수 있다. 상기 소프트웨어는 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 또는 컴퓨터 판독 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다.

소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

위에서 설명한 것과 같은 특징이 반영된 알고리즘을 적용하여 약물 표적 예측 서버를 개발할 수 있다. 도 10은 본 발명의 예시적인 실시예에 따른 RF-QSAR 모델 기반 다중 표적 예측 방법이 웹 서버 형태의 약물표적 예측서버(100)에 구현하여 인터넷(150)을 통해 사용자의 클라이언트 단말기(200)의 쿼리에 대한 웹서비스를 제공하기 위한 시스템(10)의 구성을 나타낸다. 도 11은 도 10의 약물표적 예측서버(100)가 사용자의 클라이언트 단말기(200)의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다. 도 11은 도 10의 웹 서비스 시스템이 사용자의 클라이언트 단말기의 쿼리에 대한 응답으로 제공하는 결과 페이지를 예시한다.

도 10과 11을 참조하면, RF-QSAR 모델을 적용한 약물 표적 예측 서버(100)는 인터넷(150)을 통해 사용자의 클라이언트 단말기(200)에 대한 웹 서비스를 제공하는 웹 서버 형태로 구성될 수 있다. 약물 표적 예측 서버(100)는 사용자 인터페이스 화면을 클라이언트 단말기(200)에게 제공할 수 있다. 사용자는 표적을 예측하고자 하는 약물의 구조 정보 즉, 쿼리 리간드 정보를 그 사용자 인터페이스 화면을 통해 입력할 수 있다. 약물 표적 예측 서버(100)는 짧은 시간의 연산을 수행하여 예측되는 상위 표적 리스트 결과를 생성할 수 있다. 그 예측된 표적 리스트는 예컨대 웹 페이지 형태로 생성되어 클라이언트 단말기(200)에 제공될 수 있다. 그 웹 페이지를 통해 사용자는 자신이 입력한 약물 구조의 예측된 표적 리스트를 확인할 수 있다. 사용자는 "Probability" 열에서 각 표적과 입력 약물의 결합 확률을 확인할 수 있고, 그 밖의 표적에 관한 다양한 생물학적 정보를 다른 열에서 확인할 수 있다. 사용자는 자신의 편의에 따라 1,121개 표적 가운데 원하는 표적들을 제외하고 예측 결과를 확인할 수 있다. 또한 확인하고자 하는 상위 표적의 개수를 조정하여 목적에 따라 서로 다른 길이의 표적 리스트를 얻을 수 있다.

단백질 시퀀스를 사용하여 선호하는 표적을 검색하고 다른 쿼리 리간드에서 반복적으로 발견되는 공통 표적을 강조 표시하는 것과 같은 몇 가지 새로운 기능을 약물 표적 예측 서버(100)에 추가할 수도 있다.

이상에서는 랜덤 포레스트 알고리즘을 사용하여 ChEMBL 데이터베이스에서 검색된 인간 생체 활성 데이터로 훈련된 1121 개의 개별 표적 모델을 포함하는 리간드 기반 SAR 모델을 설명하였다. 데이터 전처리에 사용된 샘플링 방법과 매개 변수는 상위 순위 표적들의 재현율을 극대화하기 위해 5중(5-fold) 교차 유효성 검사를 통해 신중하게 최적화될 수 있다. 모든 표적 모델의 활성 데이터는 활성 리간드의 수에 대한 비활성 리간드의 수의 비율이 1로 설정될 때까지 오버 샘플링될 수 있다. 또한, 0.5보다 높은 Tc 컷오프를 갖는 활성 리간드와 유사한 비활성 리간드는 모델 제작 과정에서 제외될 수 있다. 이 과정을 통해 본 발명의 실시예에 따른 모델은 클래스 또는 표적 간의 불균형을 극복하고 비활성 리간드들의 모호성을 피할 수 있다. 결과 표적 모델은 리간드의 활성을 예측하는 것뿐만 아니라 순위가 부여된 표적리스트를 제공하는 쿼리 리간드의 표적 예측 (target fishing)를 위해 이용될 수 있다.

각 표적 모델의 성능은 개별 ROC 곡선 및 평균 점수를 사용하여 평가되며, 이는 활성 리간드와 비활성 리간드를 구별하는 강도를 나타낼 수 있다. 표적 순위의 성능은 최상위-k 표적들의 재현률을 사용하여 검증될 수 있다. 외부 검증을 통해 재현율은 상위 1 % 표적에서 67.6 %, 상위 3 % 표적에서 73.9 %로 얻어졌다. 이 결과는 본 발명에서 얻은 성능이 가장 높다는 것을 보여준다. 특히 훈련 집합과의 평균 Tc 유사성이 0.55 인 비교적 어려운 테스트 집합임에도 성능이 가장 높다.

프로세스들은 외부 데이터 집합을 사용하는 확률에 더 맞춰진 통합 채점 방식을 사용하여 검증될 수 있다. RF-QSAR의 웹 인터페이스는 사용하기 쉽도록 설계되어 직관적인 결과 페이지를 제공할 수 있다. 사용자는 여러 쿼리 리간드를 제출하고 한 번에 결과를 확인할 수 있다. 결과 페이지에는 예상 상호 작용 가능성이 있는 순위가 매겨진 표적 목록이 표시될 수 있다. 다양한 정보와 상호 참조가 각 표적에 제공될 수 있다.

그 사이트의 특징 중 하나는 클래스를 기준으로 표적을 필터링하는 것이다. 이 함수를 사용하여 사용자는 표적 클래스를 지정하여 클래스를 검색하거나 제거할 수 있다. 사용자들은 표적 예측, 리간드 비교, 프로필 작성 등 다양한 목적으로 서버를 활용할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 신약을 개발하는 데 이용할 수 있다. 특히, 개발 대상 약물의 표적을 효과적이고 정확하게 예측하는 데 활용될 수 있다.

10: 랜덤 포레스트 모델 기반의 약물의 다중 표적 예측 서비스 시스템
100: 다중 표적 예측 서버
200: 클라이언트 단말기

Claims

컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 인체에 존재하는 다수의 표적들에 대한 약물의 결합을 예측하는 방법으로서,
상기 표적들과 결합하는 약물의 구조 정보를 기계 학습하여 각 표적 별로 독립적인 랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계;
예측대상 약물의 구조 정보를 각 랜덤 포레스트 예측 모델에 입력하는 단계;
각 표적 별 랜덤 포레스트 예측모델에서, 상기 표적들 각각에 대한 구조 정보가 입력된 상기 예측대상 약물의 결합 가능성을 각 표적별 표적 점수로 생성하는 단계;
각 표적 별 랜덤 포레스트 예측 모델이 상기 각 표적별 표적 점수를 약물과 표적이 상호작용할 확률인 약물-표적 결합 확률로 전환하는 단계; 및
상기 약물-표적 결합 확률에 기초하여 소정의 결합 확률값 이상을 갖는 표적들을 선별하여 상기 예측대상 약물의 예상 표적 리스트로 반환하는 단계를 포함하는 것을 특징으로 하는 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 '랜덤 포레스트(Random Forest) 예측 모델을 생성하는 단계'는 상기 기계 학습을 하기 전에 학습할 데이터를 최적화하여 각 랜덤 포레스트(Random Forest) 예측 모델의 정확도를 높이고, 표적들 간의 편차(bias)를 줄이는 전처리를 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제2항에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 비활성 리간드의 부분 집합만을 무작위로 선택하는 음성-언더 샘플링 방법(negative-undersampling method)을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제2항에 있어서, 상기 전처리를 수행하는 단계는 비활성 리간드에 대한 활성 리간드의 비가 특정 값에 도달할 때까지 활성 리간드에 더 큰 가중치를 부여하여 활성 리간드를 상대적으로 더 많이 선택하는 양성-오버샘플링 방법을 사용하여 비활성 리간드에 대한 활성 리간드의 비의 과도한 불균형을 해소하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제2항에 있어서, 상기 전처리를 수행하는 단계는 활성 및 비활성 리간드의 확장 연결성 지문(Extended-Connectivity Fingerprints: ECFP)들간의 타니모토 계수(Tanimoto coefficient) Tc 유사성을 계산함으로써, 특정 임계값과 유사한 활성 데이터를 갖는 리간드들은 비활성 리간드에서 제외시키는 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 '표적 점수로 생성하는 단계'는 상기 표적들 중에서 특정 표적을 결과에서 제외하는 표적 필터링을 수행하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 다중 표적 예측 방법의 성능 검증을 위해 외부 테스트 집합을 이용하여 상기 다중 표적 예측 방법의 재현율(Recall rate)을 평가하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 각 표적별 랜덤 포레스트 예측모델은 1,121개의 표적들 각각과 상기 예측대상 약물 간의 결합 가능성을 길이가 1,121인 점수 데이터로 표현하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 각 표적별 표적 점수는 외부 검증 집합으로부터 획득한 평가 데이터의 점수를 기반으로 하여 상기 약물-표적 결합 확률로 전환되는 것을 특징으로 하는 랜덤 포레스트 예측 모델을 활용한 약물의 다중 표적 예측 방법.
제1항에 있어서, 상기 입력하는 단계는 웹서버 컴퓨터를 통해 사용자 인터페이스를 제공하여 사용자로 하여금 클라이언트 단말기에 표시되는 상기 사용자 인터페이스를 통해 예측 대상 약물의 쿼리 리간드의 구조 정보를 입력하게 하는 단계를 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제10항에 있어서, 상기 웹서버 컴퓨터가 상기 예상 표적 리스트에 관한 정보를 웹 페이지에 담아 상기 클라이언트 단말기로 제공하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항에 있어서, 다양한 소스의 약물-표적 상호작용에 관한 생체 활성 데이터(Bioactivity data)로부터 특정 표적들 각각과 결합하는 약물의 구조 정보들을 수집하는 단계를 더 포함하는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제12항에 있어서, 상기 랜덤 포레스트(Random Forest) 예측 모델은 1,121개의 표적에 대한 ChEMBL 데이터베이스의 약물 활성 데이터를 이용하여 구축되는 것을 특징으로 하는 약물의 다중 표적 예측 방법.
제1항 내지 제13항 중 어느 한 항에 기재된 약물의 다중 표적 예측 방법을 수행하기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 실행가능 프로그램.
제1항 내지 제13항 중 어느 한 항에 기재된 약물의 다중 표적 예측 방법을 수행하기 위한 컴퓨터 실행가능 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.