WO2022265480A1

WO2022265480A1 - 약물들 간 상호작용을 분석하기 위한 방법 및 장치

Info

Publication number: WO2022265480A1
Application number: PCT/KR2022/095058
Authority: WO
Inventors: 이지현; 배상훈; 최정규; 이인섭
Original assignee: 닥터노아바이오텍 주식회사
Priority date: 2021-06-16
Filing date: 2022-03-17
Publication date: 2022-12-22
Also published as: KR102339561B1

Abstract

본 발명은 약물들 간 상호작용을 분석하기 위한 방법 및 장치에 대한 것으로, 장치의 동작 방법은, 학습을 위한 데이터 셋(set)들로서, 약물들의 화학구조에 대한 제1 데이터 셋, 상기 약물들 간 부작용 수준(grade)에 대한 제2 데이터 셋, 상기 약물들 간 부작용 유형(type)에 대한 제3 데이터 셋을 획득하는 단계, 상기 제1 데이터 셋을 전처리함으로써, 상기 약물들 각각의 세부 속성 정보를 생성하는 단계, 상기 제2 데이터 셋을 전처리함으로써, 상기 제2 데이터 셋에 포함된 클래스를 정규화하고, 상기 제2 데이터 셋에 방향성을 부여하는 단계, 상기 제3 데이터 셋을 전처리함으로써, 상기 제3 데이터 셋에 포함된 부작용 유형을 나타내는 표현들을 추출하고, 상기 표현들을 정규화하고, 상기 제3 데이터 셋에 방향성을 부여하는 단계, 상기 전처리된 제1 데이터 셋, 상기 전처리된 제2 데이터 셋, 상기 전처리된 제3 데이터 셋을 이용하여 적어도 하나의 인공지능 모델을 학습하는 단계, 및 상기 적어도 하나의 인공지능 모델을 이용하여 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하는 단계를 포함할 수 있다.

Description

약물들 간 상호작용을 분석하기 위한 방법 및 장치

본 발명은 약물들 간 상호작용(Drug-Drug Interaction, DDI) 분석에 관한 것으로, 특히, 인공지능 알고리즘을 이용하여 약물들 간 상호작용을 분석하기 위한 방법 및 장치에 대한 것이다.

문명이 발달함에 따라 인간의 삶은 풍요로워졌지만, 새로운 질병들이 계속적으로 발생하고 있다. 질병으로부터 자유롭고 건강하게 오래 살고자 하는 사람들의 소망에 따라, 새로운 약을 만들기 위한 수많은 시도와 노력이 이루어지고 있다. 이러한 가운데, 제약산업 분야에서 4차 산업 혁명은 대규모 데이터를 바탕으로 인공지능, 바이오 융합기술 등을 통해 약물 개발에 새로운 방향을 제시하고 있다.

약물들 간 상호작용(Drug-Drug Interaction, DDI)은 약물 개발에 있어 크게 고려해야 할 대상 중 하나이다. 약물들 간 상호작용이란 넓은 의미로 한 약물의 효능 혹은 독성이 다른 약물이나, 음식, 환경화학물질 등에 의해 변형될 때 일어나는 현상을 말한다. 즉, 약물들 간 상호작용은 임상에서는 2가지 이상의 약물을 동시에 혹은 짧은 간격을 두고 함께 사용할 때 서로 영향을 주는 것을 의미한다. 국내 복합제 임상시험 기준에 따르면, 안전성 측면에서 '병리기전 및 치료기전 등을 고려할 때, 개개 주성분의 병용투여 시 약동학적 및 약력학적 상호작용이 나타날 가능성이 있는 약물인 경우, 병용투여의 안전성 및 유효성에 대한 면밀한 평가가 요구된다'라는 기준이 명시되어 있다. 즉, 약물상호작용을 평가함에 있어서, 약물이 체내에 미치는 직접적인 영향과 약물 간에 나타나는 반응에 의한 영향 등이 모두 고려되어야 한다. 하지만, 현존하는 약물의 종류만 해도 수천 가지가 넘고, 약물들 간 상호작용에 관한 허가사항에 대해 국가별, 기관별로 제각각인 것인 것으로 드러나 약물 간의 조합이 적합한지 판단할 수 있는 자료들 조차도 불완전한 실정이다.

본 발명은 인공지능 알고리즘을 이용하여 약물들 간 상호작용(Drug-Drug Interaction, DDI)을 효과적으로 분석하기 위한 방법 및 장치를 제공하기 위한 것이다.

본 발명은 인공지능 알고리즘을 이용하여 약물들 간 상호작용 분석에 필요한 시간적, 인적, 물적 자원의 소요를 줄이기 위한 방법 및 장치를 제공하기 위한 것이다.

본 발명은 인공지능 알고리즘에 기반하여 복합제를 위한 적절한 약물 조합을 빠르게 예측하기 위한 방법 및 장치를 제공하기 위한 것이다.

본 발명은 인공지능 알고리즘에 기반하여 복합제를 위한 적절한 약물 조합을 빠르게 추천하기 위한 방법 및 장치를 제공하기 위한 것이다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시 예에 따른, 약물들 간 상호작용(Drug-Drug Interaction, DDI)을 분석하는 방법은, 학습을 위한 데이터 셋(set)들로서, 약물들의 화학구조에 대한 제1 데이터 셋, 상기 약물들 간 부작용 수준(grade)에 대한 제2 데이터 셋, 상기 약물들 간 부작용 유형(type)에 대한 제3 데이터 셋을 획득하는 단계, 상기 제1 데이터 셋을 전처리함으로써, 상기 약물들 각각의 세부 속성 정보를 생성하는 단계, 상기 제2 데이터 셋을 전처리함으로써, 상기 제2 데이터 셋에 포함된 클래스를 정규화하고, 상기 제2 데이터 셋에 방향성을 부여하는 단계, 상기 제3 데이터 셋을 전처리함으로써, 상기 제3 데이터 셋에 포함된 부작용 유형을 나타내는 표현들을 추출하고, 상기 표현들을 정규화하고, 상기 제3 데이터 셋에 방향성을 부여하는 단계, 상기 전처리된 제1 데이터 셋, 상기 전처리된 제2 데이터 셋, 상기 전처리된 제3 데이터 셋을 이용하여 적어도 하나의 인공지능 모델을 학습하는 단계, 및 상기 적어도 하나의 인공지능 모델을 이용하여 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따라, 상기 적어도 하나의 인공지능 모델을 학습하는 단계는, 상기 전처리된 제1 데이터 셋을 상기 전처리된 제2 데이터 셋 및 상기 전처리된 제3 데이터 셋과 매칭함으로써, 약물의 속성 조합에 대하여 부작용 수준 및 유형을 맵핑한 학습 데이터 셋을 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따라, 상기 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하는 단계는, 상기 한 쌍의 약물들의 정보를 전처리함으로써, 상기 한 쌍의 약물들 각각의 세부 속성 정보를 생성하는 단계, 및 상기 세부 속성 정보를 상기 적어도 하나의 인공지능 모델의 입력 데이터로서 입력하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따라, 상기 세부 속성 정보는, 각 약물의 BDSI(Binary data of Drug Structural Information), ISD(Index of Similarity between Drugs), IIPD(Index of Interaction between Protein and Drug), IISD(Index of Interaction Similarity between Drugs), ADMET(Absortion Distribution Metabolism Excretion Toxicity)을 포함할 수 있다.

본 발명의 일 실시 예에 따라, 상기 제2 데이터 셋은, 제1 출처로부터 수집된 제1 약물들 간 부작용 수준 데이터 및 제2 출처로부터 수집된 제2 약물들 간 부작용 수준 데이터를 포함하며, 상기 제1 약물들 간 부작용 수준 데이터 및 상기 제2 약물들 간 부작용 수준 데이터는 동일한 클래스를 서로 다른 표현들로 지시하며, 상기 동일한 클래스를 지시하는 서로 다른 표현들은, 상기 전처리를 통해 정규화될 수 있다.

본 발명의 일 실시 예에 따라, 상기 제3 데이터 셋은, 제1 약물 쌍의 부작용의 유형을 표현하는 제1 문장 및 제2 약물 쌍의 부작용의 유형을 표현하는 제2 문장을 포함하며, 상기 제1 문장 및 상기 제2 문장 각각은, 적어도 하나의 유형을 나타내는 표현을 포함하며, 상기 제1 문장 및 상기 제2 문장은, 동일한 의미의 유형을 지시하는 서로 다른 표현들을 포함하고, 동일한 의미의 유형을 지시하는 서로 다른 표현들은, 상기 전처리를 통해 하나의 용어로 대체될 수 있다.

본 발명의 일 실시 예에 따라, 상기 제2 데이터 셋은, 제1 약물 및 제2 약물의 순서로 조합된 약물 쌍에 대한 부작용 수준 정보를 포함하는 항목을 포함하며, 상기 전처리된 제2 데이터 셋은, 상기 방향성의 부여에 의해, 상기 제2 약물 및 상기 제1 약물의 순서로 조합된 약물 쌍에 대한 부작용 수준 정보를 더 포함하도록 가공될 수 있다.

본 발명의 일 실시 예에 따라, 상기 제3 데이터 셋은, 제1 약물 및 제2 약물의 순서로 조합된 약물 쌍에 대한 부작용 유형 정보를 포함하는 항목을 포함하며, 상기 전처리된 제3 데이터 셋은, 상기 방향성의 부여에 의해, 상기 제2 약물 및 상기 제1 약물의 순서로 조합된 약물 쌍에 대한 부작용 유형 정보를 더 포함하도록 가공될 수 있다.

본 발명의 일 실시 예에 따라, 상기 적어도 하나의 인공지능 모델은, 상기 부작용 수준을 예측하는 다중 입력 단일 출력의 제1 인공지능 모델 및 상기 부작용 유형을 예측하는 다중 입력 다중 출력의 제2 인공지능 모델을 포함할 수 있다.

본 발명의 일 실시 예에 따라, 상기 방법은, 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 나타내는 데이터를 다른 장치로 송신하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 약물들 간 상호작용(Drug-Drug Interaction, DDI)을 분석하는 장치는, 적어도 하나의 인공지능 모델을 저장한 메모리, 및 상기 메모리와 연결된 프로세서를 포함할 수 있다. 상기 프로세서는, 학습을 위한 데이터 셋(set)들로서, 약물들의 화학구조에 대한 제1 데이터 셋, 상기 약물들 간 부작용 수준(grade)에 대한 제2 데이터 셋, 상기 약물들 간 부작용 유형(type)에 대한 제3 데이터 셋을 획득하고, 상기 제1 데이터 셋을 전처리함으로써, 상기 약물들 각각의 세부 속성 정보를 생성하고, 상기 제2 데이터 셋을 전처리함으로써, 상기 제2 데이터 셋에 포함된 클래스를 정규화하고, 상기 제2 데이터 셋에 방향성을 부여하고, 상기 제3 데이터 셋을 전처리함으로써, 상기 제3 데이터 셋에 포함된 부작용 유형을 나타내는 표현들을 추출하고, 상기 표현들을 정규화하고, 상기 제3 데이터 셋에 방향성을 부여하고, 상기 전처리된 제1 데이터 셋, 상기 전처리된 제2 데이터 셋, 상기 전처리된 제3 데이터 셋을 이용하여 상기 적어도 하나의 인공지능 모델을 학습하고, 상기 적어도 하나의 인공지능 모델을 이용하여 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하도록 제어할 수 있다.

본 발명에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 발명의 상세한 설명의 예시적인 양상일 뿐이며, 본 발명의 범위를 제한하는 것은 아니다.

본 발명에 따르면, 약물들 간 상호작용(Drug-Drug Interaction, DDI) 분석에 필요한 시간적, 인적, 물적 자원의 소요가 감소될 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 약물들 간 상호작용(Drug-Drug Interaction, DDI) 분석 시스템의 구조를 도시한다.

도 2는 본 발명의 일 실시 예에 따른 시스템에 적용 가능한 인공 신경망의 구조를 도시한다.

도 3은 본 발명의 일 실시 예에 따른 시스템의 구조를 도시한다.

도 4는 본 발명의 일 실시 예에 따른 시스템에서 학습 데이터 및 독립 변인 획득의 개념을 도시한다.

도 5는 본 발명의 일 실시 예에 따른 시스템의 기능적 구조를 도시한다.

도 6은 본 발명의 일 실시 예에 따라 화학적 구조로부터 BDSI(Binary data of Drug Structural Information)를 도출하는 동작의 예를 도시한다.

도 7은 본 발명의 일 실시 예에 따라 화학적 구조로부터 ISD(Index of Similarity between Drug)를 도출하는 동작의 예를 도시한다.

도 8은 본 발명의 일 실시 예에 따라 속성 정보 및 수준/유형 정보를 매칭하는 동작의 예를 도시한다.

도 9는 본 발명의 일 실시 예에 따라 인공지능 모델을 학습 및 평가하는 동작의 예를 도시한다.

도 10a 및 도 10b는 본 발명의 일 실시 예에 따른 부작용 유형(type) 시스템을 위한 인공지능 모델의 예를 도시한다.

도 11a 및 도 11b는 본 발명의 일 실시 예에 따른 부작용 수준(grade) 시스템을 위한 인공지능 모델의 예를 도시한다.

도 12는 본 발명의 일 실시 예에 따른 부작용 수준 시스템을 위한 인공지능 모델의 예를 도시한다.

도 13는 본 발명의 일 실시 예에 따른 인공지능 모델의 예측-검증-학습의 순환적 동작을 도시한다.

도 14는 본 발명의 일 실시 예에 따른 부작용 유형 시스템을 위한 인공지능 모델의 예를 도시한다.

도 15는 본 발명의 일 실시 예에 따른 시스템에서 약물들 간 상호작용을 분석하기 위한 절차를 도시한다.

도 16은 본 발명의 일 실시 예에 따른 시스템에서 학습 및 예측을 위한 절차의 일 실시 예를 도시한다.

도 17은 본 발명의 일 실시 예에 따른 시스템에서 학습을 수행하는 절차의 일 실시 예를 도시한다.

도 18은 본 발명의 일 실시 예에 따른 시스템에서 예측을 수행하는 절차의 일 실시 예를 도시한다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 발명은 지능적 인공지능 알고리즘을 이용하여 약물들 간 상호작용(Drug-Drug Interaction, DDI)을 분석하기 위한 기술에 대해 제안한다. 구체적으로, 본 발명은 클라우드 환경, 로컬 환경 등 다양한 환경 하에서 약물들 간 상호작용을 분석하는 시스템을 제공하기 위한 것이다.

본 발명의 다양한 실시 예들에 따른 시스템은 'CombiRisk'라 명명될 수 있다. CombiRisk는 4차 산업의 핵심 기술인 빅데이터 및 인공지능 기술을 바탕으로 약물 간의 상호작용을 분석하여 사용자에게 복합제를 위한 적절한 약물 조합을 빠르게 예측 및 추천해줄 수 있는 시스템이다. 국내 및 국외의 약물 빅데이터와 딥러닝 기술 기반인 CombiRisk 시스템은 약물의 주성분 간의 적합성을 예측하는 의사 결정 지원 시스템으로서, 복합제 연구를 위한 시간, 인적, 물적 자원들을 보다 효율적으로 배치할 수 있도록 돕기 위한 것이다.

도 1은 본 발명의 일 실시 예에 따른 약물들 간 상호작용 분석 시스템의 구조를 도시한다.

도 1을 참고하면, 시스템은 통신망에 연결된 사용자 장치(110a), 사용자 장치(110b), 서버(120)를 포함한다. 도 1은 2개의 사용자 장치들(110a, 110b)를 예시하였으나, 3개 이상의 사용자 장치들이 존재할 수 있다.

사용자 장치(110a) 및 사용자 장치(110b)는 본 발명의 실시 예에 따른 시스템을 이용하여 약물들 간 상호작용 분석을 수행하고자 하는 사용자에 의해 사용되는 종단 장치이다. 사용자 장치(110a) 및 사용자 장치(110b)는 입력 데이터(예: 상호작용 분석의 대상인 약물들의 정보)를 획득하고, 입력 데이터를 통신 망을 통해 서버(120)로 송신할 수 있다. 사용자 장치들(110a, 110b) 각각은 통신을 위한 통신부, 데이터 및 프로그램을 저장하는 저장부, 정보를 표시하기 위한 표시부, 사용자의 입력을 위한 입력부, 제어를 위한 프로세서를 포함할 수 있다. 예를 들어, 사용자 장치들(110a, 110b) 각각은 시스템 접속을 위한 어플리케이션 또는 프로그램을 설치한 범용 장치(예: 스마트폰, 타블렛, 랩탑 컴퓨터, 데스크탑 컴퓨터) 또는 시스 전용 접속 단말일 수 있다.

서버(120)는 본 발명의 실시 예들에 따른 약물들 간 상호작용을 분석하기 위한 연산을 수행한다. 서버(120)는 약물들 간 상호작용 분석 시스템을 위한 다양한 기능들을 제공하며, 인공지능 모델을 운용할 수 있다. 본 발명에 적용 가능한 인공 신경망의 일 예는 이하 도 2를 참고하여 설명된다. 또한, 서버(120)는 학습 데이터를 이용하여 인공지능 모델을 위한 학습을 수행할 수 있다. 여기서, 서버(120)는 로컬 네트워크에 존재하는 로컬 서버이거나, 외부 망을 통해 연결되는 원격 접속 서버(예: 클라우드 서버)일 수 있다. 서버(120)는 통신을 위한 통신부, 데이터 및 프로그램을 저장하는 저장부, 제어를 위한 프로세서를 포함할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 시스템에 적용 가능한 인공 신경망의 구조를 도시한다. 도 2와 같은 인공 신경망은 서버(120)에 저장된 인공지능 모델들의 구조로 이해될 수 있다. 도 2를 참고하면, 인공 신경망은 입력 계층(input layer)(210), 적어도 하나의 은닉 계층(hidden layer)(220), 출력 계층(output layer)(230)으로 이루어진다. 계층들(210, 220, 230) 각각은 복수의 노드(node)들로 구성되어 있으며, 노드들 각각은 이전 계층에 속한 적어도 하나의 노드의 출력과 연결되어 있다. 각 노드는 이전 계층의 노드들의 각 출력 값과 그에 상응하는 연결 가중치(weight)를 내적(inner product)한 값에 바이어스(bias)를 더한 후, 비선형(non-linear)인 활성화 함수(activation function)와 곱한 출력 값을 다음 계층의 적어도 하나의 뉴런에게 전달한다. 각 계층은 입력 노드, 퍼셉트론, 출력 노드로 다시 구분될 수 있다.

도 2와 같은 인공 신경망은 학습(예: 기계 학습(machine learning), 딥 러닝(deep learning) 등)에 의해 형성될 수 있다. 또한, 본 발명의 다양한 실시 예에서 사용되는 인공 신경망 모델은 완전 합성곱 신경망(fully convolutional neural network), 합성곱 신경망(convolutional neural network), 순환 신경망(recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine, RBM) 및 심층 신뢰 신경망(deep belief neural network, DBN) 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 또는, 딥러닝 이외의 머신 러닝 방법도 포함할 수 있다. 또는 딥러닝과 머신 러닝을 결합한 하이브리드 형태의 모델도 포함할 수 있다. 예컨대, 딥러닝 기반의 모델을 적용하여 영상의 특징을 추출하고, 상기 추출된 특징에 기초하여 영상을 분류하거나 인식할 때는 머신 러닝 기반의 모델을 적용할 수도 있다. 머신 러닝 기반의 모델은 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 등을 포함할 수 있으나, 이에 한정되지 않는다.

*본 발명의 실시 예에 따른 시스템의 딥러닝을 위해, 심층 신경망(Deep Neural Network, DNN)이 적용될 수 있고, 약물동태(Pharmacokinetic, PK) 상에서 나타날 수 있는 약물 간의 상호작용이 예측될 수 있다. 즉, 본 발명의 실시 예에 따른 시스템은 약물들 간 상호작용 정보에 딥러닝 기술을 적용함으로써, 새로운 약물들 간의 상호작용에 의한 부작용의 위험 수준 및 유형을 예측하고, 예측된 결과를 제공한다. 이를 위해, 국내외에서 제공되는 DDI 정보들을 수집한 후, 자체 데이터베이스가 구축될 수 있고, 이를 기반으로 각 약물들의 특징들이 추출될 수 있다. 예를 들어, 약물의 특징들은 약물의 구조 정보, 약물 간 구조적 유사도, 흡수/분포/대사/배출/독성 정보(Absortion/ Distribution/ Metabolism/ Excretion/ Toxicity, ADMET), 단백질과의 상호작용 정보 등을 포함할 수 있다. 여기서, ADMET는 생체 내에서 약물의 분포를 묘사하는 기준으로서 사용되는 정보이다.

본 발명의 실시 예에 따른 시스템은, 이하 도 3과 같이, 위험도를 5-단계로 예측하는 DDI 수준(grade) 시스템과 어떤 유형의 DDI가 발생할 것인지 예측하는 DDI 유형(Type) 시스템으로 구성될 수 있다.

도 3은 본 발명의 일 실시 예에 따른 시스템의 구조를 도시한다. 도 3을 참고하면, 서버(120)는 DDI 유형 시스템(310), DDI 수준 시스템(320)을 포함한다. DDI 유형 시스템(310)은 드러그뱅크(dragbank) 데이터베이스에 기반하여 구현될 수 있다. DDI 수준 시스템(320)은 드러그뱅크 데이터베이스, 드럭스컴(drugscom) 데이터베이스, 건강보험심사평가원 복합처방 데이터베이스, 약물 복합제 데이터베이스, 병용금기 데이터베이스 등에 기반하여 구현될 수 있다.

DDI 유형 시스템(310)은 발생이 예상되는 DDI의 유형을 제공한다. 예를 들어, DDI 유형 시스템(310)은 영향받는 약물(subject drug)인 약물a 및 영향주는 약물(affecting drug)인 약물b가 조합될 때 특정 증상(예: 횡문근융해(rhabdomyolysis))의 위험(risk) 또는 심각성(severity)이 증가할 있음을 예측(predict)할 수 있다. DDI 유형 시스템(310)은 'RiskDescription 시스템', 'RiskDescription 시스템 모델', 'CombiType 시스템', 'CombiType 시스템 모델', '부작용 유형 시스템' 등으로 지칭될 수 있다.

DDI 수준 시스템(320)은 위험도를 예측하기 위한 DNN을 포함할 수 있다. DDI 수준 시스템(320)은 'RiskGrade 시스템', 'RiskGrade 시스템 모델', 'CombiGrade 시스템', 'CombiGrade 시스템 모델', '부작용 수준 시스템' 등으로 지칭될 수 있다. 본 발명의 일 실시 예에 따라, 위험도는 5개 레벨들로 분류될 수 있다. 예를 들어, 5개 레벨들로 분류된 위험도는 이하 [표 1]과 같다.

5-단계 위험도
단계 1	사용금지(contraindicated)
단계 2	심각(major)
단계 3	보통(moderate)
단계 4	사소함(minor)
단계 5	사용가능(available)

도 4는 본 발명의 일 실시 예에 따른 시스템에서 학습 데이터 및 독립 변인 획득의 개념을 도시한다. 도 4를 참고하면, 학습 데이터 및 독립 변인들은 약물의 화학적 구조로부터 획득될 수 있다. 약물a(410-1) 및 약물b(410-2)의 화학적 구조 정보를 분석함으로써, 약물a(410-1) 및 약물b(410-2)의 속성에 대한 세부 속성 정보(420-1, 420-2)가 획득될 수 있다. 예를 들어, 세부 속성 정보(420-1, 420-2)는 BDSI, ISD, IIPD, IISD, ADMET 등을 포함할 수 있다. 이후, 특성에 대한 정보(420-1, 420-2)에 기반하여 특징 벡터(feature vector)의 연접(concatenation)(430)이 생성된다. 특징 벡터의 연접(430)은 인공지능 모델의 학습 또는 예측 동작을 위해 사용될 수 있다.

본 발명의 다양한 실시 예들에 약물들 간 상호작용 예측 시스템은 복수의 DDI 데이터베이스들(예: Drugbank, Drugscom, 공공데이터포탈, 건강보험심사평가원, 한국의약품안전관리원 등)을 통합적으로 사용한다. 따라서, 한 종류의 데이터베이스에 치우침 없이, 인공지능 모델이 다양한 데이터를 이용하여 학습됨에 따라, 과적합의 위험이 현저히 낮아진다. 또한, 본 발명의 다양한 실시 예들에 약물들 간 상호작용 예측 시스템은 약물 간 상호작용의 결과를 예측할 수 있을 뿐만 아니라, 동시에 약물들 간 상호작용의 심각도를 예측할 수 있다. 이에 따라, 복합제 개발 및 약물 처방 등에 필요한 자원이 보다 효율적으로 활용될 수 있다. 또한, 본 발명의 다양한 실시 예들에 약물들 간 상호작용 예측 시스템은 약물 간 상호작용의 반응뿐만 아니라, 2가지 약물의 상호작용에 방향성까지 고려하여 영향주는 약물(subject drug) 및 영향받는 약물(affected drug)을 구분한 예측을 제공할 수 있다.

도 5는 본 발명의 일 실시 예에 따른 시스템의 기능적 구조를 도시한다. 도 5는 도 1의 서버(120)의 기능적 구성으로 이해될 수 있다.

도 5를 참고하면, 서버는 데이터 수집부(510), 전처리부(520), 데이터 분류부(530), 학습부(540), 인공지능 모델(550), 입력데이터 획득부(560), 분석부(570)를 포함한다.

데이터 수집부(510)는 학습을 위한 원본 데이터를 수집한다. 원본 데이터는 다양한 형태 및 내용의 데이터를 포함할 수 있다. 예를 들어, 원본 데이터는 유료 구매 데이터 및 공공 데이터를 포함할 수 있다. 일 실시 예에 따라, 원본 데이터는 3가지의 데이터 셋(set)들을 포함할 수 있다. 구체적으로, 원본 데이터는 약물 화학구조 데이터 셋, 약물 간 부작용 수준 데이터 셋, 약물 간 부작용 유형 데이터 셋을 포함할 수 있다.

전처리부(520)는 학습을 위해 원본 데이터를 가공한다. 다시 말해, 전처리부(520)는 원본 데이터를 학습 가능한 형태로 가공한다. 다양한 실시 예들에 따라, 전처리부(520)는 약물 구조 데이터 셋으로부터 약물의 속성을 나타내는 세부 속성 정보를 생성할 수 있다. 예를 들어, 세부 속성 정보는 BDSI(Binary data of Drug Structural Information), ISD(Index of Similarity between Drugs), IIPD(Index of Interaction between Protein and Drug), IISD(Index of Interaction Similarity between Drugs), ADMET(Absortion Distribution Metabolism Excretion Toxicity)을 포함할 수 있다. 본 발명의 다양한 실시 예들에 따라, 세부 속성 정보는 위 나열된 BDSI, ISD, IIPD, IISD, ADMET 외 다른 항목을 더 포함하거나, 또는 나열된 항목들 중 적어도 하나가 다른 항목으로 대체될 수 있다. 또한, 전처리부(520)는 약물 간 부작용 수준 데이터 셋, 약물 간 부작용 유형 데이터 셋을 미리 정의된 기준에 따라 정규화하고, 방향성을 부여하고, 약물의 세부 속성 정보와 매칭한 후, 독립 변인 및 종속 변인을 생성할 수 있다.

데이터 분류부(530)는 전처리된 데이터를 인공지능 모델(550)의 학습 절차에서의 용도에 따라 분류한다. 예를 들어, 데이터 분류부(530)는 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 분류할 수 있다. 구체적으로, 전처리된 데이터 중 60%는 학습 데이터로, 20%는 검증 데이터로, 20%는 테스트 데이터로 분류될 수 있다.

학습부(540)는 데이터 분류부(530)로부터 제공되는 학습 데이터, 검증 데이터, 테스트 데이터를 이용하여 인공지능 모델(550)의 학습 및 평가를 수행한다. 예를 들어, 도 9와 같이, 인공지능 모델(550)이 학습 및 평가될 수 있다. 도 9를 참고하면, 학습 데이터(910) 및 검증 데이터(920)를 이용하여 인공지능 모델(550)이 학습된 후, 테스트 데이터(930)를 이용하여 성능 평가가 이루어진다. 이때, 성능이 요구되는 기준(예: 임계 비율 이상의 정확도)을 충족하지 못하면, 재학습이 이루어질 수 있다. 재학습을 고려하여, 학습부(540)는 학습 데이터 및 검증 데이터를 일부만을 사용하여 학습을 수행하고, 테스트 데이터의 일부를 이용하여 평가를 수행한 후, 평가 결과에 따라 다른 일부를 이용하여 학습을 추가적으로 수행할 수 있다.

인공지능 모델(550)은 심층 신경망을 포함한다. 심층 신경망은 도 2를 참고하여 설명한 바와 같이, 입력 계층, 출력 계층을 포함하며, 적어도 하나의 은닉 계층을 포함한다. 각 계층은 적어도 하나의 입력 노드, 적어도 하나의 퍼셉트론, 적어도 하나의 출력 노드로 구성된다. 본 발명의 일 실시 예에 따라, 인공지능 개발 라이브러리를 활용하여 파이썬(Python) 기반의 Keras 라이브러리, phytoch 라이브러리 등을 활용하여 신경층을 쌓음으로써, 심층 신경망이 빠르게 구축될 수 있다. 예를 들어, 파이썬(Python) 기반의 Keras 라이브러리, phytoch 라이브러리, tensorflow 라이브러리 등이 활용되거나, 다른 프로그래밍 언어(예: JAVA, C 등)가 활용될 수 있다.

CombiRisk 시스템에 포함되는 DDI 유형 시스템(310), DDI 수준 시스템(320) 각각은 약 6 내지 8개 계층을 포함하도록 설계될 수 있다. 이때, 각 층은 배치 정규화(Batch Normalization) 층, 밀집(Dense) 층, 드랍아웃(Dropout) 층을 포함할 수 있다. 배치 정규화 층을 통해 데이터가 보다 학습하기에 좋은 상태로 변환되고, 밀집 층에서 학습이 이루어지고, 드랍아웃 층에서 과대적합 확률이 감소될 수 있다. 각 층의 퍼셉트론(뉴런) 개수는 최소 15개에서 최대 2048개 사이로 설계될 수 있다. 학습 데이터 내 클래스 간 불균형을 해소하기 위한 여러 알고리즘들이 적용 및 테스트되는 것이 바람직하다. 예를 들어, 예측이 잘되는 클래스의 손실(loss) 값은 낮추고, 예측이 잘되지 않는 클래스의 손실 값은 소폭 낮추게하는 포컬 로스(focal loss) 알고리즘이 적용될 수 있다. 이 경우, 예측이 잘되지 않는 클래스에 대해 더 집중적으로 학습이 수행된다.

입력데이터 획득부(560)는 예측 동작을 위해 인공지능 모델(550)에 입력되는 입력 데이터를 획득한다. 예를 들어, 입력 데이터는 약물 정보를 포함한다. 여기서, 약물 정보는 약물의 속성에 대한 세부 정보(예: BDSI, ISD, IIPD, IISD, ADMET 등)를 포함할 수 있다. 또는, 약물 정보는 약물 ID를 포함할 수 있다. 입력 데이터가 약물 ID인 경우, 도 5에 도시되지 아니하였으나, 입력 데이터를 전처리함으로써 세부 속성 정보를 생성하는 전처리부가 더 포함될 수 있다. 또는, 학습 데이터를 전처리하는 전처리부(520)이 입력 데이터를 전처리할 수 있다.

분석부(570)는 입력 데이터에 포함된 세부 속성 정보 또는 입력 데이터로부터 생성된 세부 속성 정보를 인공지능 모델(550)에 입력하고, 인공지능 모델(550)의 출력 데이터를 획득하고, 획득된 출력 데이터에 기반하여 분석 결과를 생성한다. 생성된 분석 결과는 내부에 저장되거나, 외부(예: 사용자 장치(110a), 사용자 장치(110b))로 송신될 수 있다.

본 발명의 일 실시 예에 따라, 약물 화학구조 데이터 셋은 약물 ID(identifier) 및 SMILES(Simplified Molecular Input Line Entry System)를 포함할 수 있다. 여기서, SMILES는 화학물질의 구조를 나타내는 문자열이다. SMILES는 매우 간결한 구조의 문자열 표기 방식에 따르며, 화합물의 구조적 특징을 압축적으로 추상화한 표현이다. SMILES에 따르면, 원자는 표준 원소기호로 나타내고, 수소원자는 가능한 모든 곳에 연결되어 있다 가정하여 표기 생략되고, 이웃한 원자는 바로 인접해서 기재하고, 2중결합은 '=' 으로, 3중결합은 '#'으로, 결합 가지은 괄호 '()'로 표현되고, 고리 구조는 서로 연결된 원자에 숫자를 표시함으로써 표현된다. 예를 들어, 에탄올의 SMILES 표현은 CCO, 벤젠의 SMILES 표현은 C1=CC=CC=C1, 안트라센의 SMILES 표현은 C1=CC=C2C=C3C=CC=CC3=CC2=C1이다. Pubchem, Drugbank 등의 화학 물질 데이터베이스로부터, 각 화합물의 SMILES이 획득될 수 있다. 다만, 데이터베이스마다 SMILES 형태에 차이가 존재하므로, 전처리가 필요할 수 있다. 다만, 전술한 SMILES는 화학구조 데이터 셋의 일 예이며, 다른 화학구조 데이터가 다양한 실시 예들을 위해 사용될 수 있따. 예를 들어, SMILES를 대체하거나 병행하여, 화합물 데이터 자료(mol file, mol2 file, sdf(structural-data file)), InChI(International Chemical Identifier), 화학식(Chemical Formula), 3D 구조(structure) 정보 등이 사용될 수 있다.

본 발명의 일 실시 예에 따라, 약물 간 부작용 수준 데이터 셋은 제1 약물 ID, 제2 약물 ID, 부작용 정도를 나타내는 수준 값을 포함한다. 수준 값은 미리 정의된 후보 값들 중 하나로서, 각 후보 값은 [표 1]에 나열된 레벨들 중 하나를 지시한다. 약물 간 부작용 유형 데이터 셋은 영향을 주는 제1 약물 ID, 영향을 받는 제2 약물 ID, 부작용 유형을 나타내는 유형 정보를 포함한다. 유형 정보는 제1 약물이 제2 약물에게 어떠한 부작용을 일으키는지를 기술한 문장으로 표현될 수 있다. 예를 들어, 유형 정보는 "sub-dug may decrease the anticoagulant activities of aff_drug", "sub-dug may decrease the antihypertensive activities of aff_drug", "sub-dug can cause a decrease in the absorption of aff_drug", "sub-dug can cause an increase in the absorption of aff_drug" 등으로 표현될 수 있다.

본 발명의 일 실시 예에 따라, 약물 간 부작용 수준 데이터 셋 및 약물 간 부작용 유형 데이터 셋은 약물 구조 데이터 셋에 포함된 약물들의 조합에 관련되므로, 약물 구조 데이터 셋에 포함되는 항목들보다 많은 항목들을 포함할 수 있다. 예를 들어, 약물 구조 데이터 셋이 13,000 여개의 약물 항목들의 구조 정보를 포함하는 경우, 약물 간 부작용 수준 데이터 셋 및 약물 간 부작용 유형 데이터 셋 각각은 약 1,500,000 여개의 상호작용 관련 항목들을 포함할 수 있다.

도 5를 참고하여 설명한 실시 예에서, 전처리부(520)는 약물의 화학구조로부터 BDSI, ISD, IIPD, IISD, ADMET를 포함하는 세부 속성 정보를 생성한다. 각 속성에 대해 설명하면 다음과 같다.

BDSI는 화합물들의 고유 정보를 나타내며, 약물에서의 분자의 특징이나 유사도를 확인하기 위해 디자인되는 정보이다. 전처리부(520)는 각 원소를 기준으로 거리에 따라 어떤 구조인지, 어떤 원소와 결합되어 있는지에 따라 각 값들을 계산하며, 계산된 값들을 이진(binary) 값으로 표현한다. 즉, BDSI는 주변 원소들을 이용하여 평균적인 분자 구조와 다양한 분자들의 특징을 나타낸다. 화학적 구조로부터 BDSI가 도출되는 과정의 예는 이하 도 6과 같다.

도 6은 본 발명의 일 실시 예에 따라 화학적 구조로부터 BDSI를 도출하는 동작의 예를 도시한다. 도 6은 화합물(610)에 대한 BDSI 생성을 예시한다. 도 6을 참고하면, 화합물(610)의 각 원소에 대하여, 거리 0, 2, 4 각각의 범위에서의 구조들(620)이 확인된다. 확인된 구조들(620)은 수치로 표현되는 ID들(630)로 변환된다. ID들(630)은 리스트 표현(640)으로 변환되고, 리스트 표현(640)에 포함되는 ID들에 대응하는 이진 값들이 해시 함수(hash function)에 의해 재배치됨으로써, BDSI(650)이 생성된다.

DBSI를 표현하기 위한 바이너리(binary)의 개수는 조절 가능하며, 이진 데이터이므로 빠른 연산이 가능하다는 장점을 가진다. 생성된 BSDI 데이터 셋의 일 예는 이하 [표 2]와 같다.

drug ID	BDSI
DB00006	{1, 0, 0, 0, 0 …, 0, 1, 0, 1, 0}
DB00007	{0, 0, 0, 0, 0 …, 0, 0, 0, 1, 0}
DB00014	{1, 0, 0, 1, 0 …, 0, 0, 0, 0, 0}
DB00027	{0, 0, 0, 0, 0 …, 0, 1, 0, 0, 0}
DB00035	{0, 0, 1, 0, 0 …, 0, 0, 0, 1, 0}
DB00050	{1, 0, 0, 0, 1 …, 0, 1, 0, 0, 0}
...	...

ISD는 BDSI에 기반하여 생성되며, 화합물의 구조적 유사도를 표현한다. 즉, 전처리부(520)는 BDSI에 의해 표현되는 분자 구조에 기반하여 약물들 간의 화합물 구조의 유사도를 계산한다. 약물 당 하나의 ISD 값이 생성된다. 예를 들어, 10,000개의 약물들이 존재하는 경우, 이하 도 7과 같이, 1개의 약물 당 10,000개의 유사도 값들을 가지게 되며, 유사도 값들을 순서대로 나열한 10,000개의 값들이 하나의 ISD를 구성한다. 도 7은 본 발명의 일 실시 예에 따라 화학적 구조로부터 ISD를 도출하는 동작의 예를 도시한다. 도 7을 참고하면, DB00007의 ID를 가지는 약물(710)에 대하여, 자신을 포함한 모든 약물들과의 유사도 값들(720)이 계산된다. 유사도 값들(730)을 미리 정의된 순서(예: 약물 ID 오름차순)로 나열함으로써, ISD 값(730)이 생성된다. 이러한 과정을 통해 생성된 ISD 데이터 셋의 일 예는 이하 [표 3]과 같다.

drug ID	ISD
DB00006	{1, 0.34234, 0.64534 … 0.756454}
DB00007	{0.34234, 1, 0.342425 … 0.123546}
DB00014	{0.64534, 0.342425, 1 … 0.856523}
DB00027	{0.133345, 0.623244, 0.136542 … 0.643534}
DB00035	{0.845634, 0.234562, 0.734211 … 0.892344}
DB00050	{0.522423, 0.642324, 0.718964 … 0.716342}
...	...

IIPD는 약물 및 단백질 간 반응을 표현하는 정보이다. 전처리부(520)는 BDSI에 의해 표현된 분자 구조에 기반하여 약물과 단백질 사이에서 일어나는 일련의 반응들을 수치화한다. 이를 위해, 약물과 단백질 간의 상호작용에 주요 역할을 하는 것으로 알려진 단백질들이 선정된다. 전처리부(520)는 약물과 단백질 구조에 따라 총 8가지 유형의 반응들에 대한 정보를 추출할 수 있다. 예를 들어, 8가지 유형의 반응들은, 소수성 접촉(hydrophobic contacts), 전면 대 전면 방향족(aromatic face to face), 경계 대 전면 방향족(aromatic edge to face), 단백질이 수소 결합 공여체로서의 수소 결합(hydrogen bond (protein as hydrogen bond donor), 단백질이 수소 결합 수용체로서의 수소 결합(hydrogen bond (protein as hydrogen bond acceptor)), 단백질이 양전하로 하전된 염다리(salt bridges (protein positively charged)), 단백질이 음전하로 하전된 염다리(salt bridges (protein negatively charged)), 금속 이온으로 이온 결합된 염다리(salt bridges (ionic bond with metal ion)) 등을 포함할 수 있다.IISD는 약물들 간 IIPD의 유사도를 나타내는 정보이다. 전처리부(520)는 IIPD에 기반하여 약물들 간 IIPD의 유사도를 계산한다. 예를 들어, 10,000개의 약물들이 존재하는 경우, 1개의 약물 당 10,000개의 유사도 값들을 가지며, 10,000개의 유사도 값들을 순서대로 나열한 결과가 하나의 약물의 IISD를 구성한다. 전처리부(520)는 약물 별로 IISD를 결정하고, 복수의 IISD들을 포함하는 IISD 데이터 셋을 생성한다.

ADMET은 약물 동태학 관점에서 시간에 따라 체내 약물 농도의 변화를 통해 약물의 흡수, 분배, 대사, 배출, 독성 등의 수준을 수치화한 정보이다. 전처리부(520)는 약물 구조 정보, 즉, SMILE로부터 약물의 분자적 특징(molecular feature)을 추출한 후, ADMET를 계산한다. 1개의 약물 당 6가지 범주들 각각을 의미하는 총 28개의 ADMET 값이 생성된다. 예를 들어, 28개의 ADMET 값들은 ①기초 물리 화학적 특성에 관련된 LogS, LodD, LogP, ②흡수에 관련된 Caco-2, Pgp-Inhibitor, HIA, F(20%), F(30%), ③분배에 관련된 PPB, VD, BBB, ④대사에 관련된 CYP1A2-Inhibitor, CYP 1A2-Substrate, CYP 3A4-Inhibitor, CYP 3A4-Substrate, CYP 2C9-Inhibitor, CYP 2C9-Substrate, CYP 2C19-Inhibitor, CYP 2C19-Substrate, CYP 2D6-Inhibitor, CYP 2D6-Substrate, ⑤배출에 관련된 Clearance, T1/2, ⑥독성에 관련된 hERG, H-HT, Ames, Skin sensitivity, LD50를 포함한다. 전처리부(520)는 약물 별로 ADMET 값 집합을 결정하고, 복수의 ADMET 값 집합들을 포함하는 IISD 데이터 셋을 생성한다.

전처리부(520)는 약물 간 부작용 수준 데이터 셋으로부터 DDI 수준 시스템(320)을 위한 학습 데이터를 생성한다. '0'(Major), '1'(Moderate), '2'(Minor)로 클래스가 구분된 원본 데이터베이스도 있지만, 다른 표현으로 클래스가 구분되는 원본 데이터 베이스 또는 클래스 구분이 따로 없는 원본 데이터베이스도 존재한다. 따라서, 전처리부(520)는 클래스 재분류를 위해 데이터베이스 특성을 분석하고, 분석 결과에 기반하여 전처리를 수행할 수 있다. 또한, 전처리부(520)는 데이터에 방향성을 부여할 수 있다. 예를 들어, "DB06605+DB00001→Grade 1"의 항목이 저장되어 있으면, 전처리부(520)는 "DB00001+DB06605→Grade 1"의 항목을 추가한다. 왜냐하면, "DB06605+DB00001→Grade 1"의 데이터만 학습할 경우, "DB00001+DB06605"의 조합을 입력하는 경우 Grade 1이 아닌 다른 결과가 예측될 수 있기 때문이다.

전처리부(520)는 약물 간 부작용 유형 데이터 셋으로부터 DDI 유형 시스템(310)을 위한 학습 데이터를 생성한다. 전처리부(520)는 약물 간 부작용 유형 데이터 셋에 포함되는 유형 정보로부터 부작용 유형을 추출한다. 예를 들어, 유형 정보가 "sub_drug may decrease effectiveness of aff_drug"인 경우, 전처리부(520)는 'decrease', 'effectiveness'를 추출할 수 있다. 다른 예로, 유형 정보가 "sub_drug may increase the QTc-prolonging activities of aff_drug"인 경우, 전처리부(520)는 'increase', 'QTc-prolonging'를 추출할 수 있다. 그리고, 전처리부(520)는 부작용 유형을 분석하고, 전처리를 수행한다. 예를 들어, 전처리부(520)는 동의어, 유사 부작용 등을 통일된 용어로 정리할 수 있다. 또한, 전처리부(520)는 데이터에 방향성을 부여할 수 있다. 예를 들어, "DB06605+DB00001→increase, QTc-prolonging"의 항목이 존재하면, 전처리부(520)는, DB06605는 영향받는 약물(sub_drug), DB0001는 영향주는 약물(aff_drug)이라는 의미로, '0'이라는 방향성 값을 부여할 수 있다. 더불어, 전처리부(520)는 "DB00001+DB06605→increase, QTc-prolonging"의 항목을 추가하고, DB0001은 영향주는 약물(aff_drug), DB06605는 영향받는 약물(sub_drug)이라는 의미로 '1'이라는 방향성 값을 부여할 수 있다. 즉, 방향성 값 '0'은 영향받는 약물이 전자, 영향주는 약물이 후자인 조합을 의미하고, 방향성 값 '1'은 영향주는 약물이 전자, 영향받는 약물이 후자인 조합을 의미한다.

전술한 바와 같이, 전처리부(520)는 원본 데이터에 대한 전처리를 수행한다. 이후, 데이터는 독립 변인 및 종속 변인으로 분리된다. 독립 변인 및 종속 변인을 결정하기 위해, 전처리부(520)는 약물의 화학구조로부터 BDSI, ISD, IIPD, IISD, ADMET 등의 세부 속성 정보 및 수준/유형 데이터를 매칭할 수 있다. 매칭 동작은 도 8과 같다.

도 8은 본 발명의 일 실시 예에 따라 속성 정보 및 수준/유형 정보를 매칭하는 동작의 예를 도시한다. 도 8을 참고하면, 먼저 약물들이 화학구조 정보(예: SMILES)로부터 생성된 약물 ID 별 BDSI, ISD, IIPD, IISD, ADMET를 포함하는 약물 ID 별 세부 속성 정보(810)가 생성된다. 이어, 약물 ID 쌍(pair) 별 DDI 수준 데이터(820a) 및 약물 ID 쌍 별 DDI 유형 데이터(820b)가 약물 ID 별 세부 속성 정보(810)와 매칭된다. 매칭에 의해, BDSI 쌍 별 DDI 수준/유형 데이터(830a), ISD 쌍 별 DDI 수준/유형 데이터(830b), IIPD 쌍 별 DDI 수준/유형 데이터(830c), IISD 쌍 별 DDI 수준/유형 데이터(830d), ADMET 쌍 별 DDI 수준/유형 데이터(830e)가 생성된다. 예를 들어, BDSI 쌍 별 DDI 수준/유형 데이터(830a)는 이하 [표 4] 및 [표 5]와 같다.

subject drug ID	affected drug ID	label
{1, 0, 0, 0, 0 …, 0, 1, 0, 1, 0}	{1, 0, 0, 1, 0 …, 0, 0, 0, 0, 0}	0
{1, 0, 0, 0, 0 …, 0, 1, 0, 1, 0}	{0, 0, 1, 0, 0 …, 0, 0, 0, 1, 0}	0
{0, 0, 1, 0, 0 …, 0, 0, 0, 1, 0}	{1, 0, 0, 1, 0 …, 0, 0, 0, 0, 0}	1
{0, 0, 1, 0, 0 …, 0, 0, 0, 1, 0}	{1, 0, 0, 0, 1,…, 0, 1, 0, 0, 0}	1
{1, 0, 0, 0, 0 …, 0, 1, 0, 1, 0}	{1, 0, 0, 0, 1,…, 0, 1, 0, 0, 0}	2
...	...	...

subject drug ID	affected drug ID	modified summary
{1,0,0,0,0 …,0,1,0,1,0}	{1,0,0,1,0 …,0,0,0,0,0}	The therapeutic efficacy ...
{1,0,0,0,0 …,0,1,0,1,0}	{0,0,1,0,0 …,0,0,0,1,0}	The therapeutic efficacy ...
{0,0,1,0,0 …,0,0,0,1,0}	{1,0,0,1,0 …,0,0,0,0,0}	subject drug can cause ...
{0,0,1,0,0 …,0,0,0,1,0}	{1,0,0,0,1,…,0,1,0,0,0}	subject drug can cause ...
{1,0,0,0,0 …,0,1,0,1,0}	{1,0,0,0,1,…,0,1,0,0,0}	subject drug may decrease ...
...	...	...

ISD 쌍 별 DDI 수준/유형 데이터(830b), IIPD 쌍 별 DDI 수준/유형 데이터(830c), IISD 쌍 별 DDI 수준/유형 데이터(830d), ADMET 쌍 별 DDI 수준/유형 데이터(830e)도 [표 4] 및 [표 5]와 유사한 형태로 구성될 수 있다. 즉, 수준/유형 데이터에서 약물 ID 열을 해당 약물의 ISD, IIPD, IISD, ADMET으로 대체함으로써, ISD 쌍 별 DDI 수준/유형 데이터(830b), IIPD 쌍 별 DDI 수준/유형 데이터(830c), IISD 쌍 별 DDI 수준/유형 데이터(830d), ADMET 쌍 별 DDI 수준/유형 데이터(830e)가 생성될 수 있다.전처리부(520)는 매칭을 통해 생성된 데이터 셋들로부터 독립 변인 및 종속 변인을 결정한다. 예를 들어, 약물 쌍(pair)에 대한 BDSI, ISD, IIPD, IISD, ADMET 등의 독립 변인들이 이하 [표 6] 내지 [표 10]과 같이 생성될 수 있다.

subject drug ID	affected drug ID
DB06605_BDSI	DB00001_BDSI
DB06695_BDSI	DB00001_BDSI
DB01254_BDSI	DB00001_BDSI
DB00001_BDSI	DB01609_BDSI
DB00001_BDSI	DB01586_BDSI
DB00001_BDSI	DB02659_BDSI
...	...

[표 6]에서, 'DB*****_DBSI'는 약물 ID가 DB*****인 약물의 BDSI 값을 의미한다.

subject drug ID	affected drug ID
DB06605_ISD	DB00001_ISD
DB06695_ISD	DB00001_ISD
DB01254_ISD	DB00001_ISD
DB00001_ISD	DB01609_ISD
DB00001_ISD	DB01586_ISD
DB00001_ISD	DB02659_ISD
...	...

[표 7]에서, 'DB*****_ISD'는 약물 ID가 DB*****인 약물의 ISD 값을 의미한다.

subject drug ID	affected drug ID
DB06605_IIPD	DB00001_IIPD
DB06695_IIPD	DB00001_IIPD
DB01254_IIPD	DB00001_IIPD
DB00001_IIPD	DB01609_IIPD
DB00001_IIPD	DB01586_IIPD
DB00001_IIPD	DB02659_IIPD
...	...

[표 8]에서, 'DB*****_IIPD'는 약물 ID가 DB*****인 약물의 IIPD 값을 의미한다.

subject drug ID	affected drug ID
DB06605_IISD	DB00001_IISD
DB06695_IISD	DB00001_IISD
DB01254_IISD	DB00001_IISD
DB00001_IISD	DB01609_IISD
DB00001_IISD	DB01586_IISD
DB00001_IISD	DB02659_IISD
...	...

[표 9]에서, 'DB*****_IISD'는 약물 ID가 DB*****인 약물의 IISD 값을 의미한다.

subject drug ID	affected drug ID
DB06605_ADMET	DB00001_ADMET
DB06695_ADMET	DB00001_ADMET
DB01254_ADMET	DB00001_ADMET
DB00001_ADMET	DB01609_ADMET
DB00001_ADMET	DB01586_ADMET
DB00001_ADMET	DB02659_ADMET
...	...

[표 10]에서, 'DB*****_ADMET'는 약물 ID가 DB*****인 약물의 ADMET 값을 의미한다.그리고, 수준 및 유형에 대한 항목들이 종속 변인으로서 추출된다. 예를 들어, 이하 [표 11]과 같은 단일 출력의 수준 클래스, 이하 [표 12]와 같은 다중 출력의 유형 클래스를 포함하는 종속 변인들이 생성될 수 있다.

label
0
0
1
1
2
2
...

QTc-Prolonging	hepatotoxic	liver damage	infection	hypothyroid	hypomania	hyperthemia	hyperkalemic	hypertension	...
0	0	1	0	0	0	1	0	0	...
0	0	1	0	0	1	0	0	0	...
0	0	0	0	0	0	0	0	1	...
0	0	0	0	1	0	0	0	0	...
1	0	0	0	0	0	1	0	0	...
1	0	0	0	0	0	0	0	1	...
...	...	...	...	...	...	...	...	...	...

도 10a 및 도 10b는 본 발명의 일 실시 예에 따른 부작용 유형 시스템을 위한 인공지능 모델의 예를 도시한다. 도 10a 및 도 10b는 DDI 유형 시스템(310)을 위한 인공지능 모델을 예시한다. 도 10a 및 도 10b는 참고하면, 전처리 과정(1010)에 의해, 약물 SMILES 데이터(1002)로부터 BDSI, ISD, IIPD, IISD, ADMET를 포함하는 세부 속성 정보(1004)가 결정된다. 세부 속성 정보(1004)가 인공지능 모델(1020)에 학습 데이터로서 제공된다. 인공지능 모델(1020)은 복수의 계층들을 포함하며, 각 계층은 배치 정규화(Batch Normalization, BN) 층, 밀집(Dense) 층, 드랍아웃(Dropout) 층을 포함한다. 인공지능 모델(1020)을 이용한 예측에 의해 부작용 유형(1008)이 결정된다. 부작용 유형(1008)은 다중 출력의 형태를 가진다. 약물 간 부작용 유형 데이터(1006)는 전처리 과정(1030)을 거친 후, 인공지능 모델(1020)의 출력 계층으로 제공되고, 역전파(back-propagation) 연산에 의해 인공지능 모델(1020)이 학습된다. 여기서, 출력 계층의 구조는 종속 변인의 형태에 의존할 수 있다.

도 11a 및 도 11b는 본 발명의 일 실시 예에 따른 부작용 수준 시스템을 위한 인공지능 모델의 예를 도시한다. 도 11a 및 도 11b는 DDI 수준 시스템(320)을 위한 인공지능 모델을 예시한다. 도 11을 참고하면, 전처리 과정(1110)에 의해, 약물 SMILES 데이터(1102)로부터 BDSI, ISD, IIPD, IISD, ADMET를 포함하는 세부 속성 정보(1104)가 결정된다. 세부 속성 정보(1104)가 인공지능 모델(1120)에 학습 데이터로서 제공된다. 인공지능 모델(1120)은 복수의 계층들을 포함하며, 각 계층은 배치 정규화(Batch Normalization, BN) 층, 밀집(Dense) 층, 드랍아웃(Dropout) 층을 포함한다. 인공지능 모델(1120)을 이용한 예측에 의해 부작용 수준(1108)이 결정된다. 부작용 수준(1108)은 단일 출력의 형태를 가진다. 약물 간 부작용 수준 데이터(1106)는 전처리 과정(1130)을 거친 후, 인공지능 모델(1120)의 출력 계층으로 제공되고, 역전파(back-propagation) 연산에 의해 인공지능 모델(1120)이 학습된다. 여기서, 출력 계층의 구조는 종속 변인의 형태에 의존할 수 있다.

도 12는 본 발명의 일 실시 예에 따른 부작용 수준 시스템을 위한 인공지능 모델의 예를 도시한다. 도 12를 참고하면, 부작용 수준 시스템을 위한 인공지능 모델(1250)은 다중 입력, 단일 출력의 형태를 가진다. 이에 따라, BDSI, ISD, IIPD, IISD, ADMET를 포함하는 입력 데이터(1202)가 입력되면, 하나의 부작용 수준을 나타내는 출력 데이터(1204)가 출력된다. 인공지능 모델(1250)은 약물 쌍의 BDSI, ISD, IIPD, IISD, ADMET 등 독립 변인들의 패턴을 분석함으로서, 수준 클래스(grade class)를 예측한다. 추가적으로, 도 13과 같이, 인공지능 모델(1250)은 예측(1301) 결과를 스스로 검증(1303)하고, 검증 내용을 피드백하면서 학습(1305)을 더 진행할 수 있다. 예를 들어, 예측 결과가 『Drug_1, Drug_2 → Class '1'』이면, 해석은 『약물 1번과 약물 2번은 함께 사용 시 '보통 수준'의 부작용 발생 확률 있음』이다.

도 14는 본 발명의 일 실시 예에 따른 부작용 유형 시스템을 위한 인공지능 모델의 예를 도시한다. 도 14를 참고하면, 부작용 유형 시스템을 위한 인공지능 모델(1450)은 다중 입력, 다중 출력의 형태를 가진다. 이에 따라, BDSI, ISD, IIPD, IISD, ADMET를 포함하는 입력 데이터(1402)가 입력되면, 복수의 항목들로 표현되는 부작용 유형을 나타내는 출력 데이터(1404)가 출력된다. 인공지능 모델(1450)은 약물 쌍의 BDSI, ISD, IIPD, IISD, ADMET 등 독립변인들의 패턴을 분석하고, 유형 클래스들을 예측한다. 예를 들어, 예측 결과가 『Drug_1(subject_drug), Drug_2(affected_drug) → Type : 'increase', Type : 'CNS depression', Type : 'hypotesion'』이면, 해석은 『약물 1번은 약물 2번의 영향으로 함께 사용 시 '중추신경계 저하'와 '저혈압' 부작용이 '증가'할 확률이 있음』이다.

도 15는 본 발명의 일 실시 예에 따른 시스템에서 약물들 간 상호작용을 분석하기 위한 절차를 도시한다. 도 15를 참고하면, 부작용의 수준(Grade)과 유형(Type)을 예측하고자 하는 1쌍의 약물들(예: 약물1(1502-1), 약물2(1502-2))이 수준을 판단하는 RiskGrade 시스템 모델(1550a) 및 유형을 판단하는 RiskDescription 시스템 모델(1550b)로 입력된다. 입력되는 데이터는 해당 약물의 BDSI, ISD, IIPD, IIPDSP, ADMET 등 모델이 학습에 사용되었던 속성 데이터를 포함한다. RiskGrade 시스템 모델(1550a) 및 유형을 판단하는 RiskDescription 시스템 모델(1550b) 각각은 예측 결과들(1504-1, 1504-2)을 출력한다. 예측 결과들(1504-1, 1504-2)에 기반하여, 약물 간 부작용의 수준 및 유형을 예측한 결론(1506)이 얻어진다.

RiskDescription 시스템 모델(1550b)는 방향성도 예측하므로, 어느 약물의 영향으로 다른 약물의 부작용이 어떻게 변화하는지를 제공한다. 예를 들어, RiskGrade 시스템 모델(1550a)은 『Drug_1, Drug_2 → Class '1'』의 예측 결과를, RiskDescription 시스템 모델(1550b)은 『Drug_1(subject_drug), Drug_2(affected_drug) → Type : 'increase', Type : 'CNS depression', Type : 'hypotesion』의 예측 결과를 출력할 수 있다. 이 경우, 결론(1506)은 『약물 1번과 약물 2번은 함께 사용 시 '보통 수준'의 부작용 발생확률이 있으며, 약물 2번의 영향으로 약물 1번의 '중추신경계 저하'와 '저혈압' 부작용이 '증가'할 수 있다』를 포함할 수 있다.

도 16은 본 발명의 일 실시 예에 따른 시스템에서 학습 및 예측을 위한 절차의 일 실시 예를 도시한다. 이하 설명에서, 동작 주체는 '장치'로 설명되나, 후술되는 동작들은 서버 또는 사용자 장치에 의해 수행될 수 있다.

도 16을 참고하면, S1601 단계에서, 장치는 데이터를 획득한다. 데이터는 학습을 위한 데이터로서, 예를 들어, 약물 화학구조 데이터 셋, 약물 간 부작용 수준 데이터 셋, 약물 간 부작용 유형 데이터 셋을 포함할 수 있다.

S1603 단계에서, 장치는 학습을 수행한다. 학습을 수행하기 위해, 장치는 데이터에 대한 전처리를 수행하고, 전처리된 데이터를 이용하여 학습을 수행할 수 있다.

S1605 단계에서, 장치는 예측을 수행한다. 즉, 장치는 학습된 인공지능 모델을 이용하여 분석하고자 하는 약물 쌍에 대한 정보를 포함하는 입력 데이터로부터 예측 결과를 포함하는 출력 데이터를 획득한다. 이때, 장치는 인공지능 모델에 입력 가능한 형식으로 약물 쌍에 대한 정보를 전처리할 수 있다.

도 17은 본 발명의 일 실시 예에 따른 시스템에서 학습을 수행하는 절차의 일 실시 예를 도시한다. 이하 설명에서, 동작 주체는 '장치'로 설명되나, 후술되는 동작들은 서버 또는 사용자 장치에 의해 수행될 수 있다.

도 17을 참고하면, S1701 단계에서, 장치는 화학구조에 기반하여 세부 속성 정보를 결정한다. 즉, 약물 화학구조 데이터에 대한 전처리로서, 장치는 약물의 화학구조에 기반하여 세부 속성 정보, 예를 들어, BDSI, ISD, IIPD, IISD, ADMET 중 적어도 하나의 속성 정보를 생성한다.

S1703 단계에서, 장치는 등급 데이터에 대해 클래스를 재분류하고, 방향성을 부여한다. 즉, 약물 간 부작용 유형 데이터에 대한 전처리로서, 장치는 미리 정의된 형식으로 수준 클래스 값들을 재분류한다. 즉, 장치는 미리 정의된 형식에 따라 서로 다른 출처(source)들로부터 수집된 약물 조합에 따른 수준 정보를 통일된 형식으로 정규화한다. 그리고, 장치는 데이터 셋에 약물 조합의 순서를 변경한 항목을 추가함으로써, 방향성을 부여한다.

S1705 단계에서, 장치는 유형 데이터로부터 부작용 유형을 추출하고, 표현을 정리하고, 방향성을 부여한다. 즉, 약물 간 부작용 수준 데이터에 대한 전처리로서, 장치는 문장 형식의 데이터로부터 유형을 표현하는 키워드들을 추출한다. 그리고, 장치는 동의어, 유사어 관계에 있는 표현들을 대표 표현으로 대체한다. 또한, 장치는 데이터 셋에 약물 조합의 순서를 변경한 항목을 추가함으로써, 방향성을 부여한다.

S1707 단계에서, 장치는 전처리된 데이터에 기반하여 학습을 수행한다. 이를 위해, 장치는 전처리된 데이터 셋들을 매칭함으로써 약물의 속성 조합 및 부작용 유형/수준을 맵핑한 데이터 셋을 생성한다. 그리고, 장치는 생성된 데이터 셋을 이용하여 학습을 수행한다. 즉, 장치는 약물의 속성 조합들을 독립 변인으로, 부작용 유형/수준을 종속 변인으로 가지는 학습 데이터를 이용하여 학습을 수행한다. 다시 말해, 장치는 부작용 유형/수준으로 라벨링(labeling)된 약물의 속성 조합 정보를 학습 데이터로서 사용하여 인공지능 모델에 대한 학습을 수행한다. 즉, 장치는 학습 데이터를 이용하여 예측을 수행한 후, 역전파 동작을 통해 인공지능 모델의 가중치를 갱신한다.

도 18은 본 발명의 일 실시 예에 따른 시스템에서 예측을 수행하는 절차의 일 실시 예를 도시한다. 이하 설명에서, 동작 주체는 '장치'로 설명되나, 후술되는 동작들은 서버 또는 사용자 장치에 의해 수행될 수 있다.

도 18을 참고하면, S1801 단계에서, 장치는 입력 데이터를 획득한다. 입력 데이터는 장치에 구비된 입력 수단(예: 키보드 등의 입력 장치, 외부 저장 매체와 연결 가능한 포트, 통신 망을 통한 신호를 수신하는 인터페이스 등)을 통해 입력될 수 있다.

S1803 단계에서, 장치는 입력 데이터에 포함된 약물의 화학구조를 확인한다. 이때, 입력 데이터가 화학구조 정보(예: SMILES)를 포함하지 아니하고, 약물의 식별 정보(예: 명칭, ID 등)을 포함하면, 장치는 식별 정보에 대응하는 화학구조를 내부 또는 외부의 데이터베이스로부터 검색할 수 있다. 이를 위해, 장치는 데이터베이스에 접속하고, 약물의 식별 정보를 포함하는 요청을 송신한 후, 응답으로서 화학구조 정보를 수신할 수 있다.

S1805 단계에서, 장치는 화학구조에 기반하여 약물의 세부 속성 정보를 결정한다. 장치는 약물의 화학구조에 기반하여 세부 속성 정보, 예를 들어, BDSI, ISD, IIPD, IISD, ADMET 중 적어도 하나의 속성 정보를 생성한다.

S1807 단계에서, 장치는 예측을 통해 출력 데이터를 획득한다. 장치는 인공지능 모델을 이용하여 한 쌍의 약물들의 세부 속성 정보로부터 예측 결과를 포함하는 출력 데이터를 생성한다. 여기서, 출력 데이터는 예측 결과로서 부작용 수준 데이터 및 부작용 유형 데이터 중 적어도 하나를 포함할 수 있다. 다른 실시 예에 따라, 출력 데이터는 사용자가 보다 용이하게 이해할 수 있는 문자화된 결과로 변환될 수 있다.

S1809 단계에서, 장치는 출력 데이터를 제공한다. 여기서, 출력 데이터는 분석을 요청 또는 명령한 사용자에게 제공된다. 예를 들어, 출력 데이터는 장치에 구비된 출력 수단(예: 스크린 등)을 통해 시각적으로 출력되거나, 또는 외부 장치로 송신될 수 있다.

본 발명의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 발명에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.

본 발명의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 발명의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.

또한, 본 발명의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

본 발명의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다

Claims

약물들 간 상호작용(Drug-Drug Interaction, DDI)을 분석하는 방법에 있어서,

상기 약물들 간 상호작용을 분석하기 위해 구성된 프로세서에서, 학습을 위한 데이터 셋(set)들로서, 약물들의 화학구조에 대한 제1 데이터 셋, 상기 약물들 간 부작용 수준(grade)에 대한 제2 데이터셋, 상기 약물들 간 부작용 유형(type)에 대한 제3 데이터 셋을 획득하는 단계;

상기 프로세서에서, 상기 제1 데이터 셋을 전처리함으로써, 상기 약물들 각각의 세부 속성 정보를 생성하는 단계;

상기 프로세서에서, 상기 제2 데이터 셋을 전처리함으로써, 상기 제2 데이터 셋에 포함된 클래스를 정규화하고, 상기 제2 데이터셋에 방향성을 부여하는 단계;

상기 프로세서에서, 상기 제3 데이터 셋을 전처리함으로써, 상기 제3 데이터 셋에 포함된 부작용 유형을 나타내는 표현들을 추출하고, 상기 표현들을 정규화하고, 상기 제3 데이터셋에 방향성을 부여하는 단계;

상기 프로세서에서, 상기 전처리된 제1 데이터 셋, 상기 전처리된 제2 데이터 셋, 상기 전처리된 제3 데이터 셋을 이용하여 메모리에 저장된 적어도 하나의 인공지능 모델을 학습하는 단계; 및

상기 프로세서에서, 상기 적어도 하나의 인공지능 모델을 이용하여 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하는 단계를 포함하는 방법.
청구항 1에 있어서,

상기 적어도 하나의 인공지능 모델을 학습하는 단계는,

상기 프로세서에서, 상기 전처리된 제1 데이터 셋을 상기 전처리된 제2 데이터 셋 및 상기 전처리된 제3 데이터 셋과 매칭함으로써, 약물의 속성 조합에 대하여 부작용 수준 및 유형을 맵핑한 학습 데이터 셋을 생성하는 단계를 포함하는 방법.
청구항 1에 있어서,

상기 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하는 단계는,

상기 프로세서에서, 상기 한 쌍의 약물들의 정보를 전처리함으로써, 상기 한 쌍의 약물들 각각의 세부 속성 정보를 생성하는 단계; 및

상기 프로세서에서, 상기 세부 속성 정보를 상기 적어도 하나의 인공지능 모델의 입력 데이터로서 입력하는 단계를 포함하는 방법.
청구항 1에 있어서,

상기 세부 속성 정보는, 각 약물의 BDSI(Binary data of Drug Structural Information), ISD(Index of Similarity between Drugs), IIPD(Index of Interaction between Protein and Drug), IISD(Index of Interaction Similarity between Drugs), ADMET(Absortion Distribution Metabolism Excretion Toxicity)을 포함하는 방법.
청구항 1에 있어서,

상기 제2 데이터 셋은, 제1 출처로부터 수집된 제1 약물들 간 부작용 수준 데이터 및 제2 출처로부터 수집된 제2 약물들 간 부작용 수준 데이터를 포함하며,

상기 제1 약물들 간 부작용 수준 데이터 및 상기 제2 약물들 간 부작용 수준 데이터는 동일한 클래스를 서로 다른 표현들로 지시하며,

상기 동일한 클래스를 지시하는 서로 다른 표현들은, 상기 전처리를 통해 정규화되는 방법.
청구항 1에 있어서,

상기 제3 데이터 셋은, 제1 약물 쌍의 부작용의 유형을 표현하는 제1 문장 및 제2 약물 쌍의 부작용의 유형을 표현하는 제2 문장을 포함하며,

상기 제1 문장 및 상기 제2 문장 각각은, 적어도 하나의 유형을 나타내는 표현을 포함하며,

상기 제1 문장 및 상기 제2 문장은, 동일한 의미의 유형을 지시하는 서로 다른 표현들을 포함하고,

동일한 의미의 유형을 지시하는 서로 다른 표현들은, 상기 전처리를 통해 하나의 용어로 대체되는 방법.
청구항 1에 있어서,

상기 제2 데이터 셋은, 제1 약물 및 제2 약물의 순서로 조합된 약물 쌍에 대한 부작용 수준 정보를 포함하는 항목을 포함하며,

상기 전처리된 제2 데이터 셋은, 상기 방향성의 부여에 의해, 상기 제2 약물 및 상기 제1 약물의 순서로 조합된 약물 쌍에 대한 부작용 수준 정보를 더 포함하도록 가공되는 방법.
청구항 1에 있어서,

상기 제3 데이터 셋은, 제1 약물 및 제2 약물의 순서로 조합된 약물 쌍에 대한 부작용 유형 정보를 포함하는 항목을 포함하며,

상기 전처리된 제3 데이터 셋은, 상기 방향성의 부여에 의해, 상기 제2 약물 및 상기 제1 약물의 순서로 조합된 약물 쌍에 대한 부작용 유형 정보를 더 포함하도록 가공되는 방법.
청구항 1에 있어서,

상기 적어도 하나의 인공지능 모델은, 상기 부작용 수준을 예측하는 다중 입력 단일 출력의 제1 인공지능 모델 및 상기 부작용 유형을 예측하는 다중 입력 다중 출력의 제2 인공지능 모델을 포함하는 방법.
청구항 1에 있어서,

상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 나타내는 데이터를 다른 장치로 송신하는 단계를 더 포함하는 방법.
약물들 간 상호작용(Drug-Drug Interaction, DDI)을 분석하는 장치에 있어서,

적어도 하나의 인공지능 모델을 저장한 메모리; 및

상기 메모리와 연결된 프로세서를 포함하고,

학습을 위한 데이터 셋(set)들로서, 약물들의 화학구조에 대한 제1 데이터 셋, 상기 약물들 간 부작용 수준(grade)에 대한 제2 데이터셋, 상기 약물들 간 부작용 유형(type)에 대한 제3 데이터 셋을 획득하고,

상기 제1 데이터 셋을 전처리함으로써, 상기 약물들 각각의 세부 속성 정보를 생성하고,

상기 제2 데이터 셋을 전처리함으로써, 상기 제2 데이터 셋에 포함된 클래스를 정규화하고, 상기 제2 데이터셋에 방향성을 부여하고,

상기 제3 데이터 셋을 전처리함으로써, 상기 제3 데이터 셋에 포함된 부작용 유형을 나타내는 표현들을 추출하고, 상기 표현들을 정규화하고, 상기 제3 데이터셋에 방향성을 부여하고,

상기 전처리된 제1 데이터 셋, 상기 전처리된 제2 데이터 셋, 상기 전처리된 제3 데이터 셋을 이용하여 상기 적어도 하나의 인공지능 모델을 학습하고, 및

상기 적어도 하나의 인공지능 모델을 이용하여 한 쌍의 약물들의 정보로부터 상기 한 쌍의 약물들 간 부작용의 수준 및 유형을 결정하도록 제어하는 장치.