EA005286B1

EA005286B1 - Способ работы компьютерной системы для осуществления дискретного субструктурного анализа

Info

Publication number: EA005286B1
Application number: EA200300475A
Authority: EA
Inventors: Деннис Черч; Жак Колинж
Original assignee: Апплайд Резеч Системз Арс Холдинг Н.В.
Priority date: 2000-10-17
Filing date: 2001-10-16
Publication date: 2004-12-30
Also published as: EP1366440A2; NO20031730D0; HUP0302507A2; BR0114987A; JP2007137887A; US20040083060A1; SK4682003A3; IL155332A0; BG107717A; KR20030059196A; CA2423672A1; MXPA03003422A; CN1493051A; EA200300475A1; YU25603A; AU2002215028B2; EE200300150A; HUP0302507A3; NO20031730L; WO2002033596A3

Abstract

Настоящее изобретение предусматривает способ работы компьютерной системы и соответствующую компьютерную систему для осуществления дискретного субструктурного анализа. Сначала осуществляется доступ к базе данных молекулярных структур. База данных подвергается просмотру на предмет информации о молекулярных структурах и биологических и/или химических свойствах. В указанной базе данных идентифицируется набор молекул, которые имеют заданное биологическое и/или химическое свойство. Затем определяются фрагменты молекул в указанном поднаборе и вычисляется значение количественных показателей, демонстрирующее вклад соответствующего фрагмента в указанное заданное биологическое и/или химическое свойство. Наконец, осуществляется итерационный процесс путем анализа определенных фрагментов и вычисленных значений количественных показателей, при этом сначала выбирается по меньшей мере один фрагмент, который имеет значение количественных показателей, демонстрирующее высокий вклад в указанное биологическое и/или химическое свойство, а затем этапы организации доступа, идентификации, определения и вычисления повторяются. Фрагменты могут представлять собой любую структурную субъединицу молекул. Биологические и/или химические свойства включают в себя биохимические, фармакологические, токсикологические, пестицидные, гербицидные и каталитические свойства. Настоящее изобретение предпочтительно используется для обратного секвенирования ДНК или обнаружения лекарственных средств. Предпочтительные воплощения включают в себя итерационный процесс, который увеличивает размер фрагмента в каждой итерации,

Description

Настоящее изобретение относится к компьютерной системе, способной к осуществлению дискретного субструктурного анализа и к способу ее работы. Анализ дает возможность компьютеру осуществлять идентификацию молекул, имеющих определенные свойства, такие как биологическая и/или химическая активность. Дискретный субструктурный анализ, управляемый компьютером, может быть использован при создании лекарственных средств, или в других областях, где представляет интерес идентификация биологических, фармакологических, токсикологических, пестицидных, гербицидных, каталитических и тому подобное, активных соединений.

Успехи в области, например, медицинской химии зависят от идентификации биологически активных молекул. Во многих случаях исследовательские программы нацелены на синтез малых органических молекул, которые будут взаимодействовать с известной мишенью в виде фермента или рецептора в порядке осуществления желаемого фармакологического воздействия. Такие соединения могут, по меньшей мере, частично повторять или ингибировать активность известного естественно существующего вещества, но, как предполагается, обеспечивают более сильное и/или более селективное воздействие. Соединения, возникающие при этом типе исследования, могут включать в себя определенные структурные особенности соответствующих существующих в природе веществ.

Исследовательские программы могут также быть основаны на существующих в природе соединениях, обнаруженных в результате просмотра (отсеивания) источников, доступных в природе, например образцов почвы или экстрактов растений. Активные соединения, обнаруженные таким образом, могут быть полезными исходными соединениями для программы синтетической химии.

В последние годы потребность в идентификации новых и полезных биологически активных молекул возрастает, и как следствие, разрабатываются новые способы генерирования исходных соединений. Две разработки являются особенно важными в этом отношении, а именно, комбинаторная химия и высокопроизводительное отсеивание (НТ8).

Комбинаторная химия использует роботизированные или ручные методики для осуществления множества мелкомасштабных химических реакций, каждая из которых использует различное сочетание реагентов одновременно или «параллельно», тем самым генерируя большие количества различных химических объектов для отсеивания. Коллекция соединений, генерируемых с помощью этого способа, известна как «библиотека». Библиотеки для генерирования новых химических исходных соединений, как правило, являются настолько разнообразными, насколько это возможно. Тем не менее, в определенных обстоятельствах библиотеки могут быть направлены или смещены в сторону конкретной фармакологической мишени или сосредоточены на конкретной химической области путем выбора реагентов, направленных на включение конкретных структурных особенностей в конечные соединения.

Высокопроизводительное отсеивание включает в себя использование биохимических анализов для быстрого исследования ίη νίίτο активности большого количества химических соединений по отношению к одной или нескольким биологическим мишеням. Этот способ является идеальным для просмотра больших библиотек соединений, генерируемых с помощью комбинаторной химии.

Несмотря на несомненные преимущества комбинаторной химии и НТ8 при генерировании новых исходных структур у этих способов существуют некоторые недостатки. Высокая доля соединений в несмещенных комбинаторных библиотеках не имеет полезной активности. Обнаружение полезных исходных соединений по этой причине основано на случае и/или на количестве исследуемых соединений. Целевые библиотеки могут иметь более высокую долю активных соединений, но зависят от критерия выбора и могут даже не срабатывать при создании оптимальных соединений. Кроме того, обе методики требуют значительных ресурсов и производительности экспериментов.

Шанс или вероятность обнаружения активной молекулы в данном множестве соединений могут быть увеличены либо путем увеличения общего количества исследуемых соединений (то есть размера наборов), либо путем увеличения доли активных соединений в том же самом множестве. Можно показать, что увеличение доли активных соединений в коллекции соединений является более эффективным для увеличения вероятности нахождения активной молекулы, чем простое увеличение общего количества соединений, которые исследуются. Первый подход сокращает количество соединений, которые должны быть созданы и исследованы, и, следовательно, является также более благоприятным, например, с точки зрения ресурсов, требуемых для обнаружения биологически активных молекул.

Субструктурный анализ как подход к проблеме создания лекарственных средств описан в Ктейатб Ό. Сгатег III. е! а1., I. Меб. СЬет.. 17 (1974), р. 553-535. Описано, что биологическая активность молекулы или любое другое из ее свойств могут быть учтены путем объединения вкладов от ее структурных компонентов (субструктур) и их внутри- и межмолекулярных взаимодействий. Вклад данной субструктуры в вероятность проявления активности может быть получен из данных о ранее исследованных соединениях, содержащих эту субструктуру. Первая стадия представляет собой создание опыт ной таблицы субструктур, сводящей вместе все доступные данные. Частота активности субструктуры (8АР, УАС) определяется для каждой субструктуры как отношение количества активных соединений, содержащих эту субструктуру, к общему количеству исследуемых соединений, содержащих эту субструктуру. УАС, можно сказать, представляет вклад, который данная субструктура вносит в вероятность того, что соединение является активным. Затем для каждого соединения вычисляется среднее арифметическое значение УАС для субструктур, представленных в данном соединении.

Хотя эта известная методика делает возможным ранжирование соединений по их средним значениям УАС, получение такого значения требует вычисления среднего арифметического значения величин УАС каждой субструктуры, которая присутствует в соединении. Более того, значения УАС, необходимые для этого вычисления, представляют собой результат более раннего компьютерного вычисления, которое включает в себя оценку каждой субструктуры в каждой из исследуемых молекул. Этот подход, следовательно, ведет к значительным затратам вычислительных ресурсов, что исключает применение этой методики к множествам данных большего размера, которые доступны в настоящее время и которые могут быть использованы в качестве источника информации, для осуществления анализа молекулярной структуры. Метод Крамера тем не менее не дает возможности для реальной оценки истинного вклада, который субструктура вносит в активность.

Следовательно, существует ряд дополнительных методик, известных из области техники, в области анализа химических структур.

Документ ЕР 938055А раскрывает способ получения количественных соотношений активности структуры на основе данных, генерируемых высокопроизводительным отсеиванием, путем идентификации структурных характеристик, которые делают соединения «активными». Способ разработан для создания статистической модели, предназначенной для биологически активных соединений, которая сначала ассоциирует различные химические дескрипторы с заданной коллекцией соединений, а затем путем использования подгруппы соединений с известной биологической активностью обучает модель с целью предсказания того, будет ли новое соединение биологически активным или нет.

811спбап апб Кеагайеу, Т Сйет. Ιπί. Сотрий. 8ей., 35 (1995), стр. 310-320, описывают использование генетических алгоритмов для выбора поднабора фрагментов с целью использования при построении комбинаторной библиотеки. Этот способ включает в себя генерирование популяции молекул из поднабора молекулярных фрагментов и вычисление количественного показателя для каждой молекулы на основе описанных дескрипторов (например, пара атомов или топологическое скручивание), используя методы либо критерия сходства, либо вектора тренда. Дальнейшие популяции генерируются с использованием генетического алгоритма, и им присваиваются количественные показатели. Результаты обеспечивают список фрагментов, которые присутствуют в молекулах с максимальными количественными показателями, которые могут быть использованы в качестве базы для построения комбинаторной библиотеки.

Международная публикация заявки ЖО 99/26901 А1 описывает способ создания химических веществ, таких как молекулы. Соединение состоит из каркаса и ряда центров. Способ начинает работу с выбора элементовкандидатов в центры и создания прогнозирующего созданного массива РАО. Пример РАЭ состоит из некоторого количества виртуальных соединений, удовлетворяющих определенным комбинаторным условиям. Затем эти соединения синтезируются и исследуются на биологическую активность. Затем разрабатывается алгоритм для предсказания общей биологической активности тех соединений, которые не были еще синтезированы. Для этой цели вычисляются значения вклада в свойство для элементовкандидатов, представляющие собой соответствующий вклад каждого из индивидуальных элементов в активность. После этого вычисляется средний вклад каждой группы-заместителя на конкретном центре в биологическую активность. Приведен пример того, как вычислять такой вклад.

Н. Сао ей а1., 1. Сйет. Ιπί. Сотрий. 8ей. (39) 1999, 164-168, представляет собой статью, описывающую применение методики О8АИ (количественное соотношение структура-активность) к проблеме обнаружения лекарственных средств. После выбора биологически активных соединений их биологическая активность оптимизируется. Поскольку О8АИ основывается на гипотетической взаимосвязи между биологической активностью и молекулярными структурами, методика работает с идентификацией структурных характеристик, которые делают соединения активными, и предсказывает активные и неактивные аналоги.

Международная публикация заявки ЖО 00/41060 А1 раскрывает способ установления корреляций между активностями веществ и структурными особенностями веществ. Термин особенность относится к атомам и связям структуры, которая приводится в соответствие с шаблоном. На первой стадии определяются элементы набора веществ, которые удовлетворяют данной структурной особенности и ограничениям свойств. Затем, для каждой категории активности, обозначаются вещества, которые попадают в указанную категорию. После распределения набора веществ по нескольким категориям активности вычисляется ожидаемая активность для каждого поднабора, и для каждой структурной особенности строится набор битовых векторов активность - свойства - особенность, которые обозначают количества веществ, которые содержат указанную особенность и находятся в указанной категории активности. Документ относится к биологическим активностям и относится также к обнаружению лекарственных средств.

Патент США № 6185506 В1 раскрывает способ выбора оптимально разнообразной библиотеки малых молекул на основе проверенных дескрипторов молекулярных структур. Используются множество наборов литературных данных, которые содержат разнообразные химические структуры и ассоциируемые с ними активности. Активность может представлять собой биологическую и химическую активность. Методика описывается в контексте фармакологических лекарственных средств. Кроме того, способ выбора поднабора молекул продукта раскрыт для всех возможных молекул продукта, которые могут быть созданы при комбинаторном синтезе из специфических молекул регентов и общих молекул каркаса. В разделе, описывающем современный уровень техники, сделана ссылка на биологически специфичные библиотеки, которые конструируются на основе знания о геометрических расположениях структурных фрагментов, полученных из молекулярных структур, о которых известно, что они имеют активность. Раскрыто, как являющееся абсолютно необходимым использование меньшей, рационально построенной библиотеки для просеивания, которая по-прежнему сохраняет все разнообразие комбинаторно доступных соединений.

Международная публикация заявки У О 00/49539 А1 раскрывает способ просмотра множества молекул, предназначенный для идентификации набора молекулярных особенностей (признаков), которые, вероятно, коррелируют с указанной активностью. Термин «особенность» относится к химическим субструктурам. Набор молекул группируется в соответствии с их молекулярной структурой, как она характеризуется с помощью набора дескрипторов. Затем идентифицируются группы, которые представляют высокий уровень активности, и находятся наиболее общие субструктуры среди молекул в группах, для которых могут быть установлены разумные корреляции с наблюдаемым уровнем активности. Устанавливается набор данных, который представляет те молекулы из начального набора данных, которые включают в себя общее подмножество особенностей. Методика описывается как имеющая форму системы на основе компьютера для автоматизированного анализа множества данных.

Патент США № 5463564 раскрывает способ на основе использования компьютера для автоматического генерирования соединений путем роботизированного синтеза и анализа множества химических соединений. Процесс осуществляется итеративно и помогает при генерировании химических объектов с заданными свойствами активности. Синтезируется химическая библиотека с направленным разнообразием, которая содержит множество химических соединений. Данные структура - активность получают путем роботизированного анализа синтезированных соединений. Описывается ряд баз данных, каждая из которых включает в себя поле, указывающее коэффициент рейтинга, присваиваемый соответствующему соединению. Коэффициент рейтинга присваивается каждому соединению на основе того, насколько близко активность соединения совпадает с желаемой активностью.

Рассмотренные выше способы либо представляют собой прогнозирующие модели, либо все еще неспособны к существенному усовершенствованию генерирования активных исходных соединений и увеличению вероятности обнаружения активных соединений внутри заданного набора соединений. Кроме того, обычные методики не способны удовлетворить потребность в увеличенном количестве и качестве подходящих молекул и исходных соединений, которые вводятся постоянно поступающими разработками.

По этой причине задачей настоящего изобретения является создание способа работы компьютерной системы и соответствующей компьютерной системы, способной увеличить вероятность обнаружения новых, биологически и/или химически активных молекул.

Эта задача решается с помощью настоящего изобретения, как описано в независимых пунктах формулы изобретения.

Предпочтительные воплощения определяются в зависимых пунктах формулы изобретения.

Одним из преимуществ настоящего изобретения является то, что предусматриваются компьютерная система и способ работы, которые обеспечивают возможность увеличения доли активных соединений в данном наборе химических объектов, где указанные объекты уже не являются известными в качестве имеющих желаемую активность. Это осуществляется путем применения методик на основе знания для идентификации новых рядов перспективных молекул и исходных соединений, в частности, путем построения систем для осуществления обнаружения на основе вычислений.

Другим преимуществом настоящего изобретения является то, что посредством анализа базы данных, в которой можно осуществлять поиск молекулярных структур и биологических и/или химических свойств, можно избежать дорогих экспериментов. Способ обнаружения по настоящему изобретению по этой причине может быть рационализирован, что, в свою оче редь, должно приводить к менее дорогому обнаружению лекарственных средств.

Кроме того, настоящее изобретение с выгодой дает возможность осуществления способов более быстрого обнаружения, так что молекулы, имеющие определенные желаемые свойства, могут быть идентифицированы за более короткое время, по сравнению со способами, известными из уровня техники.

Кроме того, настоящее изобретение является особенно выгодным в области биологической химии. В прошлом секвенирование ДНК и, в частности, секвенирование совокупности генов, обеспечило обширные базы данных аминокислотных последовательностей, которые могут быть использованы в качестве исходной точки для осуществления настоящего изобретения. Затем настоящее изобретение дает возможность для идентификации известных и/или неизвестных лигандов и/или неизвестных пар лигандрецептор с помощью предсказания пептидной последовательности на основе результатов, полученных с помощью списка структур, анализируемых на биологически активные химические детерминанты. После идентификации в базе данных и выделения пептидные последовательности могут исследоваться с помощью биохимического анализа. Таким образом, настоящее изобретение выгодно, делает возможным дедуктивное выделение биологических структур путем сравнения со списком химических молекул, для которых определена активность на определенной мишени, и таким образом, предусматривает методику идентификации (обратного секвенирования).

Теперь настоящее изобретение будет описываться более подробно со ссылками на фигуры чертежей, где фиг. 1 представляет собой блок-схему, иллюстрирующую компьютерную систему в соответствии с предпочтительным воплощением по настоящему изобретению;

фиг. 2 представляет последовательность операций, иллюстрирующую основной способ осуществления дискретного структурного анализа в соответствии с предпочтительным вариантом воплощения настоящего изобретения;

фиг. 3 представляет собой схематический чертеж, иллюстрирующий итерационный процесс по настоящему изобретению;

фиг. 4 представляет последовательность операций, иллюстрирующую процесс генерирования библиотеки фрагментов в соответствии с предпочтительным воплощением настоящего изобретения;

фиг. 5 представляет собой график, иллюстрирующий, как фрагменты могут быть выбраны на основании вычисленных значений количественных показателей;

фиг. 6 представляет последовательность операций, иллюстрирующую процесс вычисления значения количественных показателей для фрагмента, в соответствии с предпочтительным вариантом воплощения настоящего изобретения;

фиг. 7 представляет последовательность операций, иллюстрирующую процесс анализа библиотеки фрагментов, когда осуществляются итерации;

фиг. 8 представляет последовательность операций, иллюстрирующую процесс выбора нового соединения с использованием обобщенных субструктур;

фиг. 9 представляет последовательность операций, иллюстрирующую процесс генерирования субструктур для использования при виртуальном скрининге (отсеивании);

фиг. 10 представляет последовательность операций, иллюстрирующую процесс анализа библиотеки фрагментов, когда производятся итерации, с применением методики отжига в соответствии с предпочтительным воплощением настоящего изобретения;

фиг. 11 представляет собой пример карты относительных вкладов для иллюстрации методики отжига, применяемой в процессе на фиг.10;

фиг. 12 представляет собой график, иллюстрирующий воздействие соединения на опосредуемое рецептором генерирование инозитол трифосфата;

фиг. 13 представляет собой график, иллюстрирующий воздействие соединения на киназазависимое фосфорилирование белка;

фиг. 14 представляет собой график, иллюстрирующий воздействие соединения на фосфатазазависимое дефосфорилирование белка;

фиг. 15 представляет собой график, показывающий информацию об относительных вкладах в виде графика зависимости детерминантов как функции от соответствующих значений их количественных показателей; и фиг. 16А-Н представляют собой дополнительные диаграммы относительных вкладов, демонстрирующие эквивалентность функций количественных показателей.

Настоящее изобретение ниже описано более подробно. Кроме того, предпочтительные варианты воплощения настоящего изобретения раскрыты со ссылками на прилагаемые фигуры. Более того, приводится ряд примеров относительно того, как настоящее изобретение может быть применено в многочисленных областях обнаружения соединений.

В соответствии с настоящим изобретением компьютерная система работает с целью осуществления дискретного субструктурного анализа. Организуется доступ к базе данных молекулярных структур. Осуществляется поиск в базе данных относительно информации о молекулах и биологических и/или химических свойств. Информация о молекулярной структуре представляет собой любую информацию, пригодную для использования при определении молекуляр9 ной структуры молекулы. Биологические и/или химические свойства включают в себя биохимические, фармакологические, токсикологические, пестицидные, гербицидные и каталитические свойства.

При использовании базы данных способ в соответствии с настоящим изобретением идентифицирует поднабор молекул, имеющих заданное биологическое и/или химическое свойство. Затем в указанном поднаборе определяются фрагменты молекул. Термин «фрагмент» относится к любой структурной субъединице молекулы, включая простые функциональные группы, двумерные субструктуры и их семейства, простые атомы или связи, и любой набор структурных дескрипторов в двухмерном или трехмерном молекулярном пространстве. Специалисту в данной области понятно, что фрагмент может представлять собой молекулярную субструктуру, которая не имеет известного значения в обычной химии.

После того, как молекулярные структуры в поднаборе разбиты по фрагментам, для каждого фрагмента вычисляется значение количественного показателя, показывающее вклад соответствующего фрагмента в данное биологическое и/или химическое свойство. То есть, настоящее изобретение дает возможность присвоения значений количественных показателей фрагментам на основе существующих знаний в отношении биологических и/или химических свойств молекул. При последующем описании о молекуле, структуре или субструктуре говорится, что она является «активной», если она имеет данное свойство. О молекуле, структуре или субструктуре, не являющейся активной, говорится, что она «неактивна». Таким образом, настоящее изобретение предусматривает субструктурный анализ на основе дискретной информации о биологическом и/или химическом свойстве. По этой причине главный процесс по настоящему изобретению далее называется дискретным субструктурным анализом (Ό8Ά).

Поскольку, в соответствии с настоящим изобретением, фрагменты ассоциируются со значениями количественных показателей, показывающими их вклад в данное биологическое и/или химическое свойство, фрагменты могут рассматриваться в качестве химических детерминантов, ответственных за данный биологический и/или химический результат. Идентификация фрагментов осуществляется путем следования множеству логических правил (алгоритму), которые присущи самому процессу Ό8Ά. В этом контексте само значение количественного показателя представляет собой функцию (a) преобладания химического детерминанта в поднаборе активных молекул и (b) преобладания этого же указанного детерминанта во всем списке рассматриваемых соединений.

На основании этого определения способ затем идентифицирует один или несколько локальных экстремумов функций количественных показателей, которые соответствуют химическим детерминантам, представляющим все химические решения или их часть, для желаемого биологического результата. Обнаружение наибольших возможных значений, которых функция количественных показателей может достигать на любом заданном наборе данных, является эквивалентным идентификации химических детерминантов, содержащихся в поднаборах наиболее сильнодействующих биологически активных молекул, которые имеют самую низкую вероятность случайного нахождения в этих же поднаборах.

Ниже настоящее изобретение описывается со ссылками на фигуры чертежей и, в частности, со ссылками на фиг. 1. Фиг. 1 демонстрирует предпочтительное воплощение компьютерной системы в соответствии с настоящим изобретением. Компьютерная система содержит центральный процессор 100 для обработки данных, который может управляться с помощью средств интерфейса 105 пользователя. Узлы 100 и 105 могут представлять собой любую компьютерную систему, такую как рабочая станция или персональный компьютер. Предпочтительно, компьютерная система представляет собой многопроцессорную систему с выполняющейся на ней многозадачной операционной системой.

Узел 100 центрального процессора соединен с хранилищем 130 программ, которое хранит код исполняемой программы, включая инструкции для осуществления процесса Ό8Ά в соответствии с настоящим изобретением. Эти инструкции включают в себя функции 135 фрагментирования для разложения молекулярных структур на фрагменты, функции 140 количественных показателей для вычисления значений количественных показателей, функции 145 обобщения (для выделения изомеров, например) для локализации обобщаемых объектов в структурах фрагментов и замены этих объектов обобщенными выражениями, тем самым генерируя обобщенные субструктуры, функции 150 виртуального «просеивания», «просмотра» (скрининга) для осуществления виртуального «просеивания», «просмотра» (скрининга), и функции 155 отжига для осуществления процесса отжига фрагментов по настоящему изобретению. Подробности относительно индивидуальных функций и процессов, осуществляемых узлом 100 центрального процессора при исполнении этих функций, более подробно будут описаны ниже.

Центральный процессор 100 дополнительно соединен с базой данных о структурной активности или со списком 115 активностей соединений для получения информации о молекулярной структуре и информации о биологических и/или химических свойствах. Это инфор11 мация подобным же образом может быть получена от узла 110 ввода данных, который дает возможность для организации доступа к внешним источникам данных.

Путем доступа к узлам 110 и/или 115 может быть получен поднабор молекулярных структур, например, из любого доступного источника, такого как частная или общедоступная база данных, в которой может осуществляться поиск субструктуры и/или биологических свойств. Общедоступные базы данных включают в себя, но не ограничиваются этим, те, которые доступны под следующими наименованиями: ΜΌΌΚ, Р11агтарго)сс1к. Мегск 1пбех, 8с1Бшбег, Оегиепк Поднабор молекул также может быть получен путем синтеза и исследования соединений. Молекулы, как правило, будут содержать соединения целиком, но и сами по себе они могут также быть молекулярными фрагментами. Для любого заданного биологического или химического свойства, поднабор содержит соединения, которые не обладают указанным свойством, например соединения, которые не являются активными (или находятся ниже заданного порога активности), а также соединения, которые не обладают указанным свойством, например соединения, которые проявляют желаемую активность (то есть имеют активность, превышающую заданный порог). Все неактивные соединения принимаются во внимание и по этой причине анализируются.

После организации доступа к внутренним или внешним данным и осуществления процесса Ό8Ά с использованием функций, хранимых в хранилище 130 программ, узел 100 центрального процессора сохраняет библиотеку 120 фрагментов, которая содержит определенные фрагменты молекул, вместе с ассоциируемыми значениями количественных показателей.

В одном из предпочтительных вариантов воплощения настоящего изобретения библиотека 120 фрагментов представляет собой результат осуществления основного способа в соответствии с настоящим изобретением. Затем библиотека 120 фрагментов может быть использована, например, исследователями или технологами в области химии и биологии в качестве источника ценной информации, которая может быть использована в любом последующем процессе обнаружения.

В другом предпочтительном варианте воплощения, библиотека 120 фрагментов представляет собой промежуточный результат основного способа по настоящему изобретению и по этой причине может храниться в энергозависимой, а также в энергонезависимой памяти. Библиотека 120 фрагментов в соответствии с этим воплощением может считываться узлом 100 центрального процессора при осуществлении дополнительных функций, хранимых в хранилище 130 программ для генерации коллекции 125 соединений.

Коллекция 125 соединений представляет собой коллекцию молекул, которые принимаются во внимание в способе по настоящему изобретению как имеющие требуемое биологическое и/или химическое свойство или не имеющие его. Молекулы из коллекции 125 соединений либо могут быть уже известными, либо могут представлять собой гипотетические структуры, которые не были синтезированы ранее. В любом случае молекулы из коллекции 125 соединений представляют собой результат оценки значений количественных показателей, присваиваемых фрагментам согласно дискретному субструктурному анализу.

Как можно увидеть из фиг. 1, узел центрального 100 процессора дополнительно соединен с памятью 160 для хранения данных, которая хранит наборы 165 соединений, наборы 170 фрагментов и значения 175 количественных показателей. Память 160 для хранения данных предусматривается для хранения данных, которые используются для сохранения входных параметров при вызове функций 135-155, или для хранения результатов, возвращаемых этими функциями.

На фиг. 2 иллюстрируется предпочтительный вариант осуществления основного способа Ό8Ά, оператор компьютерной системы, изображенной на фиг. 1, сначала выбирает активность на стадии 210. Как описано выше, активность означает любое биологическое и/или химическое свойство, включая биохимические, фармакологические, токсикологические, пестицидные, гербицидные, каталитические свойства. Более того, при использовании настоящего изобретения для идентификации неизвестных лигандов, активность может представлять собой заданное воздействие на белок, представляющий интерес (как правило, связывание).

В настоящем описании ссылка на конкретное свойство, такое как биологическая активность, может, если только контекст не указывает на иное, экстраполироваться на другие типы биологического и/или химического свойства. Более того, чтобы устранить сомнения, термины «соединение», «молекула» и «молекулярная структура» могут все охватывать молекулярные субструктуры, а также соединения целиком, в соответствии с контекстом.

После выбора активности на стадии 210 набор 125 соединений выбирается на стадии 220. Выбранный набор соединений представляет собой набор молекул, которые должны исследоваться, чтобы понять, какие фрагменты вносят вклад в заданную активность. Как описано более подробно ниже, набор соединений, выбранных на стадии 220, включает в себя молекулы, о которых известно, что они активны, и молекулы, о которых известно, что они неактивны.

После того, как активность и набор соединений выбраны, процесс продолжается генери13 рованием библиотеки 120 фрагментов на стадии 230. Процесс генерирования библиотеки фрагментов может быть описан как процесс определения статистического веса эффективности молекулярных фрагментов в поднаборе известных структур с получением химического и/или биологического результата. Этот процесс может быть описан как состоящий из стадий:

I) идентификации одного или нескольких поднаборов молекул, имеющих заданные свойства, по отношению к химическому и/или биологическому результату, представляющему интерес;

II) генерирования предварительной библиотеки, содержащей фрагменты молекул в указанном одном или нескольких поднаборах;

III) применения алгоритма для оценки вклада указанных фрагментов по отношению к химическому и/или биологическому результату, представляющему интерес; и

IV) получения значения количественного показателя для каждого указанного фрагмента, к которому применяется указанный алгоритм, эти значения количественных показателей могут быть ранжированы по порядку их убывания или возрастания; при этом те фрагменты, которые с наибольшей вероятностью вносят вклад в химический и/или биологический результат, представляющий интерес, ассоциируются, например, с более высокими значениями количественных показателей.

Как отмечено выше, библиотека 120 фрагментов содержит фрагменты, а также полученные значения количественных показателей для фрагментов. После того, как библиотека 120 фрагментов генерируется на стадии 230, процесс может осуществлять или не осуществлять повторную итерацию на стадии 240.

При воплощении процесса Ό8Ά в виде итераций вычислительные ресурсы могут быть использованы очень эффективным образом. Например, процесс предпочтительно начинается с малых фрагментов. Поскольку количество возможных фрагментов в молекулярных структурах возрастает приблизительно экспоненциально с максимальным размером фрагментов, которые исследуются, этот максимальный размер устанавливается при начале процесса, скорее при низком значении, так что можно манипулировать даже с очень большим количеством молекулярных структур.

Процесс на стадиях 210 до 230 рассматривает фрагменты с высоким вкладом в желаемую активность. Рассматриваемые фрагменты затем могут быть использованы в следующем проходе (или цикле) для обнаружения фрагментов большего размера, то есть с более высокой молекулярной массой. Пример итерационного процесса изображен на фиг. 3. При первом проходе фрагмент С=О, как обнаруживается, дает высокий вклад в желаемую активность. Это фрагмент затем используется для поиска фрагментов, ко торые являются большими по размеру, чем фрагмент, полученный при первом проходе, и которые включают в себя этот фрагмент. В примере на фиг. 3 второй проход показывает, что фрагмент Ы-С=О представляет собой наилучший фрагмент этого размера по отношению к желаемой активности. Затем повторяющийся итерационный процесс продолжается, увеличивая при этом размер фрагментов, и может привести к соединению, которое, вероятно, имеет желаемое биологическое и/или химическое свойство и является пригодным для желаемого применения.

Обращаясь теперь опять к фиг.2, если на стадии 240 решено осуществлять следующий проход или цикл, библиотека 120 фрагментов, генерируемая на стадии 230, анализируется на стадии 250, и процесс возвращается к стадии 220. Примеры того, как библиотека 120 фрагментов анализируется на стадии 250, описаны более подробно ниже. Как станет понятно, итерационный процесс дает возможность применения более «продвинутых» функций, таких как функции 145 обобщения и функции 155 отжига, для дальнейшего усовершенствования процесса обнаружения с использованием дискретного субструктурного анализа.

Наконец, когда на стадии 240 принимается решение, что следующей итерации производиться не будет или итерационный процесс подходит к своему концу, генерируется коллекция 125 соединений на стадии 260.

Опять обращаясь теперь к стадии 230 генерирования библиотеки 120 фрагментов, предпочтительное воплощение подстадий этого процесса генерирования описано со ссылками на фиг. 4-6. Сначала, после получения доступа к внутренней базе 115 данных и/или к внешнему источнику данных и идентификации поднабора молекул, данные по активности структур, относящиеся к идентифицированным молекулам, получаются на стадии 410. Затем фрагменты молекул в поднаборе определяются на стадии 420.

Молекулы могут фрагментироваться с использованием ряда обычных методик. Например, может быть использован алгоритм для обнаружения любой перестановки атомов, которые связаны друг с другом. Функции 135 фрагментирования могут использовать минимальный размер и максимальный размер фрагментов. В качестве другого примера алгоритм фрагментирования может содержать инструкцию для перескакивания через те фрагменты, которые имеют атомы, расположенные линейно. Кроме того, алгоритм может быть ограничен относительно включения или исключения определенных типов связей. Могут существовать разнообразные виды применения функций фрагментирования, которые легко доступны специалисту в данной области.

То есть, любая из молекулярных структур может концептуально быть разложена на ряд дискретных субструктур или фрагментов (стадия 420). Фрагменты могут представлять собой простые функциональные группы, например ΝΟ₂, СООН, СНО, СОИН₂; точные двухмерные субструктуры, например о-нитрофенол; свободно определенные семейства субструктур, например Р-ОН; простые атомы или связи или любой набор структурных дескрипторов в двухили трехмерном химическом пространстве.

После разложения молекул на фрагменты, на стадии 420, количественные показатели для фрагментов вычисляются компьютером на стадии 430 путем вычисления значения количественного показателя для каждого фрагмента и ассоциирования вычисленного значения с фрагментом. Затем фрагменты с наивысшими количественными показателями определяются на стадии 440 и сохраняются на стадии 450.

Пример того, как определяются фрагменты с наивысшими количественными показателями, изображен на фиг. 5. В этом примере, определенные значения количественных показателей изображаются как функция от количества соединений, которые содержат соответствующий фрагмент. На этом графике каждый фрагмент представлен точкой. Использование этого графика на стадии 440 дает больше информации, чем простой выбор фрагментов с наивысшими количественными показателями путем сравнения значений количественных показателей, поскольку график дополнительно использует информацию о количестве соединений, которые включают в себя соответствующие фрагменты.

Процесс нахождения наибольшего возможного количественного показателя может рассматриваться как эквивалент генерирования филогенной сетки иерархически связанных молекулярных фрагментов, соответствующих заданной биологической и/или химической активности. При такой настройке узлы сетки снабжаются самими фрагментами, и вероятность того, что любой отдельный фрагмент представляет собой основу биологической активности, задается расстоянием до соответствующего узла от начала, то есть от основания самой сетки. Таким образом, чем больше значение количественного показателя для данного фрагмента, тем дальше соответствующий узел от начала решетки и тем больше вероятность того, что этот фрагмент представляет собой химическое решение, например, для фармакофора, который опознается мишенью, представляющей интерес.

Стадия 430 присвоения количественных показателей фрагментам теперь будет описываться более подробно со ссылками на фиг. 6. Применение функций 140 количественных показателей соответствует рассмотренному выше набору логических правил или стадиям вычислений. Способ Ό8Α в соответствии с настоящим изобретением содержит в предпочтительном воплощении стадию включения переменных, связанных с преобладанием каждого фрагмента, в одну или несколько математических функций, которые оценивают значение количественного показателя для любого заданного фрагмента.

Указанный алгоритм представляет собой функцию (a) количества молекул х в поднаборе, которые удовлетворяют заданному порогу по отношению к желаемому результату и которые содержат данный фрагмент;

(b) количества молекул у в указанном поднаборе, которые содержат указанный фрагмент, несмотря на то, удовлетворяют ли они указанному порогу или нет;

(c) количества молекул ζ в указанном поднаборе, которые удовлетворяют указанному порогу, несмотря на то, содержат ли они указанный фрагмент или нет; и (б) количества N всех молекул в поднаборе.

Результат, упоминаемый в (а) может представлять собой любой желаемый параметр, связанный с активностью соединений, включая, но необязательно ограничиваясь этим, биологическую, биохимическую, фармакологическую и/или токсикологическую активность. Каждое соединение или молекула в наборе данных затем могут анализироваться относительно того, обладают ли они желаемым параметром по отношению к заданному порогу, такому как конкретный уровень активности. Порог может быть установлен на любом желаемом уровне. В следующем далее описании «активное» соединение представляет собой такое, которое удовлетворяет желаемому порогу, и «неактивное» соединение представляет собой такое, которое не удовлетворяет указанному порогу. Эти термины не предназначены для выражения какого-либо абсолютного свойства рассматриваемых соединений.

Вклад данного фрагмента может быть определен путем применения к переменным х, у, ζ и N меры взаимосвязи или функции 140 количественных показателей. Как хорошо известно специалистам в данной области, существует множество возможных мер взаимосвязи, которые попадают в три главные категории:

субтрактивные меры: например, Νχ^ζ; меры в виде отношений: например, х(№уζ-χ)/(ζ-χ)^-χ);

смешанные меры: например, (χ/ζ)-(ζ-χ)/(Νζ).

Будет понятно, что может быть выбрана любая мера взаимосвязи, и специалисты в данной области способны легко сделать соответствующий выбор.

Алгоритм, применяемый на стадии 430, может по этой причине содержать (см. фиг. 6):

(ί) оценку количества соединений х в поднаборе, которое удовлетворяет заданному порогу, по отношению к химическому или биологи17 ческому результату, представляющему интерес, и которое содержит заданный химический детерминант (стадия 610);

(ίί) оценку количества соединений у в указанном поднаборе соединений, которые содержат указанный химический детерминант, несмотря на то, удовлетворяют ли они указанному порогу или нет (стадия 620);

(ΐίϊ) оценку количества соединений ζ в указанном поднаборе соединений, которые удовлетворяют указанному порогу, несмотря на то, содержат ли они указанный химический детерминант или нет (стадия 630);

(ίν) оценку общего количества соединений N в поднаборе соединений (стадия 640) и (ν) применение меры взаимосвязи к двум или более из переменных х, у, ζ и N (стадия 650), предпочтительно, к трем или четырем переменным, а наиболее предпочтительно, ко всем четырем переменным х, у, ζ и N.

Мера взаимосвязи может применяться непосредственно для определения значения количественного показателя, соответствующего вкладу данного фрагмента. Предпочтительно, тем не менее, мера взаимосвязи выражается в виде функции количественного показателя оценки вероятности того, что субструктура вносит вклад в результат. Это облегчает более ясное определение ранжирования значений количественных показателей, получаемых для всех анализируемых фрагментов. Мера взаимосвязи может быть выражена в виде функций количественных показателей с помощью способов, хорошо известных в данной области. Например, удобно выбирать методы среди статистических методов, например метод критического отношения (ζ); точный критерий Фишера, критерий хиквадрат Пирсона; критерий хи-квадрат Мантеля-Хензеля; и методы, основанные, но не ограничиваясь этим, на оценках крутизны, и тому подобное. Тем не менее, могут быть использованы и методы, иные, чем статистические критерии. Такие методы включают в себя, но не ограничиваются этим, вычисление и сравнение точных и приблизительных доверительных интервалов, коэффициентов корреляции или, на самом деле, любой функции, содержащей меры взаимосвязи, состоящие из сочетания одного, двух, трех или четырех из переменных х, у, ζ или Ν, описанных выше.

Примеры математических формул, представляющих меры взаимосвязи или функции количественных показателей, которые могут быть применены в настоящем изобретении, включают в себя:

(I) (Н) (III) (IV) (V) (VI) (VII) (VIII) (IX) (X) (XI) (ХИ)

Χ/Ζ χ/Ν Νχ-γζ (χ/ζ)-(γ/Ν) (χ/ζ)-(ζ-χ)/(Ν-ζ) χ(Ν-γ-ζ+χ) (ζ-хКу-х) Νχ-γζ -)ζ(Ν-ζ) γ(Ν-γ) θΚχ/ζΗζ-хИН-г)] (|Νχ-γζ|-Ν12)^ΖΝ ζ(Ν-ζ)γ(Ν-γ)

Χ(Ν - У - Ζ+ X) _ι_-2./·1/χ+1/ίν-Χ>4·1/ίΖ-χΗί/(Ν-γ-ζ+χ) (ζ-χΧγ-χ) χ,(Ν-γ-ζ, +χ,)(ζ₂-χ₂)(γ-χ₂) χ₂(Ν-γ-ζ₂+χ₂)(ζ,-χ,)(γ-χ,) _2_\ί I (Νχ-γζ)²Ν~Ί 73*^)|ζ(Ν-ζ) γ(Ν-γ))

Специалист в данной области опознает функцию количественных показателей (VII) как коэффициент корреляции с произведением моментов, отражающий степень совместного изменения между двумя дихотомическими переменными, неявно показанный в указанной формуле.

Специалист в данной области опознает функцию количественных показателей (VIII) как связанную с оценкой отношения шансов риска с использованием крутизны линии регрессии, представляющей степень совместного изменения, которая существует между двумя дихотомическими переменными.

Специалист в данной области опознает функцию количественных показателей (IX) как статистику, связанную с хи-квадратраспределением, модифицированную для различных факторов смешивания. Например, член N/2 в числителе второго сомножителя из произведения, в логарифмическом масштабе, представляет собой консервативную подгонку нормальной аппроксимации к биномиальному распределению, которая представляет собой полезную модификацию для работы с относительно малыми значениями х, у, ζ или N. Специалист в данной области обнаружит, что и другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для той же самой цели, вместо тех, которые описаны в формулах (I) и (II), наиболее подходящие из которых, в смысле настоящего изобретения, содержат различные сочетания из одного, двух, трех или четырех переменных х, у, ζ и N.

Специалист в данной области опознает функцию количественных показателей (X) как способ, с помощью которого оценивается нижний предел 95% доверительного интервала меры (III) путем использования логарифмического количество раз, которое этот же указанный химический детерминант появляется в поднаборе активных соединений х ([8]) следующим образом:

преобразования, чтобы сделать распределение отношения более сравнимым со значением для нормального распределения, и аппроксимацию с помощью первого члена ряда Тейлора для оценки дисперсии логарифма того же указанного отношения.

Специалист в данной области опознает функцию количественных показателей (XI) в качестве способа сравнения отношения шансов, дающего возможность для идентификации химических детерминантов, которые с наибольшей вероятностью являются селективными по отношению к одной мишени, по сравнению с остальными.

Специалист в данной области опознает функцию количественных показателей (XII) как способ объединения множества критериев взаимосвязи, дающего возможность идентификации химических детерминантов, которые с наибольшей вероятностью обладают воздействиями на два или более данных свойства, одновременно.

Специалист в данной области также обнаружит, что функция количественных показателей может быть модифицирована, чтобы включить в нее дополнительные переменные, связанные с материалом, биологическими, химическими и/или физико-химическими свойствами молекулы. Например, такие модификации могут включать в себя, но ни в коем случае не ограничиваются этим, поправки на сильнодействие соединения, селективность, токсичность, биологическую доступность, стабильность (метаболическую или химическую), простоту синтеза, чистоту, коммерческую доступность, доступность соответствующих реагентов для синтеза, стоимость, молекулярную массу, молярный коэффициент преломления, молекулярный объем, 1одР (вычисленный или определенный), количество акцепторных групп для Н-связи, количество донорных групп для Н-связи, заряды (парциальные и формальные), константы протонирования, количество молекул, содержащих дополнительные химические ключи или дескрипторы, количества вращающихся связей, индексы гибкости, индексы молекулярной формы, соответствие при совмещении и/или перекрывающиеся объемы.

Так, например, функция количественных показателей (VIII) может быть дополнительно модифицирована, например, для учета молекулярной массы каждого рассматриваемого химического детерминанта (МА), следующим образом:

. _еК^л/ -*)]

Подобным же образом функция количественных показателей (IX) может быть модифицирована, чтобы включить в нее переменные МА и [8], которые, соответственно, представляют молекулярную массу химического детерминанта, представляющего интерес (МА), и

для облегчения идентификации самых больших возможных одноэлементных биологически активных химических детерминантов во время анализа.

Результаты стадии 650 алгоритма дают значения количественного показателя рассматриваемого фрагмента. Стадии 610-650 алгоритма могут быть повторены для каждого из выбранных фрагментов в имеющихся данных. Когда значения для всех выбранных фрагментов уже вычислены, результаты дают значение количественного показателя, соответствующее потенциальной эффективности каждого фрагмента, который был проанализирован. Указанные значения количественных показателей могут быть ранжированы по порядку величины; при этом те фрагменты, которые с наибольшей вероятностью вносят вклад в химический и/или биологический результат, представляющий интерес, ассоциируются, например, с более высокими значениями количественных показателей. Это дает возможность на стадии 440 идентифицировать один или несколько локальных экстремумов значений функций количественных показателей, которые соответствуют химическим детерминантам, представляющим полные или частичные химические решения для желаемого химического или биологического результата. Обнаружение наибольших значений количественных показателей, которые могут быть достигнуты в любом заданном множестве данных, является эквивалентным идентификации химических детерминантов, содержащихся в подмножествах молекул, имеющих желаемые свойства, эти химические детерминанты имеют самую низкую вероятность случайного нахождения в тех же подмножествах. Когда желаемое свойство представляет собой заданную биологическую активность, фрагменты с наивысшими количественными показателями или химические детерминанты представляют собой биологически активный фармакофор.

Возвращаясь обратно к фиг. 2, теперь будут обсуждаться предпочтительные воплощения стадии 250 анализа библиотеки 120 фрагментов.

Один из способов анализа библиотеки 120 фрагментов показан на фиг. 7. Процесс начинается с выбора фрагмента на стадии 710, на основе значений количественных показателей, определенных в предыдущем цикле. Затем соединения из предыдущего набора, которые содержат выбранный фрагмент, извлекаются на стадии 720. Поскольку на стадии 710 выбирают фрагмент с высоким вкладом в желаемую активность, соединения, которые извлекаются на ста дии 720, могут рассматриваться в качестве активных соединений. Затем на стадии 730, выбирается набор неактивных соединений, либо из предыдущего набора, либо из баз данных или другого источника. Затем активные и неактивные соединения сводятся вместе на стадии 740, для формирования нового набора соединений. Новый набор соединений затем выбирается на стадии 220, в качестве набора соединений следующего поколения итерации, чтобы участвовать в следующем цикле.

Предпочтительное воплощение для осуществления стадии 730 теперь описывается со ссылками на фиг. 8. Это воплощение использует обобщенные субструктуры для выбора нового набора соединений, предназначенных для следующего цикла.

Процесс на фиг. 8 начинается с анализа на стадии 810 структуры фрагмента, который был выбран на стадии 710. Если используется аспект обобщения настоящего изобретения, фрагмент, который был выбран на стадии 710, может быть выбран путем оценки значения количественного показателя, которая была вычислена в предыдущем заходе. Кроме того, выбор фрагмента может быть сделан зависимым от дополнительных факторов, которые воздействуют на пригодность фрагмента, который должен быть исходной точкой для обобщения. Эта пригодность может быть функцией от количества атомов или связей, от способа, которым связаны атомы, от трехмерной структуры соответствующего фрагмента, и тому подобное.

После того как структура выбранного фрагмента проанализирована на стадии 810, обобщенный элемент помещается в структуру фрагмента на стадии 820. Затем этот элемент заменяется обобщенным выражением на стадии 830 с получением обобщенной субструктуры (например, для обнаружения био-изостер). Пример представляет собой сЛ

Фрагмент [Αγ]'^α'ν Обобщенная субструктура где, в данном выбранном фрагменте два обобщенных элемента определены и заменены общими выражениями [Аг] и А, где [Аг] представляет собой ароматический центр и А представляет собой С или 8.

Затем обобщенная субструктура, генерируемая на стадии 830, используется для осуществления виртуального просмотра с целью обнаружения новых соединений, соответствующих обобщенной субструктуре. Термин виртуальный просмотр относится к любому процессу просмотра (отсеивания), который осуществляется только с помощью данных, тем самым устраняя необходимость в синтезе соединений. Новые соединения, которые учитываются с помощью виртуального просмотра, затем используются для построения нового набора соединений на стадии 850, которое может быть использовано в следующем цикле итерации.

Как можно увидеть на фиг.9, процесс виртуального просмотра (отсеивания) может быть разделен на внутри- и междоменные модификации фрагментов, осуществляемые путем использования обобщенных субструктур. Внутридоменные модификации, осуществляемые на стадии 910, включают в себя замещения, включения, удаления и инверсии атомов фрагмента. Начиная с рассмотренного выше точного фрагмента и обобщая этот фрагмент до обобщенной субструктуры, в следующем далее примере получаются три различных замещения

Междоменные модификации, осуществляемые на стадии 920, состоят в изменениях заместителей фрагмента. Они могут быть случайными, сосредоточенными и тому подобное

Множества сосредоточенных соединений представляют собой коллекции молекул на основе модификаций одной или нескольких обобщенных субструктур

Хотя на фиг.9 стадии осуществления внутри- и междоменных модификаций показаны как осуществляемые последовательно, специалисту в данной области понятно, что в пределах настоящего изобретения находится осуществление всего лишь одного из этих различных видов модификаций, или осуществление обеих модификаций в другой последовательности, или даже параллельно. Необходимо понять, что ре зультат виртуального просмотра представляет собой отличную коллекцию соединений, которые имеют высокую вероятность того, что они являются активными, поскольку они обогащены субструктурами, ассоциирующимися с активностью.

Хотя на стадии 710 выбирается фрагмент, который образует основу для применения функций 145 обобщения, с целью получения обобщенной субструктуры, другое предпочтительное воплощение настоящего изобретения представляет собой выбор большего количества фрагментов с высокими количественными показателями, для генерирования обобщенных субструктур. Например, следующие далее фрагменты, как показано, дают высокие вклады в желаемую активность и могут быть выбраны на

Эти выбранные фрагменты затем превращаются в обобщенные субструктуры с высокими количественными показателями, такие как

Эти обобщенные субструктуры затем используются для виртуального просмотра (просеивания) коммерческих баз данных

или включаются в коллекции соединений.

Хотя итерационный процесс описывается как имеющий преимущества по причинам, связанным с компьютерными вычислениями, поскольку он является пригодным для использования при начале процедуры с малыми фрагментами, и для увеличения размера фрагмента от цикла к циклу, и поскольку дополнительно показано, что эффективность обнаружения может быть дополнительно увеличена путем использования обобщенных аспектов итерационного процесса, существует еще один подход в соответствии с настоящим изобретением для дальнейшего усовершенствования процесса дискретного субструктурного анализа по настоящему изобретению. Этот дополнительный подход основывается на методике отжига и будет теперь описываться со ссылками на фиг. 10.

В предпочтительном воплощении по фиг. 10 стадия 250 анализа библиотеки фрагментов, которая сгенерирована в предыдущем цикле, начинается со стадий 1010 и 1020 выбора первого и второго фрагмента. Оба фрагмента выбираются на основе вычисленных значений количественных показателей, и понятно, что это фрагменты с высокими вкладами.

На следующей далее стадии 1030 функция 155 отжига применяется для соединения первого и второго фрагментов. Соединение фрагментов означает определение молекулярной структуры или субструктуры, включающей в себя оба фрагмента. Для этой цели может быть использован ряд различных функций 155 отжига. Эти функции отжига различаются по конкретному осуществлению того, как оцениваются и используются определенные параметры отжига. Параметры отжига представляют собой, например, (заданное) расстояние от первого до второго фрагмента, ориентацию первого и второго фрагментов в трехмерном пространстве, количество атомов, которые могут находиться между фрагментами, количество связей, которые используются для склейки фрагментов вместе, вид связей и атомов и тому подобное.

Кроме того, процесс отжига предпочтительно объединяется с аспектом обобщения, описанным выше. Если, например, на стадиях 1010 и 1020 выбраны фрагменты Е1 и Е2, о которых известно, что они имеют высокие значения количественных показателей, функция отжига, которая выбирается на стадии 1030 и работает на стадии 1040, может использовать обобщенные выражения

Е1-[О]-Е2 для соединения фрагментов. Общее выражение [О] представляет собой синоним для молекулярных субструктур с заданными свойствами и параметрами отжига и зависит от используемой функции отжига.

После того, как фрагменты объединены посредством точных или обобщенных выражений, на стадии 1040 генерируется новый набор соединений, который включает в себя оба фрагмента. Пример молекулы из нового набора соединений показан на фиг. 11, которая представляет собой двухмерную карту относительных вкладов, показывающую относительный вклад по отношению к локальным координатам. Как можно видеть на фиг. 11, существуют два локальных максимума, показывающие приблизительные значения количественных показателей 1,2 и 1,7, для фрагментов Е1 и Е2.

Процесс отжига имеет преимущества по двум причинам. Первое преимущество заключается в том, что при объединении двух фрагментов, имеющих высокий вклад в желаемую активность, могут быть получены молекулы большего размера, что связано с тем фактом, что они включают в себя более чем один фрагмент с высоким количественным показателем.

По этой причине получаемые структуры имеют хорошие шансы для того, чтобы иметь даже более высокое значение количественного показателя, чем самое высокое значение количественного показателя для обоих фрагментов.

Например, в структуре на фиг. 11, полученное соединение включает в себя фрагменты, имеющие значения количественных показателей 1,2 и 1,7, но могут приводить к общему значению количественного показателя для структуры в целом, например 2,1. По этой причине методика отжига дает возможность для обнаружения соединений с еще более высокой активностью.

Второе преимущество заключается в том, что методика отжига позволяет избежать зависаний в процессе компьютерных вычислений. Как можно увидеть на фиг. 11, значения относительных вкладов демонстрируют два локальных максимума. Когда итерационный процесс, изображенный на фиг. 3, осуществляется, начиная с малых фрагментов и увеличивая размер фрагмента в каждой итерации от цикла к циклу, зависание может произойти, когда выбранный фрагмент в одной из промежуточных стадий расположен на локальном максимуме.

Например, когда в конце второго цикла выбирается фрагмент N-0=0, и этот фрагмент расположен на локальном максимуме, следующий цикл не будет успешным. Как описывается выше, фрагменты следующего цикла предпочтительно строятся из выбранного фрагмента предыдущего цикла путем пошагового увеличения размера фрагмента. Таким образом, когда к выбранному фрагменту добавляется какой-либо атом, следующий цикл будет сдвигать фрагмент из локального максимума. То есть, в этом случае любой получающийся фрагмент будет иметь более низкое значение количественного показателя, чем выбранный фрагмент предыдущего цикла.

Для исключения этого зависания, может быть применена методика отжига путем выбора двух хороших фрагментов из предыдущего цикла, соединения фрагментов, вычисления значения количественного показателя и продолжения процесса. Это может проделываться периодически, от цикла к циклу, или когда обнаруживается зависание.

Хотя изобретение описывается с использованием ряда предпочтительных воплощений, специалисту в данной области понятно, что настоящее изобретение ни в коем случае не ограничивается этими воплощениями. Например, последовательность стадий способа, представленная на блок-схемах, может быть изменена, или стадии, которые изображены как осуществляемые последовательно, могут быть осуществлены даже параллельно, см., например стадии 1010 и 1020 процесса, показанного на фиг. 10.

Кроме того, специалисту в данной области ясно, что не все из показанных стадий способа затребованы в любом варианте осуществления.

Например, в процессе присвоения количественных показателей на фиг. 6 параметры, которые не используются функцией количественных показателей, вычислять не требуется. Кроме того, параметры могут вычисляться параллельно, с использованием многозадачной или многопоточной операционной системы.

Дополнительные воплощения настоящего изобретения теперь будут описываться с помощью примеров.

Например, библиотека фрагментов, генерируемая на стадии 230, теоретически может содержать все возможные фрагменты и их сочетания. Это может быть достигнуто на практике, если библиотека генерируется с помощью компьютера. Тем не менее, если библиотека генерируется вручную, является вероятным, что она будет содержать только некоторую выборку из всех возможных фрагментов. По этой причине способ может быть повторен с использованием сочетаний фрагментов, в частности сочетаний фрагментов, для которых высокие значения количественных показателей получаются в предыдущем анализе.

Таким образом, после начального анализа фрагментов те фрагменты, которые с наибольшей вероятностью будут вносить вклад в химический и/или биологический результат, представляющий интерес, могут быть объединены, и может быть применен алгоритм, как описывалось ранее, для оценки вклада указанного объединенного фрагмента в химический и/или биологический результат, представляющий интерес. Полученное значение количественного показателя может сравниваться со значениями количественных показателей индивидуальных фрагментов, чтобы проверить, приводит ли объединение к усовершенствованию вклада в химический и/или биологический результат, представляющий интерес.

В другом варианте осуществления настоящего изобретения может быть возможным выделение из фрагментов, имеющих самый большой вклад в химический и/или биологический результат, представляющий интерес, общей структурной части, чтобы идентифицировать, является ли вклад указанной общей части таким же или более высоким, чем у исходных фрагментов.

Фрагменты с самыми высокими значениями количественных показателей представляют собой химический детерминант или молекулярные «отпечатки пальцев», имеющие самый высокий весовой коэффициент вклада в данный химический или биологический результат.

С получением идентифицированных указанных «отпечатков пальцев» затем возможно создание библиотеки соединений, содержащей указанный химический детерминант (детерминанты). Соединения могут быть получены с помощью программы синтеза, построенной вокруг рассматриваемой структурной особенности.

Альтернативно, соединения, содержащие химический детерминант, могут быть идентифицированы в коммерческих каталогах и закуплены из соответствующего источника. Соединения необязательно должны быть приготовлены для фармацевтических целей и могут быть доступны из различных источников.

После того, как желаемая библиотека собрана, она может быть просмотрена относительно мишени (мишеней), представляющей интерес. Результаты просмотра могут дать идентификацию соединений, которые являются достаточно активными для дальнейшей разработки или могут предоставить исходные соединения для программы синтеза. Способ Ό8Ά в соответствии с настоящим изобретением дает возможность создать разнообразные, и к тому же, сильно сосредоточенные библиотеки, по отношению к конкретной биологической или фармакологической мишени. Таким образом, вероятность успеха при просмотре на активные соединения и/или полезные исходные соединения сильно возрастает.

В другом воплощении настоящее изобретение предусматривает способ идентификации молекул, имеющих определенные желаемые свойства, такие как биологически активные молекулы, этот способ включает в себя определение весового коэффициента вклада молекулярных фрагментов в некотором поднаборе молекул в данный химический или биологический результат, как описывается выше, идентификацию одного или нескольких фрагментов с самым высоким весовым коэффициентом, и компилирование набора соединений, эти соединения содержат один или несколько из указанных фрагментов, и необязательно исследование указанных соединений на желаемые свойства.

Можно понять, что этот способ точно так же может быть использован для идентификации фрагментов, которые приводят к нежелательным свойствам, например к отрицательным биологическим побочным эффектам, и, следовательно, для исключения из рассмотрения соединений, имеющих указанные фрагменты.

Таким образом, процесс по настоящему изобретению генерирует структурные гипотезы (фрагменты), для которых вероятность того, что они являются объяснением данного биологического, биохимического, фармакологического или токсилогического результата, оценивается путем вычисления количественного значения некоторого количественного показателя. Рассмотрение значения количественного показателя для данного фрагмента дает разработчику лекарственных средств возможность принятия информированных решений относительно подхода, который с наибольшей вероятностью достигнет желаемой цели, такой как идентификация более сильнодействующих соединений, обнаружение новых рядов активных соединений, идентификация более селективных или более биологически доступных соединений или устранение токсических воздействий.

Способ по настоящему изобретению сосредотачивается на фрагментах, присутствующих в поднаборе соединений, представляющих интерес, тем самым устраняя необходимость в осуществлении трудоемких вычислений для многочисленных, но с большей вероятностью менее важных секторов химического пространства. Это приводит к уменьшению количества стадий компьютерных вычислений, которые необходимы для достижения данного биологического результата, при этом сохраняя базовый уровень молекулярного понимания, который является необходимым, в порядке постулирования существования биологически активных химических детерминантов.

Как обсуждалось выше, процесс по настоящему изобретению включает в себя поиск локальных экстремумов одной или нескольких функций, которые легко могут быть выбраны таким образом, чтобы они соответствовали вероятностям, приведенным в широко используемых статистических таблицах. Это дает элегантный метод оценки потенциального вклада данного фрагмента в химический или биологический результат. Тем не менее, в порядке осуществления настоящего изобретения не является необходимым основывать анализ на статистической теории.

Способ Ό8Ά по настоящему изобретению может быть использован в большом множестве применений для обнаружения лекарственных средств. Как описывается выше, способ дает возможность идентификации фармакофоров, которые имеют высокую вероятность вклада в данную биологическую активность, например антагонистов рецептора 7-ТМ, ингибиторов киназы, ингибиторов фосфатазы, блокаторов ионных каналов и ингибиторов протеазы, а также активных остатков, существующих в природе пептидэргических лигандов.

Способ также дает возможность идентификации эндогенных модуляторов мишеней для лекарственных средств, облегчая идентификацию новых осей фармакологического вмешательства, а также рациональную инкорпорацию новых фармакологических свойств в молекулы, ранее лишенные таких указанных свойств.

Способ может также быть использован для идентификации ложных положительных и ложных отрицательных результатов во множествах данных, например в тех, которые получены с помощью высокопроизводительного «отсеивания» (просмотра). Ό8Ά также является пригодным для использования при предсказании селективности соединений, например, путем идентификации потенциально нежелательных вторичных воздействий.

Способ может быть использован таким же образом для предсказания токсических воздействий соединения, путем идентификации его «токсикофорных» химических детерминантов, что в сочетании с изложенным выше дает возможность построения баз данных химических детерминантов, предназначенных для широкого анализа с целью селекции химических рядов. В этом контексте способ дополнительно дает возможность рациональной инкорпорации новых фармакологических свойств в химические соединения, ранее лишенные таких активностей. Наконец, и с помощью их способности к идентификации наиболее приемлемого уровня молекулярного расхождения, которое должно исследоваться во время «отсеивания», способ Ό8Ά дает возможность эффективно осуществлять рациональные, с массовым параллелизмом, автоматизированные сеансы высокопроизводительного скрининга (отсеивания), что представляет собой заметное усовершенствование по сравнению с современными стратегиями обнаружения НТР.

Станет ясно, что в указанном выше способе по меньшей мере одна стадия осуществляется с помощью системы, контролируемой компьютером. Таким образом, например, значения х, у, ζ и Ν, получаемые из базы данных (баз данных), могут вводиться в запрограммированный соответствующим образом компьютер и обрабатываться в нем. Настоящее изобретение следовательно распространяется на такие способы, контролируемые компьютером или осуществляемые компьютером.

Из приведенного выше описания, является ясным, что настоящее изобретение предусматривает новый способ для быстрой идентификации молекул, имеющих определенные желаемые свойства, таких как биологически активные молекулы. В частности, настоящее изобретение относится к способу определения статистического веса эффективности молекулярных структур в порядке идентификации биологически активных остатков молекулярных структур, и использования этих остатков в создании сосредоточенных коллекций химических соединений, для более быстрого и экономически эффективного обнаружения лекарственных средств.

Предусматривается способ увеличения доли биологически активных соединений в данном наборе химических объектов, где указанные объекты уже не являются известными как имеющие желаемую биологическую активность. Указанный способ включает в себя применение различных математических методик для определения количественных соотношений структура-активность (О8ЛЯ). Этот новый способ, который может быть назван дискретным субструктурным анализом (Ό8Ά), обеспечивает решение, например, проблемы распознавания фармакологических структур, то есть проблемы идентификации химических детерминантов (СЭ). которые являются ответственными по отношению к данному соединению за любой данный химический или биологический результат, который может представлять собой, например, биологическую, биохимическую, фармакологическую, химическую и/или токсикологическую активность.

Способ по настоящему изобретению имеет широкое применение и не является ограниченным областью фармацевтики. С точки зрения биологически активных соединений способ, например, может быть использован в связи с пестицидами и гербицидами, где желаемая биологическая активность представляет собой, соответственно, пестицидную и гербицидную активность. Способ также может быть использован в применениях, относящихся к моделированию реакций, где желаемые свойства представляют собой скорее химические, чем биологические атрибуты, например, при приготовлении катализаторов.

Будет понятно, что методикой настоящего изобретения является объединение в подмножестве или среди различных подмножеств тех фрагментов, которые с наибольшей вероятностью вносят вклад в химический и/или биологический результат, представляющий интерес, и применение некоторого алгоритма для оценки вклада указанного объединенного фрагмента в химический и/или биологический результат, представляющий интерес, при этом полученное значение количественного показателя может сравниваться со значениями количественных показателей индивидуальных фрагментов, чтобы проверить, приводит ли объединение к усовершенствованию вклада в химический и/или биологический результат, представляющий интерес.

Кроме того, настоящее изобретение дает возможность выделения из фрагментов, имеющих наибольший вклад в химический и/или биологический результат, представляющий интерес, общей структурной части с тем, чтобы определить, является ли вклад указанной общей части таким же у как исходных фрагментов, или более высоким, чем у них.

Кроме того, используется мера взаимосвязи, которая предпочтительно выбирается из субтрактивных мер, мер отношения или смешанных мер. Мера взаимосвязи предпочтительно инкорпорируется или развивается в функцию количественных показателей. Функция количественных показателей может быть разработана с использованием статистического метода, выбираемого из метода критического отношения, точного критерия Фишера, хи-квадрат критерия Пирсона, хи-квадрат критерия МантеляХензеля, сопоставления значений крутизны и тому подобное. Другое предпочтительное воплощение представляет собой то, что функция количественных показателей разрабатывается с использованием способа, выбранного из вычис ления и сравнения точных и приблизительных доверительных интервалов, коэффициентов корреляции или любой функции, четко содержащей меру взаимосвязи, включающую в себя одну, две, три или четыре переменных из х, у, ζ и N.

Предпочтительно, настоящее изобретение осуществляет стадию выбора молекул, содержащих фрагменты с самыми высокими количественными показателями, в качестве потенциальных лигандов, и их необязательное исследование, впоследствии в качестве модуляторов мишени для лекарственного средства. Процесс по настоящему изобретению предпочтительно может быть использован для идентификации ложных положительных и/или ложных отрицательных экспериментальных результатов. Другие предпочтительные применения заключаются в осуществлении поисков сходства, анализа различий и/или конформационного анализа.

Далее приведены примеры, показывающие многочисленные применения процесса Ό8Ά в соответствии с настоящим изобретением. Эти примеры являются предпочтительными воплощениями настоящего изобретения и служат для иллюстрации настоящего изобретения, но не должны рассматриваться как ограничение его рамок.

Пример №1. Рациональная идентификация новых и селективных лигандов для рецептора.

Разрабатывают анализ конкурентного связывания для рецептора на поверхности клетки, с использованием препарата рекомбинантной мембраны и радиоактивно меченного пептида. Собирают коллекцию соединений для исследования в анализе, она исследуется, и новые лиганды для рецептора идентифицируют в соответствии со способом по настоящему изобретению. Первая стадия состоит в компилировании списка из 208 структур антагонистов к тому же указанному рецептору, с помощью обзора текущей научной литературы. Вторая стадия состоит в идентификации биологически активных химических детерминантов, содержащихся в этих 208 лигандах для рецепторов. По этой причине дополнительный список, содержащий 101130 структур, описанных как не имеющие воздействия на этот же указанный рецептор, генерируется и добавляется к первому. Затем полученный список из 101338 структур анализируют на присутствие биологически активных химических детерминантов путем выбора субтрактивной меры взаимосвязи (I), где х представляет собой количество активных химических структур, содержащих химический детерминант, представляющий интерес, у представляет собой общее количество химических структур, содержащих этот же указанный химический детерминант, ζ представляет собой общее количество активных химических структур в наборе из N молекул (то есть, ζ=208) и N представляет собой общее количество химических структур, подвергающихся анализу (то есть N=101338).

(I) №^ζ

Затем мера взаимосвязи (I) преобразуется в функцию количественных показателей (II), которую специалист в данной области опознает как косвенную меру вероятности осуществления события, модифицированную для различных соответствующих факторов. Например, член N/2 в числителе второго коэффициента произведения в логарифмическом масштабе представляет собой консервативную подгонку нормальной аппроксимации к биномиальному распределению, которое представляет собой полезную модификацию для работы с относительно малыми значениями х, у, ζ или N. Переменные ΜΨ и [8], которые соответственно представляют собой молекулярную массу химического детерминанта, представляющего интерес (Μν), и количество раз, которое один и тот же указанный химический детерминант появляется в поднаборе активных соединений х ([8]), включаются в функцию количественных показателей, способствуя идентификации во время анализов самых больших из возможных одноэлементных биологически активных химических детерминантов. Специалист в данной области обнаружит, что и другие меры взаимосвязи и/или функций количественных показателей могут быть использованы для этой же цели вместо тех, которые описаны в формулах (I) и (II), наиболее подходящие из которых в смысле настоящего изобретения содержат различные сочетания из двух, трех или четырех из переменных х, у, ζ и N.

Специалист в данной области также обнаружит, что функция количественных показателей (II) также может быть модифицирована, с тем, чтобы она содержала дополнительные переменные, относящиеся к материалу, биологическим, химическим и/или физико-химическим свойствам молекул. Например, такие модификации могут включать, но никоим образом не ограничиваются этим, поправки на сильнодействие, селективность, токсичность, биологическую доступность, стабильность (метаболическую или химическую), простоту синтеза, чистоту, коммерческую доступность, доступность реагентов для синтеза, стоимость, молекулярную массу, молярный коэффициент преломления, молекулярный объем, 1одР (вычисленный или определенный) соединения, преобладание данной субструктуры в коллекции молекул, подобных молекулам лекарственных средств, общее количество и/или типы атомов, общее количество и/или типы химических связей и/или орбиталей, количество акцепторных групп для Н-связи, количество донорных групп для Нсвязи, заряды (парциальные и формальные), константы протонирования, количество молекул, содержащих дополнительные химические ключи или дескрипторы, количество вращающихся связей, индексы гибкости, индексы молекулярной формы, соответствие при совмещении и/или перекрывающиеся объемы.

Анализ 101338 структур приводит к идентификации восьми различных химических детерминантов, находящихся в пределах от 150 до 230 Эа по молекулярной массе и имеющих вероятность, меньшую чем 1 к 10000, присутствия в поднаборе активных химических структур, только на случайной основе (р<0,0001). Соответственно все восемь химических детерминантов принимаются в качестве представителей одного или нескольких биологически активных компонентов 208 лигандов для рецептора, полученных из литературы, и сводятся в четвертый список. Затем вычисления с использованием формулы (II) повторяют в качестве итерации, чтобы убедиться, может ли быть идентифицирован химический детерминант большего размера, возникающий при объединении или дополнительном расширении любого из этих восьми фрагментов. Самый большой статистически значимый химический детерминант, обнаруженный при этих дополнительных вычислениях, имеет молекулярную массу 335 Эа и выбирается в качестве репрезентативного каркаса или фармакологически активных «отпечатков пальцев» для последующего выбора и синтеза. Третья стадия процесса включает в себя использование репрезентативного каркаса, описанного выше, в качестве шаблона для виртуального «просеивания» и выбора соединения. По этой причине поиски субструктур производят в базе данных из более чем 600000 коммерчески доступных соединений, используя как вычисленные «отпечатки пальцев», так и их фрагменты. В целом, на основе этих поисков получают 1360 соединений, и дополнительные 1280 соединений выбирают случайным образом и получают от тех же самых поставщиков, для целей контроля.

Четвертая и пятая стадии, представляющие собой конечные фазы процесса, осуществляются параллельно. Четвертая стадия включает в себя исследование двух наборов соединений, описанных выше, при анализе связывания радиоактивно меченных лигандов. Из 1360 молекул, выбранных на основе репрезентативного каркаса, 205 молекул демонстрируют конкурентную активность, когда они анализируются при концентрациях, находящихся в пределах между 1 и 10 мкМ, 21 соединение демонстрирует активность, когда они исследуются при концентрациях, находящихся в пределах между 0,1 и 1 мкМ и одно соединение, названное соединение А, демонстрирует сродство к рецептору (Κι) 8,1±1,05 нМ (п=12). Каждое из 1280 выбранных случайным образом соединений не демонстрирует никаких свойств связывания с рецептором, когда исследуются при концентрации 10 мкМ. Как таковой, набор соединений, компилируемый на основе репрезентативных «отпечатков пальцев», был по меньшей мере в 21 раз более эффективным, при получении активных молекул, чем набор случайных соединений (р<0,0001).

Соединение А, как обнаружено, представляло новый, до сих пор неизвестный класс ингибитора рецептора, представляющего интерес. Фиг. 12 иллюстрирует воздействие соединения А на опосредованное рецептором генерирование инозитол трифосфата. Клетки, экспрессирующие рецептор, представляющий интерес, предварительно нагружаются радиоактивно меченным инозитолом и экспонируются для агониста (соперника) рецептора, в присутствии увеличивающихся концентраций соединения А. Генерирование инозитол трифосфата (1Р₃) измеряется после элюирования радиоактивно меченных клеточных инозитол фосфатов из аффинной («хроматографической») колонки. Соединение А ингибирует индуцируемое агонистом генерирование 1Р₃, при значении 1С₅₀ 22 нМ это значение совпадает со сродством соединения к рецептору.

Как показано на фиг. 12, соединение А значительно понижает опосредованное рецептором генерирование инозитол трифосфата в функциональном анализе на основе клеток (1С₅₀=22 нМ), что совпадает как со сродством соединения к рецептору, так и с использованием антагонистов рецептора в вычислениях, описанных выше. Наконец, соединение А определяют как являющееся высокоселективным по отношению к рецептору, представляющему интерес, постольку поскольку оно не демонстрирует значительной ингибиторной активности, когда исследуется при концентрации 10 мкМ, в более чем 20 других анализах связывания радиоактивно меченных лигандов с рецепторами.

Пятая стадия состоит в использовании репрезентативного каркаса, описанного выше, для планирования концептуального построения и синтеза новых химических соединений в смысле композиции материала и с точки зрения идентификации новых молекул с активностями по отношению к связыванию с рецепторами. По этой причине составляется список химических реагентов и продуктов реакции, где биологически активный репрезентативный каркас, описанный выше, или его фрагменты содержатся либо в химических структурах реагентов, либо в получаемом продукте (продуктах) реакции. Выбирают более чем 2000 сочетаний реагентов и синтезируют соответствующие продукты реакции для исследования. Исследование этих соединений в анализе связывания с рецептором приводит к идентификации нового класса химического соединения в смысле композиции материала, ряд представителей которого демонстрируют значения 1С₅₀ в пределах от 50 до 500 нМ.

Пример № 2. Рациональная идентификация новых и селективных ингибиторов киназы.

Разрабатывают ферментный анализ для киназы человека, вовлеченной в воспалительный процесс, для которой никаких ингибиторов ранее не было описано в литературе. Составляется коллекция соединений для исследования в анализе, и новые ингибиторы киназы идентифицируют в соответствии со способом по настоящему изобретению. Первая стадия состоит из компилирования списка из 2367 химических структур ингибиторов белков, связывающихся с пуриновыми нуклеотидами, из научной литературы, включая структуры соединений, о которых известно, что они ингибируют другие киназы, фосфодиэстеразы, рецепторы, связывающие пуриновые нуклеотиды, и ионные каналы, модулируемые пуриновыми нуклеотидами, по этой причине упоминаемые как суррогатные мишени. Вторая стадия состоит в идентификации биологически активных химических детерминантов, содержащихся в этих 2367 химических структурах. По этой причине генерируется дополнительный список, содержащий 98971 структуру, описанную как не имеющую воздействия на такие же указанные суррогатные мишени, и добавляется к первому. Полученный список из 101338 структур анализируется на присутствие биологически активных химических детерминантов путем выбора меры отношения для взаимосвязи (III), где х представляет собой количество активных химических структур, содержащих химический детерминант, представляющий интерес, у представляет собой общее количество химических структур, содержащих этот же указанный химический детерминант, ζ представляет собой общее количество активных химических структур в наборе из N молекул (то есть, ζ = 2367) и N представляет общее количество химических структур, подвергающихся анализу (то есть, N = 101»338).

Затем мера взаимосвязи (III) преобразуется в функцию количественных показателей (IV), которую специалист в данной области опознает как способ, с помощью которого устанавливается значение нижнего предела 95% доверительного интервала меры (III) путем использования логарифмического преобразования, чтобы сделать распределение отношения более сравнимым с тем же параметром нормального распределения, и аппроксимации с помощью первого члена ряда Тейлора, для оценки дисперсии логарифма этого же указанного отношения. В этом случае никаких дополнительных переменных, иных чем х, у, ζ или Ν, в функции количественных показателей не используется, хотя для специалиста в данной области ясно, что формула (IV) может также быть модифицирована таким образом, чтобы она содержала дополни тельные переменные, связанные с материалом, биологическими, химическими и/или физикохимическими свойствами молекулы, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Специалисту в данной области также ясно, что и другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для этой же цели вместо тех, которые описываются в формулах (III) и (IV), наиболее подходящие из которых, в смысле настоящего изобретения, содержат различные сочетания из двух, трех или четырех из переменных х, у, ζ и Ν.

. г, _ - _Л- „ _ -у-Ζ + χ) ^-2Л/х+11(у-х)+\/(х-х)у11(Ы-у-г+х) (IV) ЬСОГ е— —7 ст Г—е (ζ-хХу-х)

Анализ 101338 химических структур, отмеченных как имеющие разнообразные биологические активности, осуществляется путем присвоения количественных показателей ряду химических детерминантов с помощью формулы (IV), до тех пор пока одна или несколько групп детерминантов не будет распознана как содержащая элементы, имеющие значения, большие, чем единица, что соответствует вероятности, меньшей чем 1 к 20, для нахождения в поднаборе биологически активных структур, только на случайной основе (р<0,05). Соответственно, эти химические детерминанты принимаются как представители одного или нескольких фармакологически активных компонентов ингибиторов суррогатных мишеней, описанных в литературе, и собираются вместе в четвертом списке. В противоположность поиску сочетаний этих детерминантов с максимальными количественными показателями, как описывается в примере № 1, эти структуры непосредственно используются в качестве репрезентативных каркасов или фармакологически активных отпечатков пальцев, для последующего выбора и синтеза соединений.

Третья стадия включает в себя использование репрезентативных каркасов, описанных выше, в качестве шаблонов для виртуального «просеивания» и выбора соединений. По этой причине осуществляются поиски субструктуры в базе данных из более чем 250000 коммерчески доступных соединений с использованием, как вычисленных «отпечатков пальцев», фрагментов, так и их сочетаний. В целом, на основе этих поисков получают 2846 соединений и используют такую же коллекцию из 1280 выбранных случайным образом соединений как описано в примере № 1 для целей контроля.

Четвертая и пятая стадии, составляющие конечные фазы процесса, осуществляются параллельно. Четвертая стадия включает в себя исследование полученных соединений в ферментном анализе. Из 2846 молекул, выбранных на основе репрезентативных каркасов, 88 молекул демонстрируют ингибиторную активность, когда они исследуются при концентрации 5 мкМ. Среди них шесть молекул демонстрируют значения 1С₅₀ в пределах от 0,2 до 2 мкМ и одно соединение, называемое соединением В, демонстрирует значение 1С₅₀ 1 64 нМ (фиг. 13).

Фиг. 13 иллюстрирует воздействие соединения В на киназазависимое фосфорилирование белка. Киназу, представляющую интерес, инкубируют вместе с радиоактивно меченным АТФ и пептидным субстратом, в присутствии увеличивающихся концентраций соединения В. Фосфорилирование белка измеряют с использованием стандартных радиометрических методик.

Соединение В, значительно ингибированное киназазависимым фосфорилированием белкового субстрата, демонстрирует значение 1С₅₀164 нМ.

Среди 1280 соединений, выбранных случайным образом, исследуемых для целей контроля, всего лишь три демонстрируют ингибиторную активность в анализе «просмотром», наиболее сильнодействующее из них демонстрирует значение 1С₅₀ всего лишь 7,8 мкМ. Как таковой, набор соединений, компилируемый на основе репрезентативных «отпечатков пальцев», является в 13,2 раза более эффективным в качестве источника активных молекул, чем множество соединений, выбранных случайным образом (р<0,0001). Более того, соединение В, как обнаружено, представляет новый, до сих пор неизвестный класс ингибитора АТФконкурентной киназы, показывая более чем 250кратную селективность по отношению к киназе, представляющей интерес, когда оно исследуется в анализах селективности, с использованием, как структурно-, так и функциональнородственных альтернативных киназ.

Пятая стадия состоит в использовании одного или нескольких из репрезентативных каркасов, описанных выше, для планирования концептуального дизайна и синтеза новых химических соединений, в смысле композиции вещества, и с точки зрения идентификации новых молекул с киназаингибиторными активностями. По этой причине составляется список химических реагентов и продуктов реакции, причем биологически активные репрезентативные каркасы, описанные выше, или их фрагменты содержатся либо в химических структурах реагентов, либо в получаемом продукте (продуктах) реакции. Выбираются более чем 4000 сочетаний реагентов и соответствующие продукты реакции синтезируются для исследований. Исследования этих соединений в анализе «просмотром» приводят к идентификации двух новых классов химических соединений в смысле композиции вещества, ряд представителей которых демонстрирует значения 1С₅₀ в пределах от 100 до 500 нМ.

Пример № 3. Рациональная идентификация новых и селективных блокаторов ионных каналов.

Разрабатывают анализ для ионного канала, который, как предполагается, играет определенную роль в нейродегенерации, для которого никаких ингибиторов ранее в литературе описано не было. Составляют коллекцию соединений для исследования в этом анализе, исследуют и новые ингибиторы идентифицируют в соответствии со способом по настоящему изобретению. Первая стадия состоит в генерировании необходимых структурных данных для идентификации химических детерминантов ингибиторов канала, представляющего интерес. Это достигается с помощью исследования первых 3680 соединений в составленной авторами коллекции, при концентрации 5 мкМ, в просмотром («просеиванием») анализе и аннотирования каждой структуры в списке относительно ее ингибиторной активности. Используя предел 40% ингибирования в качестве порога для классификации, 36 структур идентифицируются как активные и оставшиеся 3644 соединения квалифицируются как неактивные.

Вторая стадия состоит в идентификации биологически активных химических детерминантов, содержащихся в структурах 36 ингибиторов. По этой причине 3680 аннотированных структур анализируют путем выбора описанной ранее меры взаимосвязи (1), где х представляет собой количество активных химических структур, содержащих химический детерминант, представляющий интерес, у представляет собой общее количество химических структур, содержащих этот же указанный химический детерминант, ζ представляет собой общее количество активных химических структур в наборе из N молекул (то есть ζ=36) и N представляет собой общее количество химических структур, подвергающихся анализу (то есть N=3680). Затем мера взаимосвязи (Ι) преобразуется в функцию количественных показателей (V), которую специалист в данной области опознает как коэффициент корреляции с произведением моментов, отражающий степень совместного изменения между двумя дихотомическими переменными, неявно показанный в формуле (V).

Νχ — νζ (V) Зсоге = . , , , :

^ζ(Ν-ζ)γ(Ν-у)

В этом случае никаких дополнительных переменных, иных чем х, у, ζ или Ν, не используется в функции количественных показателей, хотя специалисту в данной области ясно, что функция количественных показателей (V) также может быть модифицирована для включения в нее дополнительных переменных, связанных с материалом, биологическими, химическими и/или физико-химическими свойствами молекул, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Специалист в данной области также обнаружит, что другие меры взаимосвязи и/или функции количественных показателей могут быть ис39 пользованы для такой же самой цели, вместо тех, которые описаны в формулах (I) и (V), особенно, поскольку функция количественных показателей (V) не является инвариантной по отношению к различным изменениям в процессе исследований и/или распределений у, (Ν-у), ζ и (Ν-ζ). Наиболее подходящие из этих альтернативных способов в смысле настоящего изобретения содержат различные сочетания из двух, трех или четырех из переменных х, у, ζ и Ν.

Следующие далее вставки демонстрируют примеры химических детерминантов, используемых для анализа и выбранных для последующих действий. В целом, 3680 структур, аннотированных относительно ингибиторной активности по отношению к каналу, исследуются на наличие биологически активных субструктур, с использованием набора химических детерминантов, содержащего те пять, которые иллюстрируются на вставке А. Среди этих пяти структур детерминант № 4 демонстрирует самое высокое значение количественного показателя, показывающее, что он имеет самую высокую вероятность того, что он является основой ингибиторной активности по отношению к каналу. Соответственно, вычисления повторяются, в виде итераций для структур, содержащих детерминант № 4, и химическая структура, показанная на вставке В, идентифицируется как являющаяся одним из самых больших, статистически значимых детерминантов, содержащихся в наборе из 36 ингибиторов, и впоследствии выбирается для дальнейших действий. Символы: А представляет собой С, Ν, О или 8; В представляет собой Н или ОН.

Анализ 3680 аннотированных структур проводится путем присвоения количественных показателей ряду химических детерминантов, с помощью формулы (V) и путем удерживания структур, дающих самые большие ненулевые положительные значения. Примеры некоторых из химических детерминантов, используемых в этом процессе, показаны на вставке А вместе с их вычисленными значениями количественных показателей. Среди них детерминант № 4 демонстрирует самый высокий количественный показатель и оценивается как имеющий вероятность, меньшую чем 1 к 100, для нахождения в поднаборе блокирующих структур для каналов только на случайной основе (р<0,01). Соответственно, детерминант № 4 воспринимается как являющийся представителем биологически активной части большой доли из 36 ингибиторов, и вычисления с использованием формулы (V) затем повторяются в качестве итерации для то го, чтобы убедиться, могут ли быть идентифицированы еще большие химические детерминанты. Самый большой статистически значимый химический детерминант, обнаруженный при этих дополнительных вычислениях, показан на вставке В. Эта структура выбирается как репрезентативный каркас или фармакологически активные «отпечатки пальцев» для последующего выбора и синтеза соединения.

Третья стадия включает в себя использование репрезентативного каркаса, описанного на вставке В, в качестве шаблона для виртуального «просеивания» и выбора соединения. По этой причине осуществляются поиски субструктур в базе данных из более чем 400000 коммерчески доступных соединений с использованием как вычисленных «отпечатков пальцев», так и их фрагментов для этой цели. В целом, 1760 соединений получают на основе этих поисков, и такая же коллекция из 1280 случайным образом выбранных соединений, как описано в примере № 1, используется для целей контроля.

Четвертая и пятая стадии, составляющие конечные фазы процесса, осуществляются параллельно. Четвертая стадия включает в себя исследование полученных соединений в ферментном анализе. Из 1760 молекул, выбранных на основе репрезентативных каркасов, 84 молекулы демонстрируют ингибиторные активности по меньшей мере 40%, когда исследуются в анализе при концентрации 5 мкМ. Среди них 8 молекул демонстрируют значения 1С₅₀ в субмикромолярном диапазоне, а одно соединение, названное соединением С, демонстрирует значение 1С₅₀ 400 нМ. Два примера этих соединений, ингибирующих каналы, показаны ниже, оба из них содержат точные фармакологически активные отпечатки пальцев, показанные на вставке В

Эти два соединения, ингибирующие каналы, выбираются для исследования с использованием способа по настоящему изобретению. Обе молекулы значительно ингибируют канал, представляющий интерес. Как показано с помощью субструктур, выделенных жирными черными линиями, химические структуры двух соединений содержат фармакологически активный химический детерминант, идентифицированный с использованием способа по настоящему изобретению и показанный на вставке В выше.

Среди 1280 случайным образом выбранных соединений, исследуемых для целей контроля, в целом, 33 молекулы демонстрируют ингибиторную активность в анализе «просеиванием» с нижним пределом 40%. Как таковой, набор соединений, компилируемый на основе репрезентативных «отпечатков пальцев», показанных на вставке В, является в 1,8 раза более эффективным в качестве источника активных молекул, чем набор случайным образом выбранных соединений (р<0,005). Набор соединений, компилируемый на основе репрезентативных «отпечатков пальцев», показанных на вставке В, является также в 4,9 раза более эффективным в качестве источника активных молекул, чем первые 3680 соединений из общей коллекции соединений (р<0,0001).

Пятая стадия состоит в использовании репрезентативного каркаса, показанного на вставке В, для направления концептуального создания и синтеза новых химических соединений, в смысле композиции вещества, и с точки зрения идентификации новых молекул со свойствами ингибирования каналов. По этой причине один из 120 фармакологически активных ингибиторов, описанных выше, выбирается для дальнейших действий и химически модифицируется с использованием собранных ранее положительных и отрицательных результатов «просеивания» в качестве источника информации структура-активность. Эта работа приводит к синтезу и к последующей идентификации нового, не описанного до настоящего времени класса блокаторов ионных каналов, в смысле композиции вещества, ряд представителей которого показывают значения 1С₅₀ в пределах от 100 до 500 нМ. Исследования селективности показывают, что соединение является более селективным по отношению к каналу, представляющему интерес, по сравнению с 30 другими мишенями для лекарственных средств, и дополнительно ингибирует гибель клеток в модели апоптоза, индуцируемого удалением фактор роста нерва.

Пример № 4. Рациональная идентификация новых и селективных ингибиторов протеазы.

Разрабатывают ферментный анализ для протеазы, которая, как предполагается, играет ключевую роль при ишемическом повреждении и травме. Рассматриваемая протеаза является членом семейства родственных ферментов, которые сами по себе представляют единственную мишень, представляющую интерес для терапевтического вмешательства. Составляют коллекцию соединений для исследования в анализе, исследуют и новые ингибиторы ферментов идентифицируют в соответствии со способом по настоящему изобретению. Первая стадия состоит в генерировании необходимых структурных данных для идентификации химических детерминантов ингибиторов фермента. Это достигается путем исследования коллекции из 1680 соединений при концентрации 3 мкМ в анализе «просеиванием» и аннотирования каждой структуры на ингибиторную активность. Используя нижний предел 40% ингибирования в качестве порога для классификации соединения, структур идентифицируются как являющиеся активными, а оставшиеся 1663 молекулы квалифицируются как неактивные.

Вторая стадия состоит в идентификации биологически активных химических детерминантов, содержащихся в структурах 17 ингибиторов. По этой причине 1680 аннотированных структур анализируются путем выбора смешанной меры взаимосвязи, показанной ниже (VI), где х представляет собой количество активных химических структур, содержащихся в химическом детерминанте, представляющем интерес, у представляет собой общее количество химических структур, содержащих этот же указанный химический детерминант, ζ представляет собой общее количество активных химических структур в наборе из N молекул (то есть, ζ = 17) и N представляет собой общее количество химических структур, подвергающихся анализу (то есть N = 1680). В этом случае мера взаимосвязи (VI) непосредственно используется в качестве функции количественных показателей для идентификации биологически активных химических детерминантов, содержащихся в 17 ингибиторах, представляющих интерес.

В этом контексте не используется никаких дополнительных переменных, иных чем х, у, ζ или Ν, в функции количественных показателей, хотя для специалиста в данной области ясно, что формула (VI) может также быть модифицирована с тем, чтобы включить в нее дополнительные переменные, связанные с материалом, биологическими, химическими и/или физикохимическими свойствами молекул, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1.

Специалист в данной области также обнаружит, что другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для той же самой цели, вместо тех, которые описаны в формуле (VI), в особенности, поскольку непосредственное использование этой меры взаимосвязи всего лишь дает возможность относительной оценки вероятности того, что данный химический детерминант находится в основе биологической активности. Наиболее подходящие из этих альтернативных способов, в смысле настоящего изобретения, содержат различные сочетания из двух, трех или четырех из переменных х, у, ζ и Ν.

Анализ 1680 аннотированных структур осуществляется путем присвоения количественных показателей ряду химических детерминантов с формулы (VI), оставляя структуры, дающие самые большие положительные значения. Примеры некоторых из химических детерминантов, используемых в этом процессе, показаны ниже на вставке А, вместе с их вычисленными значениями количественных показателей.

Среди них детерминанты № 7 и 8 демонстрируют самые высокие количественные показатели и воспринимаются как представители одного или нескольких биологически активных компонентов, содержащихся в достаточной доле из 17 ингибиторов. Вычисления с использованием формулы (VI) затем повторяются в качестве итерации, чтобы убедиться, может ли быть идентифицирован еще больший химический детерминант, чего не происходит в случае использования доступной коллекции из 17 структур, и детерминанты № 7 и 8 сливаются вместе, с образованием репрезентативного каркаса или фармакологически активных «отпечатков пальцев», показанных ниже на вставке В, которые впоследствии используются для выбора и син-

ческих детерминантов, используемых для анализа и выбранных для дальнейших действий. В целом, 1680 структур, аннотируемых как имеющие ингибиторную активность по отношению к протеазе, исследуют на наличие биологически активных субструктур с использованием набора химических детерминантов, включая те четыре, которые иллюстрируются на вставке А. Среди четырех структур, детерминанты № 7 и 8 демонстрируют самые высокие значения количественных показателей, показывая, что они имеют самую высокую вероятность того, что они находятся в основе ингибиторной активности по отношению к протеазе. Детерминант, состоящий из простого бензольного кольца, имеет количественный показатель 0,02 для сравнения. Поскольку никаких структур с более высокими количественными показателями не было идентифицировано, когда проводились итерационные вычисления с помощью детерминантов № 7 и 8, эти две структуры сливаются в химический «рисунок», показанный на вставке В, который впоследствии используется в качестве фармакологически активных «отпечатков пальцев», для виртуального «просеивания» и выбора соединений. Символы: А представляет собой С или 8; В представляет собой Н, С, Ν, О или любой атом галогена.

Третья стадия включает в себя использование репрезентативного каркаса, описанного на вставке В, в качестве шаблона для виртуального «просеивания» и выбора соединения. По этой причине осуществляются поиски субструктур в базе данных из более чем 150000 коммерчески доступных соединений, используя для этой цели как вычисленные «отпечатки пальцев», так и их фрагменты. В целом, 589 соединений получают на основе этих поисков.

Четвертая и конечная стадия процесса включает в себя исследование полученных соединений в ферментном анализе. Из 589 соединений, выбранных на основе репрезентативного каркаса, 52 молекулы демонстрируют ингибиторные активности по меньшей мере 40%, когда они исследуются в анализе при концентрации 3 мкМ. Среди них 12 соединений демонстрируют значение 1С₅₀ в субмикромолярном диапазоне, и одно соединение, названное соединением Ό, демонстрирует значение 1С₅₀ 65 нМ. Шесть примеров этих молекул, ингибирующих протеазу, показаны ниже, все из них содержат по меньшей мере один случай фармакологически активных отпечатков пальцев, показанных на вставке В

Эти шесть соединений, ингибирующих протеазу, выбираются для исследования с использованием способа по настоящему изобретению. Каждая молекула значительно ингибирует белок, представляющий интерес, демонстрируя значение 1С₅₀ в пределах от 0,15 до 15 мкМ. Как показано с помощью субструктур, выделенных жирными черными линиями, структуры каждого из шести соединений содержат фармакологически активный химический детерминант, идентифицированный с использованием настоящего изобретения и показанный на вставке В выше. Некоторые из этих соединений на самом деле содержат более чем один вариант «отпечатков пальцев», такие, например, как тетрациклическая структура, показанная выше в нижнем правом углу.

Как таковой, набор соединений, компилируемый на основе репрезентативных отпечатков пальцев, показанных на вставке В, является в 8,7 раз более эффективным в качестве источников активных молекул, чем исходно исследуемая коллекция из 1680 соединений (р<0,0001). Кроме того, 52 рационально идентифицированных соединения, как обнаружено, являются селективными по отношению к протеазе, представляющей интерес, в то время как большинст во (>90%) не показывает никакой ингибиторной активности, когда они исследуются при концентрации 5 мкМ родственной протеазы, принадлежащей к тому же самому семейству ферментов, а также когда они исследуются в таких же условиях на 12 других мишенях лекарственных средств.

Пример № 5. Рациональная идентификация новых и селективных ингибиторов фосфатазы.

Разрабатывают ферментный анализ для фосфатазы, которая, как предполагается, играет важную роль в сенсибилизации и регуляции рецепторов. Составляют коллекцию соединений для исследования в анализе, исследуют и новые ингибиторы фермента идентифицируют в соответствии со способом по настоящему изобретению. Первая стадия состоит в генерировании необходимых структурных данных для идентификации химических детерминантов ингибиторов фермента. Это достигается путем исследования первых 12160 соединений из собранной коллекции при концентрации 3 мкМ, в анализе «просеиванием», и аннотирования каждой химической структуры относительно ее ингибиторной активности. Используя нижний предел 50% ингибирования в качестве порога для классификации соединения, в целом 15 химических структур идентифицируются в качестве являющихся активными, и оставшиеся 12145 молекул квалифицируются как неактивные.

Вторая стадия состоит в идентификации биологически активных химических детерминантов, содержащихся в структурах 15 ингибиторов. По этой причине 12160 аннотированных структур анализируют путем выбора смешанной меры взаимосвязи (VII), где х представляет собой количество активных химических структур, содержащих химический детерминант, представляющий интерес, у представляет собой общее количество химических структур, содержащих этот же указанный химический детерминант, ζ представляет собой общее количество активных химических структур в наборе из N молекул (то есть ζ=15) и N представляет собой общее количество химических структур, подвергающихся анализу (то есть N=12145).

(VII) (χ/ζ^ζ-χν^-ζ)

Затем мера взаимосвязи (VII) преобразуется в функцию количественных показателей (VIII), которую специалист в данной области опознает как связанную с оценкой относительного риска, с использованием крутизны линии регрессии, представляющей степень совместного изменения, которая существует между двумя дихотомическими переменными и которая дополнительно модифицируется, чтобы учесть молекулярную массу каждого рассматриваемого химического детерминанта (М^).

(VIII) 5соге= ΜΨ · _βί6^)-(ζ-χ)/(Ν-_ζ)1

В этом контексте никаких дополнительных переменных, иных чем х, у, ζ, N или М\У. в функции количественных показателей не используется, хотя специалисту в данной области будет ясно, что формула (VIII) также может быть модифицирована, с тем, чтобы включить в нее дополнительные переменные, связанные с веществом, биологическими, химическими и/или физико-химическими свойствами молекул, как рассматривается, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Специалист в данной области также обнаружит, что и другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для той же цели вместо тех, которые описаны в формуле (VIII), в частности, поскольку сравнение значений крутизны в некоторых случаях может не давать возможности для достаточного различения двух родственных химических детерминантов. Наиболее подходящие из таких функций количественных показателей, в смысле настоящего изобретения, содержат различные сочетания из двух, трех или четырех из переменных х, у, ζ и N.

Анализ 12160 аннотированных структур осуществляется путем присвоения количественных показателей ряду химических детерминантов с помощью формулы (VIII), оставляя структуры, дающие самые большие положительные значения. Это приводит к идентификации трех различных химических детерминантов, находящихся в пределах от 120 до 220 1)а по молекулярной массе и имеющих вероятность, меньшую чем 1 к 10 нахождения в поднаборе активных химических структур только на случайной основе (р<0,1). Соответственно все три химических детерминанта принимаются в качестве представителей одного или нескольких биологически активных компонентов 15 ингибиторов фермента, идентифицированных при «просеивании», и собираются вместе в четвертый список. Вычисления с использованием формулы (VIII) затем повторяются в качестве итерации, чтобы убедиться в том, может ли быть идентифицирован химический детерминант большего размера, возникающий при объединении или дальнейшем расширении любого из этих трех фрагментов. Самый большой статистически значимый химический детерминант, обнаруженный при этих дополнительных вычислениях, имеет молекулярную массу 255 1)а и выбирается в качестве репрезентативного каркаса или фармакологически активных отпечатков пальцев для последующего выбора соединения.

Третья стадия включает в себя использование репрезентативного каркаса, описанного выше, в качестве шаблона для виртуального «просеивания» и выбора соединения. По этой причине поиски субструктуры осуществляются в базе данных из более чем 800000 коммерческих и находящихся в частных руках соединений с использованием для этой цели как вычисленных отпечатков пальцев, так и их фрагментов. В целом, 1242 соединения выбираются для исследования на основе этих поисков и такая же коллекция из выбранных случайным образом 1280 соединений, описанных в примере № 1, используется для целей контроля.

Четвертая и конечная стадия процесса включает в себя исследование соединений в ферментном анализе. Из 1242 соединений, выбранных на основе репрезентативных каркасов, 34 молекулы демонстрируют ингибиторные активности по меньшей мере 50%, когда они исследуются при концентрации 3 мкМ. Среди них восемь соединений демонстрируют значения ГС50 в субмикромолярном диапазоне, а одно соединение, названное соединением Е, демонстрирует значение ГС₅₀ 87 нМ (фиг.14).

Фиг. 14 иллюстрирует воздействие соединений Е на фосфатазазависимое дефосфорилирование белка. Фосфатаза, представляющая интерес, инкубируется вместе с фосфорилированным пептидным субстратом в присутствии возрастающих концентраций соединения Е. Дефосфорилирование субстрата исследуется путем измерения выхода свободного фосфата в реакционную среду с помощью красителя малахитовый зеленый. Соединение Е значительно ингибирует фосфатазазависимое дефосфорилирование, демонстрируя значения Κ'.'₅₀ 87 нМ.

Среди 1280 соединений, выбранных случайным образом, исследуемых для целей контроля, всего лишь два демонстрируют ингибиторную активность в анализе «просеиванием», наиболее сильнодействующее из них демонстрирует значение Κ'.'₅₀ всего лишь 1,8 мкМ. Как таковой, набор соединений, компилируемый на основе репрезентативных «отпечатков пальцев», является в 17,5 раза более эффективным в качестве источника активных молекул, чем набор соединений, выбранных случайным образом (р<0,0005), и в 22,3 раз более эффективным, чем первые 12160 соединений из корпоративной коллекции соединений (р<0,00001).

Наконец, соединение Е, как обнаружено, представляет новый, неизвестный до настоящего времени класс ингибиторов фосфатазы, показывающий более чем 20-кратную селективность по отношению к мишени, представляющий интерес, когда он исследуется в анализе селективности, с использованием как структурно, так и функционально родственных альтернативных фосфатаз.

Пример № 6. Увеличение сильнодействия химических рядов.

Настоящее изобретение может также быть использовано для увеличения сильнодействия химических рядов. В качестве примера этого, коллекция из 1251 соединений исследуется при концентрации 3 мкМ в протеазном анализе, который дает 25 соединений, демонстрирующих ингибиторные активности по меньшей мере 40%. Анализ структур осуществляют так, как описывается в примере № 1, что приводит к идентификации ряда химических детерминан тов, один из которых имеет вероятность, меньшую чем 1 к 10000, для нахождения среди 7 из 25 ингибиторов протеаз только на случайной основе (р<0,0001). К сожалению, все семь соединений, содержащих только этот детерминант, демонстрируют умеренные ингибиторные активности (среднее значение Σ'5ο=3,4 мкМ ± 1,34 мкМ, п=7), делая их непривлекательными для последующих химических действий. Как следствие, рассматриваемый детерминант принимается как представляющий биологически активный компонент ингибиторов, представляющих интерес, и непосредственно используется в качестве репрезентативного каркаса или фармакологически активных «отпечатков пальцев» для дополнительного выбора соединения.

По этой причине база данных из более чем 100000 коммерчески доступных молекул подвергается просмотру («просеиванию») относительно детерминанта, представляющего интерес, и 142 молекулы выбираются для дополнительного исследования. Среди этих 142 соединений 11 демонстрируют ингибиторные активности в субмикромолярном диапазоне, демонстрируя среднее значение IС5₀ 0,48 мкМ±0,09 мкМ (п=11, среднее значение IС5₀ значительно меньше, чем предыдущее значение, при р<0,05). Как таковой, способ по настоящему изобретению обеспечивает возможность значительного увеличения фармакологического сильнодействия химических рядов.

Пример № 7. Увеличение селективности химических рядов.

Настоящее изобретение также может быть использовано для увеличения селективности химических рядов. В качестве примера этого, коллекцию из 3360 соединений исследуют, при концентрации 3 мкМ, в киназном анализе, названном киназный анализ № 1, который дает 22 соединения, демонстрирующих ингибиторные активности по меньшей мере 40%. Анализ структур осуществляют так, как описывается в примере № 2, который приводит к идентификации ряда химических детерминантов, один из которых, названный «детерминант № 10», оценивается как имеющий вероятность, приблизительно меньшую чем 1 к 20, для нахождения среди 3 из 22 ингибиторов киназ только на случайной основе (р<0,05). К сожалению, анализы селективности, осуществленные на четырех других киназах, показали, что детерминант № 10 является также важной составляющей ингибиторов другой киназы, названной киназой № 2, что говорит о том, что селективные ингибиторы киназы № 1 не могли бы быть разработаны на основе только детерминанта № 10. В самом деле, все три структуры, содержащие детерминант № 10, одинаково действуют на обе киназы, демонстрируя средние значения IС5₀ 7,2 мкМ ± 3,81 мкМ (п=3) и 21,5 мкМ ± 9,29 мкМ (п=3) на киназах № 1 и 2, соответственно, что представляет отношение селективности всего лишь 2,98 с преимуществом киназы № 1.

С этой точки зрения 3360 соединений, исследуемых на киназе № 1, повторно исследуются при концентрации 3 мкМ на киназе № 2, что дает 92 соединения, демонстрирующих ингибиторные активности по меньшей мере 40%. Список из 3360 структур впоследствии аннотируется относительно активности по отношению как к киназе № 1, так и № 2 и анализ осуществляется в соответствии со способом настоящего изобретения путем выбора меры взаимосвязи (III) и преобразования ее в функцию количественных показателей (IX), где х₁ представляет количество химических структур, активных на киназе № 1, содержащих химический детерминант, представляющий интерес, х₂ представляет количество химических структур, активных на киназе № 2, содержащих этот же указанный химический детерминант, у представляет общее количество химических структур, содержащих химический детерминант, ζ₁ представляет общее количество химических структур, активных на киназе № 1 в наборе из N молекул (то есть, ζ₁=22), ζ₂ представляет общее количество химических структур, активных на киназе № 2 в наборе из N молекул (то есть, ζ₂=92), и N представляет общее количество химических структур, подвергающихся анализу (то есть N=3360).

Специалист в данной области опознает функцию количественных показателей (IX) как способ сравнения относительных рисков, дающий возможность идентифицировать химические детерминанты, которые с наибольшей вероятностью являются селективными по отношению к одной киназе по сравнению с другой. В этом контексте специалисту в данной области понятно, что формула (IX) может быть модифицирована с тем, чтобы включить в нее дополнительные переменные, связанные с веществом, биологическими, химическими и/или физикохимическими свойствами молекул, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Наконец, также можно заметить, что другие меры взаимосвязи и/или функций количественных показателей могут быть использованы для этой же цели, вместо тех, которые описаны в формулах (III) и (IX). Например, в функции количественных показателей (II) может быть использована мера взаимосвязи (I), и полученные значения количественных показателей для активности киназы № 2 могут быть вычтены из значений, полученных для активности киназы № 1 или наоборот, значения, полученные для активности киназы № 1, могут быть разделены на значения, полученные для киназы № 2. Многочисленные другие подходы также являются возможными, наиболее подходящий из которых, в смысле на стоящего изобретения, использует функции количественных показателей, содержащие различные сочетания из двух, трех или четырех из переменных х, у, ζ и N.

Присваивание количественных показателей ряду химических детерминантов с использованием формулы (IX) приводит к идентификации ряда химических детерминантов, селективных по отношению к киназе № 1, один из них, названный «детерминант № 11», состоит из детерминанта № 10, замещенного дополнительным химическим «рисунком». Как следствие, детерминант № 11 принимается в качестве представителя фармакологически активного компонента селективных ингибиторов киназы № 1 и используется в качестве репрезентативного каркаса или фармакологически активных «отпечатков пальцев» для последующего выбора соединения. По этой причине поиски субструктур осуществляются в базе данных из более чем 400000 коммерчески доступных соединений с использованием детерминанта № 11 и его фрагментов. В целом, на основе этих поисков получают 498 соединений, которые затем исследуются в двух анализах, дающих три ингибитора, содержащие детерминант № 10, и демонстрирующие среднее значение Κ’₅₀ 0,94 мкМ ± 0,52 мкМ (п=3) и 31,6 мкМ ± 4,41 мкМ (п=3) , в анализах киназы № 1 и 2, соответственно. Этот результат представляет собой 11-кратное увеличение коэффициента селективности ряда по отношению к киназе № 1 по сравнению с киназой № 2 (от 2,98 до 33,6, р<0,05), демонстрируя, что способ по настоящему изобретению дает возможность для увеличения фармакологической селективности химических рядов, представляющих интерес.

Пример № 8. Рациональная идентификация рядов с множественными фармакологическими воздействиями.

Разрабатывают функциональный анализ для ионного канала, открывающегося с помощью лигандов, играющего, как предполагается, некоторую роль в иммунной реакции. Составляется коллекция соединений для исследования в этом анализе, она исследуется и идентифицируются новые блокаторы ионных каналов в соответствии со способом настоящего изобретения. Исследуемый канал описывается как принадлежащий к семейству мишеней, которые являются проницаемыми для ионов натрия, активируемых пуриновыми нуклеотидами и ингибируемых определенными блокаторами натриевых каналов. В этом свете решено идентифицировать фармакологические «отпечатки пальцев», имеющие двойную способность повторять действия пуриновых нуклеотидов и ингибировать натриевые каналы в одно и тоже время, имея в виду повышение шансов быстрой идентификации ингибиторов ионного канала, представляющего интерес, открываемого лигандами.

Первая стадия процесса включает в себя компилирование двух списков химических структур путем обзора текущей литературы. Первый список содержит структуры 79 документально известных ингибиторов натриевых каналов. Второй содержит структуры 2367 ингибиторов белков, связывающих пуриновые нуклеотиды (относительно деталей, см. пример № 2). Вторая стадия процесса состоит в идентификации биологически активных химических детерминантов, содержащихся одновременно в обоих списках химических структур. По этой причине каждый список пополняется структурами более чем 100000 молекул, описанных в качестве не имеющих воздействия на суррогатную мишень (мишени), представляющую интерес, и анализ осуществляют путем выбора субтрактивной меры взаимосвязи (I), как описывается в примере № 1, и преобразования ее в функцию количественных показателей (X), где х₁ представляет собой количество химических структур, активных в качестве натриевых каналов и содержащих химический детерминант, представляющий интерес, х₂ представляет собой количество химических структур, активных в качестве белков, связывающих пуриновые нуклеотиды и содержащих этот же указанный химический детерминант, у₁ представляет собой общее количество структур, содержащих химический детерминант, в списке структур, аннотированных относительно блокирующих воздействий на натриевые каналы, у2 представляет собой общее количество структур, содержащих химический детерминант, в списке структур, аннотированных относительно ингибирования белков, связывающих пуриновые нуклеотиды, ζ₁представляет собой общее количество структур, ингибирующих натриевые каналы, в наборе из Ν₁ молекул (то есть ζ₁=79), ζ₂ представляет собой общее количество химических структур, действующих на белки, связывающие пуриновые нуклеотиды, в наборе из Ν₂ молекул (то есть ζ₂=2367), и Ν₁ и Ν₂ представляют собой общее количество химических структур, подвергаемых анализу, в соответствующих списках аннотированных структур.

Специалист в данной области опознает функцию количественных показателей (X) как способ для объединения двух различных критериев взаимосвязи, дающих возможность идентификации химических детерминантов, которые с наибольшей вероятностью обладают воздействиями как на натриевые каналы, так и на белки, связывающие пуриновые нуклеотиды, в одно и тоже время. В этом контексте специалисту в данной области ясно, что формула (X) может быть модифицирована с тем, чтобы включить в нее дополнительные переменные, связанные с веществом, биологическими, химическими и/или физико-химическими свойствами молекул, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Заметим также, что и другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для той же самой цели вместо тех, которые описаны в формулах (I) и (X), в частности потому что функция количественных показателей (X) не принимает во внимание указание различий, существующих между долями двух наборов данных, в то же время требуя, чтобы эти доли были сравнимы; и более того, чтобы Ν₁ было сравнимым с Ν₂ и чтобы оба значения были больше, чем 20. Например, кто-то может пожелать ввести статистические веса результатов, для наборов данных, где размеры выборок являются заметно различными, путем использования функции количественных показателей на основе взвешенного среднего значения разницы между долями (см. далее пример 21). Альтернативно, кто-то может пожелать включить третье, или четвертое, или ί-тое фармакологическое свойство в вычисление, в этом случае ясно, что формула (X) будет расширена до ее более общей формы (XI), где б представляет собой количество списков соединений, подвергающихся анализу, и где полученные значения количественных показателей могут быть непосредственно соотнесены с таблицами стандартного нормального распределения в порядке определения вероятности нахождения одного или нескольких химических де терминантов, которые находятся в основе всех рассматриваемых фармакологических свойств. Также возможны многочисленные другие подходы, наиболее подходящие из которых, в смысле настоящего изобретения, используют функции количественных показателей, содержащие различные сочетания из двух, трех или четырех из переменных х, у, ζ и Ν.

Анализ двух списков аннотированных структур осуществляется путем присвоения количественных показателей ряду химических детерминантов с помощью формулы (X), оставляя структуры, дающие самые большие значения, большие чем 2. Это приводит к идентификации химического детерминанта, имеющего вероятность, меньшую чем 1 к 20, для нахождения в обоих поднаборах биологически активных структур только на случайной основе (р<0,05). Соответственно химический детерминант, названный «детерминант № 12», принимается в качестве представителя одного или нескольких биологически активных остатков ингибиторов, как натриевых каналов, так и белков, связывающих пуриновые нуклеотиды, и непосредственно используется в качестве репрезентативного каркаса или фармакологически активных «отпечатков пальцев», для последующего выбора соединения.

Третья стадия процесса включает в себя использование репрезентативного каркаса в качестве шаблона для виртуального «просеивания». По этой причине поиски субструктуры осуществляются в базе данных из более чем 250000 коммерчески доступных соединений с использованием для этой цели детерминанта № 12 и его фрагментов. На основе этих поисков получают в целом 800 соединений и такая же коллекция из 1280 случайным образом выбранных соединений, как описана в примере № 1, используется для целей контроля.

Четвертая и конечная стадия процесса включает в себя исследование полученных соединений в анализе с ионными каналами. Из 800 молекул, выбранных на основе детерминанта № 12, двадцать три соединения демонстрируют ингибиторную активность по меньшей мере 40%, когда они исследуются при концентрации 3 мкМ. Среди них три соединения демонстрируют значения Κ.'₅₀ в субмикромолярном диапазоне, а одно соединение, названное соединением Е, демонстрирует значение Κ.’₅₀ 145 Нт + 56 нМ (η=4). Среди 1280 соединений, выбранных случайным образом, исследуемых для целей контроля, всего лишь одна молекула демонстрирует значительную ингибиторную активность в низкомикромолярном диапазоне, и ее химическая структура на самом деле содержит значительную часть детерминанта № 12. Интересно, что когда та же коллекция из 800 соединений исследуется на киназе, которая также, как предполагается, играет роль в иммунной реакции, восемь соединений демонстрируют ингибиторные активности по меньшей мере 40%, когда они исследуются при 5 мкМ, соединение Е демонстрирует значение Κ.'₅₀ 1,2 мкМ и другое соединение, названное соединением С, демонстрирует значение ГС50 137 нМ ± 48 нМ (η=4). Соединения Е, С и ряд родственных им молекул, также содержащих детерминант № 12 в своих структурах, как обнаружено дополнительно, ингибируют натриевые каналы, как правило, демонстрируя 50-100% ингибирование при 1 мкМ. Взятые вместе, эти результаты демонстрируют, что способ по настоящему изобретению дает возможность выбора и/или создания соединений с множественными фармакологическими свойствами, которые могут представлять интерес при разработке лекарственных средств для использования при лечении многофакторных болезненных состояний, таких как, но не ограничиваясь этим, воспаление. Ясно также, по аналогии, что настоящий способ может быть использован для инкорпорации новых фармакологических свойств в химические ряды, ранее лишенные таких указанных свойств.

Пример № 9. Компилирование списков биологически активных химических детерминантов.

В предпочтительном воплощении настоящего изобретения настоящий способ может также быть использован для компилирования списков биологически активных химических детерминантов, которые, в свою очередь, могут быть использованы в качестве сравнительных баз данных для использования при осуществлении рационального создания лекарственных средств, так, например, как в контролируемых компьютером программах принятия решений, для использования в медицинской химии. В качестве примера этого делается обзор научной литературы и составляются 25 списков фармакологически активных молекул, при этом каждый список содержит химические структуры соединений, демонстрирующих данное фармакологическое свойство, такое, например, как связывание сигма-рецептора, агонизм по отношению к рецептору допамина Ό2 и антагонизм к рецептору эстрогена. Каждый список впоследствии анализируется в соответствии с настоящим изобретением путем выбора меры взаимосвязи (III), как описывается в примере № 2, и преобразования ее в функцию (IV), которая используется для получения количественных показателей различных химических детерминантов, содержащихся в одном или нескольких из списков, подвергающихся анализу. Эти вычисления приводят к идентификации большого количества фармакологически активных химических детерминантов, три из которых представлены в части полученной матрицы в следующей далее таблице.

Это таблица представляет сравнительный список фармакологически активных химических детерминантов. Двадцать пять списков структур, содержащих молекулы, описанные в качестве имеющих от одного до двадцати пяти различных фармакологических свойств, составляются и анализируются в соответствии со способом по настоящему изобретению с использованием меры взаимосвязи (III) и функции количественных показателей (IV). Двадцать пять свойств включают в себя способность связываться с сигма рецепторами (сигма лиганд), агонизм по отношению к рецептору допамина Ό₂(агонист Ό₂) и антагонизм по отношению к рецептору эстрогена (анатагонист эстрогена). Малая часть полученной матрицы из 26 столбцовпредставлена выше в таблице. Значения, большие чем 1, демонстрируют, что данный химический детерминант имеет вероятность, меньшую чем 1 к 20, случайного нахождения в наборе молекул, разделяющих одно и то же фармакологическое свойство, показывая, что детерминант с наибольшей вероятностью находится в молекулярной основе того же указанного свойства. Такие таблицы как та, которая представлена выше, составляют хранилища биологически активных детерминантов или «отпечатков пальцев», которые могут быть использованы в качестве сравнительных списков для принятия информированных решений при обнаружении и разработке лекарственных средств.

Интерпретация полученной таблицы осуществляется следующим образом. Соединения, химические структуры которых содержат детерминант № 13, с большей вероятностью демонстрируют свойства агонистов рецептора допамина Э₂, чем свойства либо связывания с сигма рецептором, либо анатагониста рецептора эстрогена как 8,12>1,85>0,05. Наоборот, детерминант № 13 является предпочтительным детерминантом для построения коллекций потенциальных агонистов рецептора допамина Э₂, как 8,12>2,93>0,00. Таким же образом соединения, у которых химические структуры содержат детерминант № 14, с большей вероятностью являются лигандами сигма рецептора, чем либо агонистами рецептора допамина, либо антагонистами рецептора эстрогена, как 2,4>0,00=0,00. Опять же, детерминант № 14 является предпочтительным детерминантом для компилирования наборов лигандов сигма рецептора, как 2,40>1,85>0,91. Наконец, соединения, у которых химические структуры содержат детерминант №15, с наибольшей вероятностью проявляются свойства ингибирования рецептора эстрогена, как 28,17>2,93>0,91 и, альтернативно, детерминант № 15 представляет собой предпочтительные «отпечатки пальцев» для компилирования коллекций потенциальных антагонистов рецептора эстрогена, как 28,17>0,05>0,00.

Специалисту в данной области ясно, что и другие меры взаимосвязи и/или функции количественных показателей могут быть использованы для построения таких таблиц, вместо тех, которые описаны в формулах (III) и (IV). Также можно заметить, что используемая функция количественных показателей может содержать дополнительные переменные, связанные с веществом, биологическими, химическими и/или физико-химическими свойствами структуры, как рассмотрено, но не ограничиваясь этим, для тех, которые цитируются в примере № 1. Ясно, кроме того, что функция количественных показателей или процесс присвоения количественных показателей также могут быть модифицированы с тем, чтобы включить в них стадию определения статистического веса или нормировки, чтобы сделать индивидуальные значения количественных показателей более легко сравнимыми друг с другом, что с определенностью представляет собой случай приведенной выше таблицы, при построении которой используют три образца со сходными размерами, но может отличаться от случаев с другими наборами данных. Наконец, ясно, что такой же процесс может быть использован для компилирования сравнительных списков структур, у которых количественные показатели присваиваются другим свойствам, представляющим интерес, в процессе обнаружения таких параметров, но не ограничиваясь этим, как терапевтическое применение, токсичность, поглощение, распределение, метаболизм и/или экскреция.

Пример № 10. Предсказание вторичных фармакологических воздействий молекулы.

В дополнение к этому, настоящее изобретение может быть использовано для предсказания вторичных воздействий молекулы. Для иллюстрации этого идентифицируется новый класс блокаторов ионных каналов, как показано в примере № 3. Как описано ранее, для других ингибиторов того же канала, основная химическая структура нового химического ряда ингибиторов содержит химический детерминант, показанный на вставке В примера № 3, конкретно, в форме детерминанта № 5, показанного на вставке А примера № 3. Путем сравнения детерминанта № 5 с детерминантами, содержащимися выше в таблице, можно предположить, что ингибиторы, представляющие интерес, имеют очень высокую вероятность связывания с сигма рецепторами, в частности, поскольку химическая структура детерминанта № 5 является идентичной структуре детерминанта № 14. Как следствие, блокаторы каналов, содержащие детерминант № 5, исследуются в анализе связывания с сигма рецепторами σ, и σ₂ и демонстрируют, как обнаружено, субмикромолярное сродство к обоим активным центрам. Сами по себе эти результаты демонстрируют, что значения количественных показателей, полученных с использованием способа по настоящему изобретению, дают возможность для предсказания вторичных воздействий химических рядов, что является исключительно пригодным для использования при разработке рядов в медицинской химии.

Пример № 11. Идентификация и предсказание токсичных воздействий молекул.

Из предыдущих примеров ясно, что способ по настоящему изобретению также может быть использован для идентификации токсикофорных химических детерминантов, содержащихся в пестицидах, гербицидах, инсектицидах, и тому подобное, и все это - просто путем анализа списков структур, которые аннотируются по отношению к токсикологическим свойствам, вместо фармакологических. В этом контексте настоящее изобретение может быть непосредственно применено для идентификации более сильнодействующих, селективных, и/или обладающих более широким спектром действия, токсичных химических рядов для использования, напри57 мер, в программах сельскохозяйственной химии, для защиты сельскохозяйственных растений.

Альтернативно, настоящее изобретение может быть использовано для компилирования сравнительных списков или баз данных токсичных химических детерминантов, способом, идентичным тому, который описан в примере № 9. Такие списки затем могут быть использованы для оценки вероятности того, что химический ряд будет демонстрировать заданное токсическое воздействие, которая может быть использована, например, при «просмотре» пищевых добавок и химикалиев в окружающей среде.

Для иллюстрации возможности предсказания токсических воздействий при задании параметров фармацевтических исследований 4480 соединений исследуются на клеточную фосфатазу, представляющую интерес для лечения воспаления. В целом, 25 соединений демонстрируют ингибиторные активности по меньшей мере 40%, когда они исследуются при 10 мкМ, в анализе, все они демонстрируют значение 1С₅₀ в низкомикромолярном диапазоне. Результаты анализа, осуществленного в соответствии со способом настоящего изобретения, который приводит к идентификации двух молекулярно различных химических детерминантов, которые с наибольшей вероятностью находятся в основе фармакологической активности, названы детерминантами № 16 и 17. Поскольку эти два детерминанта присутствуют в молекулах с одинаковым сильнодействием и оба они, как предполагается, способны давать химические ряды, которые были бы в равной степени пригодными для последующих химических действий, решено выбирать между ними двумя на основе предсказываемых токсических побочных воздействий.

По этой причине, структуры детерминантов № 16 и 17 сравниваются с структурами, содержащимися в токсикологической базе данных, и обнаруживается, что молекулы, содержащие детерминант № 16 в своих структурах, имеют значительно более высокую вероятность того, что они являются цитотоксичными, чем соединения, содержащие только детерминант № 17. Это показывает, что ингибиторы фосфатазы, несущие на себе детерминант № 16, были бы менее интересными для разработки, из-за присущей цитотоксичности фармакологических «отпечатков пальцев». Эта гипотеза проверяется экспериментально путем экспонирования культивируемых клеток для 1 мкМ концентраций обоих классов ингибитора и путем измерения жизнеспособности клеток с использованием стандартного анализа МТТ, где обнаружено, что все соединения, содержащие детерминант № 16, вызывают гибель клеток в пределах 24 ч после нанесения, что не является характерным случаем для большинства соединений, несущих на себе детерминант № 17. Сами по себе, эти ре зультаты ясно демонстрируют, что способ по настоящему изобретению дает возможность идентифицировать и/или предсказать химические ряды, которые с наибольшей вероятностью проявляют токсические свойства в этой обстановке. В этом контексте ясно, что идентичные вычисления могут быть осуществлены с использованием, например, данных по мутагенности (исследования Лтс5). данных по ингибированию изозима Р450 или данных другого соответствующего исследования токсичности.

Пример № 12. Идентификация биологически активных компонентов лигандов для рецептора.

Рецептор на поверхности клетки выбирается в качестве мишени, представляющей интерес для контроля определенных эндокринных расстройств. Этот рецептор описывается в качестве эндогенно активируемого нонапептидным гормоном, продуцируемым гипофизом. Список химических структур, описываемых в качестве лигандов того же указанного рецептора, компилируется путем обзора научной литературы. Список впоследствии анализируется в соответствии со способом по настоящему изобретению, с использованием меры взаимосвязи, функции количественных показателей (IV) и списка химических детерминантов, состоящих из фрагментов двадцати основных аминокислот (глицин, аланин, валин, лейцин, изолейцин, пролин, серин, треонин, тирозин, фенилаланин, триптофан, лизин, аргинин, гистидин, аспартат, глутамат, аспарагин, глутамин, цистеин и метионин), дополненного фрагментами структуры из основной цепи пептидов (ИН-СН-СО-)₃. Примеры

Они представляют собой примеры аминокислотных и полученных из основной цепи пептидов химических детерминантов, используемых для анализа. Список лигандов рецептора компилируется путем обзора научной литерату59 ры и анализируется в соответствии с настоящим изобретением с использованием меры взаимосвязи (III), функции количественных показателей (IV) и списка химических детерминантов, состоящего из различных фрагментов двадцати основных аминокислот, дополненного фрагментами структуры основной цепи пептидов (-ΝΗСН-СО-)₃-. Примеры некоторых детерминантов, полученных из триптофана, показаны в первых двух строчках. Они представляют собой либо точные фрагменты (пр: детерминанты №18, 19, 20, 21 и 26), сборки из точных фрагментов (пр: детерминант № 22), неточные фрагменты (пр: детерминанты №23, 24 и 25) или сборки из точных и неточных фрагментов (не показаны). Нижние две строчки: примеры детерминантов, полученных из структуры основной цепи пептидов (ΝΗ-СН-СО-Ц, представляющие собой точные (детерминанты № 29, 31, 32) и неточные фрагменты (детерминанты №27, 28, 30, 33). Символы: А представляет собой С или 8; В представляет собой С или Ν; Е представляет собой С, Ν, О или 8.

Присвоение количественных показателей фрагментам с помощью формулы (IV) приводит к идентификации ряда химических детерминантов, имеющих значения количественных показателей, большие чем 1, показывая, что соответствующие структуры имеют вероятность, меньшую чем 1 к 20, для нахождения в поднаборе фармакологически активных соединений только на случайной основе (р<0,05). Примеры таких детерминантов показаны ниже вместе с их соответствующими значениями количественных показателей

Они представляют собой примеры химических детерминантов с высокими количественными показателями, идентифицируемых в первом цикле анализа. Коллекция лигандов для рецепторов анализируется в соответствии с настоящим изобретением путем присвоения количественных показателей химическим детерминантам, показанным ранее, а также некоторому количеству других с помощью функции количественных показателей (IV). Значения, большие чем единица, демонстрируют, что детерминант имеет вероятность, меньшую чем 1 к 20, для нахождения в поднаборе лигандов для рецептора, только на случайной основе. Фигура выше показывает некоторые из химических детерминантов с более высокими количественными показателями, которые идентифицируются в этом процессе.

Соответственно, эти детерминанты принимаются в качестве представителей одной или нескольких аминокислот, содержащихся в первичной последовательности пептидного гормона, и их собирают вместе во втором списке. Затем вычисления с использованием формулы (IV) повторяются в качестве итерации, в порядке идентификации сочетаний из этих новых детерминантов с самыми высокими количественными показателями, некоторое количество из которых получает количественные показатели, со значениями, большими чем 10. Структура химического детерминанта с самым высоким количественным показателем, названного детерминант № 42, впоследствии сравнивается со структурами 800 дипептидов, состоящих из различных сочетаний по 20 аминокислот, и определяется, что всего лишь одна дипептидная последовательность, названная А1-А2, содержит детерминант № 42 в его полноте. Этот результат берется, чтобы показать, что гормон, представляющий интерес, с наибольшей вероятностью содержит последовательность А₁ -А₂ где-то в его первичной структуре, и более того, что по меньшей мере одна из двух аминокислот играет важную роль в связывании эндогенного лиганда с его рецептором. Проверка последовательности гормона доказывает, что он и на самом деле содержит предсказанную последовательность А1А2, событие, которое вычисляется в качестве имеющего вероятность всего лишь 0,019, для нахождения только на случайной основе. Интересно, что другая работа показывает, что пептиды, содержащие мутацию в положении А₂ последовательности А^А₂ (например, А₁-А₃, или А₁-А₄, вместо А^А₂, где А_ь А₂, А₃ и А₄ представляют собой различные аминокислоты), демонстрируют значительно более низкое сродство к рецептору, иллюстрируя, что по меньшей мере один из двух предсказанных компонентов на самом деле представляет собой важный компонент, лежащий в основе биологической функции гормона, представляющего интерес. Взятые вместе, эти результаты демонстрируют, что способ по настоящему изобретению дает возможность для идентификации биологически активных компонентов пептидных лигандов, что является пригодным для использования в программах медицинской химии, сосредотачивающихся на рациональном дизайне, например, пептидомиметических ингибиторов ферментов и/или лигандов для рецепторов.

Пример № 13. Предсказания взаимодействий белок-белок.

Настоящее изобретение также дает возможность для предсказания существования взаимодействий белок-белок способом, аналогичным тому, который описан в предыдущем примере. Для иллюстрации этого осуществляется «просеивание» ионных каналов, как описывается в примере № 3, который ведет к идентификации более двух дюжин молекул, демонстрирующих по меньшей мере 40% ингибирование, когда они исследуются при концентрации 5 мкМ. Химические структуры этих ингибиторов собираются вместе в список, который анализируется так, как описывается в примере № 12. Это приводит к идентификации ряда аминокислотных и полученных из основной цепи пептида химических детерминантов с высокими количественными показателями, которые после дополнительного анализа, как обнаружено, показывают, что канал, представляющий интерес, с наибольшей вероятностью взаимодействует с ингибиторным пептидом или белком, конкретно содержащими определенную дипептидную последовательность, названную А₅-А₆. Интересно, что такие ингибиторные белки описаны ранее в литературе, все они содержат домен, ингибирующий канал, из 20 аминокислот, содержащий именно предсказанную дипептидную последовательность А₅-А₆. Поскольку можно определить, что любая последовательность из 20 аминокислот имеет вероятность всего лишь 0,046 для содержания данной структуры последовательности из двух данных остатков на случайной основе, можно оценить, что вероятность предсказания существования двух различных дипептидных последовательностей, существующих в двух несвязанных между собой белках на случайной основе в этом и в предыдущем примере, составляет меньше чем 1 к 1097. Тем не менее, корректные предсказания проделаны в обоих случаях, демонстрируя, что настоящее изобретение дает возможность для идентификации и/или предсказания существования определенных типов взаимодействий белок-белок. Это может быть проделано просто, путем идентификации последовательности аминокислот, содержащей самый большой из возможных химический детерминант, идентифицированный в поднаборе фармакологически активных структур, а затем поиска в базах данных о последовательностях белков, содержащих аминокислотную последовательность, представляющую интерес. Описание этого процесса приведено ниже в примере № 14. В этом контексте специалисту в данной области ясно, что этот подход не является ограниченным только идентификацией дипептидных последовательностей, поскольку в зависимости от структур фармакологически активных соединений, подвергающихся анализу, три- или даже тетрапептидные последовательности также могут обнаруживаться. Ясно также, что подобный подход может также быть использован для непептидных лигандов, то есть, что способ также может быть приспособлен для обнаружения, например, последовательностей углеводов (то есть сахаров), нуклеотидов и тому подобное.

Пример № 14. Идентификация неизвестных пар лиганд-рецептор.

Кроме того, настоящее изобретение может быть применено к идентификации неизвестных лигандов и/или неизвестных пар лигандрецептор. Этот процесс начинается с компилирования списка химических структур, обладающих данным воздействием на белок, представляющий интерес (как правило, связыванием), но для которого во время исследования не известно никаких лигандов.

Эта информация может генерироваться с помощью ряда способов, таких как, но не ограничиваясь этим, осуществление исследований ЯМР, измерение конформационных изменений с помощью кругового дихроизма, измерения взаимодействий белок-лиганд с помощью поверхностного плазмонного резонанса, или, в случае неизвестного рецептора, путем осуществления анализов с помощью конститутивноактивированных мутантов рецептора, представляющего интерес.

Для иллюстрации этой концепции, предположим, что эксперименты типа, описанного выше, осуществляются на неизвестном рецепторе с получением структур, показанных ниже

Они представляют собой гипотетический список структур, анализируемых на биологически активные химические детерминанты. Все девять структур, показанных выше, анализируются в соответствии с настоящим изобретением, как описывается в примере № 12, с использованием рассмотренного выше списка аминокислотных и полученных из основной цепи пептидов химических детерминантов.

Анализ структур, как описывается в примере № 12, приводит к идентификации ряда аминокислотных и полученных из основной цепи пептидов химических детерминантов с количественными показателями, большими чем 1. Примеры таких детерминантов показаны ниже вместе с их соответствующими значениями количественных показателей

Это примеры химических детерминантов с высокими количественными показателями, идентифицированных в первом цикле анализа. Коллекция гипотетических лигандов для рецептора анализируется в соответствии с настоящим изобретением путем присвоения количественных показателей химическим детерминантам, показанным на первой вставке примера № 12, а также некоторому количеству других, с помощью функции количественных показателей (IV). Значения, большие чем единица, показывают, что детерминант имеет вероятность, меньшую чем 1 к 20, для нахождения в поднаборе лигандов только на случайной основе. Выше показаны два химических детерминанта с более высокими количественными показателями, которые идентифицируются в этом процессе.

Из этих примеров ясно, что детерминанты № 43 и 44 могут содержаться только в химических структурах аминокислот фенилаланина и тирозина. Само по себе это говорит о том, что пептиды, которые взаимодействуют с неизвестным рецептором, вероятно содержат в их последовательностях либо тирозиновый, либо фенилаланиновый остаток, и что эти остатки вероятно играют важную роль либо в связывании лиганда (лигандов), и/либо в активировании рецептора с помощью этого пептида (пептидов). Если имеющие высокие количественные показатели детерминанты № 43 и 44 впоследствии анализируются повторно, чтобы убедиться в том, не дают ли сочетания с фрагментами других аминокислот структуры с еще более высокими количественными показателями, такие фрагменты, как детерминант № 45, показанный на следующей далее вставке А, могут быть идентифицированы дополнительно.

детерминанты с высокими количественными показателями, идентифицируемые во втором цикле анализа. Химические детерминанты, такие как те, которые описаны выше, повторно анализируются в соответствии с настоящим изобретением для определения того, не продуцируют ли сочетания с фрагментами других аминокислот структуры с еще более высокими количественными показателями. Одна из них, названная детерминант № 45 (вставка А), демонстрирует значение количественного показа теля, большее чем 40. Интересно, что детерминант № 45 полностью содержится в структуре дипептидной последовательности Туг-01у (вставка В), говоря о том, что эндогенный лиганд неизвестной мишени, представляющей интерес, содержит дипептидную последовательность Туг-01у в своей первичной структуре.

Поскольку ясно, что детерминант № 45 полностью содержится в структуре дипептида тирозин-глицин (Туг-01у), это говорит о том, что неизвестный лиганд (лиганды), которые ищут, с наибольшей вероятностью содержат последовательность Туг-01у где-то в их первичных структурах. На основе этой информации, базы данных аминокислотных последовательностей могут быть подвергнуты «просеиванию», в порядке идентификации известных и/или неизвестных лигандов, содержащих предсказанную последовательность Туг-01у, которые, после селекции и экспрессии, могут быть исследованы в оригинальном биохимическом анализе «просеиванием». Альтернативно, химический детерминант № 45 может непосредственно использоваться для компилирования коллекций соединений потенциальных миметиков Туг-01у.

Наконец, заметим, что химические структуры, используемые в этом примере, на самом деле представляют собой агонисты рецепторов опиоидов, взятые из литературы, и что существующие в природе агонисты рецепторов опиоидов, динорфин А, п-эндорфин, лей-энкефалин и мет-энкефалин, все содержат в своих первичных структурах предсказанную последовательность Туг-01у. Поскольку тирозиновый остаток, как показано, является абсолютно необходимым для активности агониста опиоидов, настоящий пример далее иллюстрирует способность настоящего изобретения к идентификации биологически активных остатков лигандов рецепторов. Замечено также, что показатели, описанные выше, могут быть усовершенствованы путем использования альтернативных алгоритмов, использующих переменные х, у, ζ и Ν, так, например, как в точном критерии Фишера. В самом деле, всего лишь девять структур анализируются путем использования способа, для которого не делается адекватной корректировки на малые размеры выборки, что говорит о том, что значение количественного показателя 41,96 для детерминанта № 45 может быть несколько завышенным.

Пример № 15. Идентификация эндогенных модуляторов мишеней для лекарственных средств.

Для специалиста в данной области является очевидным, что настоящее изобретение также может быть применено для идентификации эндогенных модуляторов мишеней для лекарственных средств. В качестве примера этого, разрабатывают функциональный анализ для ионного канала, представляющего интерес при лечении нейродегенерации. Коллекция соединений подвергается «просеиванию», и полученный список ингибиторов анализируется на наличие биологически активных химических детерминантов, как описывается в примере № 2. Это приводит к идентификации химического детерминанта с высоким количественным показателем, который, как обнаружено, содержится в поднаборе молекул, эндогенно продуцируемых в эукариотических клетках. Затем соответствующие соединения закупаются и исследуются в анализе, где обнаруживается, что канал, представляющий интерес, селективно ингибируется субмикромолярными концентрациями конкретного подкласса клеточного фосфолипида, который, что интереснее всего, ранее ассоциировался другими группами с апоптозом нейронов через неизвестный механизм. Взятые вместе, эти результаты демонстрируют, что настоящее изобретение дает возможность для идентификации эндогенных модуляторов мишеней лекарственных средств.

Пример № 16. Идентификация ложных положительных результатов экспериментов.

Разрабатывают ферментный анализ на протеинкиназу, которая, как предполагается, играет важную роль в иммунной реакции. Коллекция соединений для «просеивания» относительно мишени составляется в соответствии с настоящим изобретением, а именно, как описывается в примере № 2. Соединения коллекции впоследствии исследуют в анализе при концентрации 5 мкМ, что приводит к идентификации 35 молекул, демонстрирующих ингибирование по меньшей мере 40%. Структуры этих соединений анализируются с использованием упрощенного варианта формулы (II) в качестве функции количественных показателей и соответствующие значения количественных показателей непосредственно сравниваются со значениями из статистической таблицы, что дает показатели вероятностей того, что данные химические детерминанты будут обнаружены в подмножестве из 35 фармакологически активных соединений только на случайной основе.

Используя порог для вероятности случайного события р<0,05, определяют, что 14 из 35 ингибиторов с наибольшей вероятностью представляют ложные положительные результаты. Последующее повторное исследование этих 14 соединений в анализе подтверждает эту гипотезу, иллюстрируя, что настоящее изобретение дает возможность идентификации ложных положительных результатов экспериментов.

Пример № 17. Идентификация ложных отрицательных результатов экспериментов.

Путем осуществления вычислений, аналогичных тем, которые описаны в примере № 16, настоящее изобретение дополнительно дает возможность идентифицирования ложных отрицательных результатов экспериментов. В качестве примера этого химические структуры ряда ингибиторов фосфатазы анализируются на наличие фармакологически активных химических детерминантов, как описывается в примере № 16. Полученные химические детерминанты с самыми высокими количественными показателями используются в качестве фармакологически активных «отпечатков пальцев» для осуществления поисков субструктур в списке химических структур, соответствующих соединениям, которые исходно исследовались в анализе. Это дает ряд молекул, которые содержат один или несколько из рассмотренных выше химических детерминантов, но которые, тем не менее, идентифицируются в анализе «просеиванием» как отрицательные. Соответствующие молекулы впоследствии повторно исследуются в анализе, где обнаруживается, что более чем 15% из них представляют собой ложные отрицательные результаты, при этом одно соединение даже демонстрирует субмикромолярную ингибиторную активность. Эти результаты ясно демонстрируют, что способ по настоящему изобретению дает возможность для идентификации ложных отрицательных результатов экспериментов.

Пример № 18. Осуществление количественных конфигурационных и конформационных анализов.

В дополнительном усовершенствованном варианте воплощения настоящего изобретения, можно также использовать алгоритмы, включающие в себя различные сочетания переменных х, у, ζ и N для количественного конформационного и/или конфигурационного анализа. Иллюстрируя эту возможность, из результатов, показанных в примере № 4, ясно, что структура фармакологически активных, ингибирующих протеазу отпечатков пальцев, показанных на вставке В примера № 4, не является определенной ни конфигурационно, ни конформационно. В самом деле, невозможно сказать по представлению структуры, является ли это транс-оидной и цис-оидной конформацией версии одинарной связи по отношению к двум карбонильным или сульфонильным группам «отпечатков пальцев», которые является фармакологически активными, или, далее, является ли это (Е) или (Ζ) конфигурацией «отпечатков пальцев», которые являются активными, в случае версии той же указанной структуры, с двойной связью. Причина для этого заключается в том, что вычисления, осуществляемые в примере № 4, направлены на идентификацию химического детерминанта, который с наибольшей вероятностью находится в основе протеаза-ингибирующей активности, без рассмотрения всех возможных конформаций и/или конфигураций, которые может принимать такой детерминант. Ввиду того факта, что многочисленные фармакологически активные структуры содержат двойные связи и/или кольцевые системы, которые служат для конформационного ограничения химических детерминантов путем уменьшения общего количества их вращающихся связей, является возможным ис67 пользование настоящего изобретения для определения того, какие конформации и/или конфигурации данного химического детерминанта с наибольшей вероятностью являются фармакологически активными.

В качестве примера этого все шесть (ингибирующих протеазы) структур, показанных в примере № 4, анализируются путем присвоения количественных показателей ряду конформационно и конфигурационно определенных химических детерминантов, полученных из структуры, показанной на вставке В примера № 4 с помощью функции количественных показателей (IV).

по*аэатш1Ь*36.90 количественный показатель=14.10

Эта вставка иллюстрирует количественный конформационный/конфигурационный анализ протеазаингибирующего химического детерминанта. Все шесть структур, показанных в примере № 4, анализируются в соответствии с настоящим изобретением с использованием списка конформационно и конфигурационно определенных химических детерминантов.

Химический детерминант № 46, показанный выше рядом с химическим детерминантом № 47 с более низким количественным показателем, получает одно из самых высоких значений количественных показателей, что говорит о том, что (Ζ) конфигурация версии «отпечатков пальцев» с двойной связью с большей вероятностью является предпочтительным расположением, содержащимся в химических структурах ингибиторов протеаз, представляющих интерес. Эта гипотеза впоследствии проверяется с помощью дополнительного сосредоточенного высокопроизводительного «просеивания», что дает многочисленные ингибиторы протеаз, в которых фармакологически активные «отпечатки пальцев» на самом деле ограничиваются (Ζ) или «цисоидной» конфигурацией, и только очень немногие из них ее не имеют.

Взятые вместе, эти результаты демонстрируют, что способ по настоящему изобретению дает возможность идентифицировать биологически активные конформации и/или конфигураций химических детерминантов. Наконец, видно, что такие вычисления могут быть осуществлены с помощью ряда альтернативных алгоритмов, используя различные сочетания переменных х, у, ζ и N. В этом контексте необходимо учесть, что показатели, описанные выше, могут быть дополнительно усилены путем включения дополнительных переменных в различные функции количественных показателей, такие как, но не ограничиваясь этим, переменные, которые принимают во внимание фармакологическое сильнодействие химических структур.

Пример № 19. Осуществление поисков сходства.

Из предыдущих примеров ясно, что концепция молекулярного сходства, с точки зрения способа по настоящему изобретению, существенно отличается от той, которая обычно воспринимается в качестве значения этого термина. Например, соединения в гипотетическом списке примера № 14 являются очень непохожими друг на друга до тех пор, пока не станет очевидным путь классификации всех девяти молекул в виде одного химического семейства, с использованием классических методик разбиения на кластеры. Тем не менее, авторы показали в примере № 14, что эти соединения являются в реальности исключительно сходными друг с другом, постольку, поскольку они содержат каждое, по меньшей мере, один случай химического детерминанта, который представляет собой репрезентативный фрагмент аминокислоты тирозина; см.

Это фрагменты аминокислоты тирозина, содержащиеся в структурах девяти агонистов рецептора опиоидов. Структуры, показанные выше, являются непохожими, до тех пор пока является сложным собрать их в одно химическое семейство с использованием классической методики разбиения на кластеры. Тем не менее, они являются очень похожими в смысле настоящего изобретения до тех пор, пока все они содержат по меньшей мере один фрагмент химического детерминанта, определенного с по мощью аминокислоты тирозина, случаи появле ния которого выделены жирными черными ли ниями.

Как таковое, настоящее изобретение может легко быть использовано для измерения молекулярного сходства и/или для сравнения видов сходства, которые могут существовать между различными множествами химических соединений. Иллюстрируя эту концепцию вкратце, легко увидеть, что одна или несколько сравнительных молекул могут быть выбраны из списка химических структур и проанализированы на наличие определенных химических детерминантов, которые после идентификации могут быть использованы для осуществления одного или нескольких поисков субструктур в одной или нескольких новых молекулах, для того чтобы убедиться, являются ли они сходными с первой. Путем присвоения количественных показателей соответствующим химическим детерминантам с помощью функции количественных показателей, типа, описанного в предыдущих примерах, и путем присвоения количественных показателей новым химическим структурам на основе, например, количества различных детерминантов, которые они могут содержать, возможно присвоение значений исследуемым молекулам, которые отражают степень сходства с исходным множеством сравнительных соединений. Этот процесс является очень полезным при создании сосредоточенных коллекций соединений для обнаружения лекарственных средств, поскольку он дает возможность исследователю быструю идентификации соединений, несущих на себе значительные степени сходства, в смысле настоящего изобретения, с фармакологически активными сравнительными соединениями.

Пример № 20. Анализ разнообразия коллекций соединений.

Настоящее изобретение дополнительно может быть использовано для анализа разнообразия коллекций соединений способом, аналогичным тому, который описан в предыдущем примере. В этом контексте специалисту в данной области ясно, что концепция химических детерминантов может легко быть использована для сравнения данной коллекции соединений с любой другой. Например, коллекция соединений может быть выбрана для высокопроизводительного «просеивания» путем анализа соответствующего списка химических структур в соответствии с настоящим изобретением, где опорный набор химических структур, такой как те, которые содержатся в базах данных Мегск Шбех, Оег\\'еп1. ΜΌΌΒ или Ркагтарго)ес15. используются в качестве сравнительной коллекции молекул «подобных молекулам лекарственных средств». В этом случае молекулы, структуры которых, по существу, состоят из химических детерминантов с низкими количественными показателями, рассматриваются как «подобные молекулам лекарственных средств», поскольку те же указанные химические детерминанты присутствуют в высокой пропорции сравнительных структур. Наоборот, молекулы, которые, по существу, состоят из химических детерминантов с высокими количественными показателями, рассматриваются как «непохожие на молекулы лекарственных средств», поскольку эти же детерминанты только в малой степени представлены в наборе сравнительных соединений. Эта информация является очень полезной для планирования экспериментов по обнаруже нию, поскольку она помогает исследователю при идентификации химических структур, которые должны быть включены или исключены из коллекции соединений для «просеивания». В этом контексте ясно, что целый ряд алгоритмов, состоящих из различных сочетаний переменных х, у, ζ и Ν, может быть использован для этой цели.

Пример № 21. Специальные алгоритмы.

Ясно, что предыдущие примеры не дают полного списка всех алгоритмов, использующих различные сочетания переменных х, у, ζ и Ν, которые могут быть использованы для осуществления дискретного субструктурного анализа. В этом контексте специалисту в данной области ясно, что функции количественных показателей (XII), (XIII) и (XIV) также могут быть использованы для ответа на ряд вопросов, имеющихся в предыдущих примерах. В самом деле, в некоторых случаях является еще более подходящим в статистическом смысле термина использовать одну из этих формул вместо тех, которые в явном виде приведены в примерах. Тем не менее, поскольку настоящее изобретение создается прежде всего для идентификации химических детерминантов, содержащихся в списке химических структур, которые с наибольшей вероятностью находятся в основе данного биологического воздействия, первичной задачей является присвоение относительных количественных показателей и последующее ранжирование химических детерминантов. Тем не менее, формулы (XII), (XIII) и (XIV) представлены ниже в случае, когда: а) требуется точная оценка вероятности события для наборов с малой выборкой (смотри XII, где 8 соответствует самому малому значению среди переменных х, (у-х), (ζ-х) и (Νу-ζ+χ)); Ь) когда пропорционально взвешенная оценка одновременных вкладов двух детерминантов, согласно ощущениям, является более подходящей для применения в примере № 8 (см. XIII, где б соответствует количеству отдельных химических детерминантов); или с) когда считаются важными эффекты порядка следования, когда оцениваются одновременные вклады двух взаимосвязанных химических детерминантов (смотри XIV). В этом контексте определения переменных х, у, ζ и Ν являются в точности такими, как описано ранее.

Наконец, специалисту в данной области является ясным, что использование определенных переменных в функциях количественных показателей и/или алгоритмах, созданных для идентификации биологически активных хими71 ческих детерминантов, но не описанных в явном виде в предыдущих примерах, может быть математически эквивалентным использованию различных сочетаний переменных х, у, ζ и Ν. В качестве примера этого функция количественных показателей, использующая переменную ср определяемую как представление количества неактивных молекул, химические структуры которых содержат данный химический детерминант, является эквивалентом использования х и у, поскольку ц=у-х. Подобным же образом, функция количественных показателей, использующая переменную г, определяемую как представление общего количества активных соединений, которые не содержат данного химического детерминанта, является алгебраическим эквивалентом использования переменных х и ζ, поскольку легко показать, что τ=ζ-χ. Также, функция количественных показателей, использующая переменную 8, определяемую как представление общего количества неактивных соединений, которые не содержат данного химического детерминанта, является эквивалентом использования переменных х, у, ζ и Ν, поскольку 8=Ν^-ζ+χ. Наконец, алгоритмы, использующие переменные ΐ и и, соответственно, представляющие собой общее количество молекул, структуры которых не содержат данного детерминанта (ΐ), и общее количество неактивных молекул (и), являются эквивалентами использования переменных Ν, у и/или ζ, поскольку легко показать, что ΐ=Ν^, и υ=Ν-ζ.

Пример № 22. Картирование относительных вкладов.

Настоящее изобретение также дает возможность для построения диаграмм относительных вкладов. Они представляют собой графические представления химических структур, где относительный вклад различных атомов, связей, фрагментов и/или субструктур в данный биологический результат показывается с помощью значений количественных показателей, вычисленных, как описывается в предыдущих примерах. В предпочтительном воплощении способа используются вероятностные значения количественных показателей, такие как те, которые вычисляются с использованием формулы (XII), где Р(А) представляет собой вероятность того, что данный химический детерминант содержится в подмножестве биологически активных структур на случайной основе, которая вычисляется с использованием формул, использующих различные сочетания переменных х, у, ζ и Ν, как описано ранее.

(XII) 8еоге = [1-Р(А)]-100%

В этом контексте ясно, что многочисленные меры взаимосвязи и/или функции количественных показателей могут быть использованы для оценки Р(А). Два примера диаграмм относительных вкладов теперь будут обсуждаться более подробно. Следующая далее вставка

демонстрирует молекулу, представляющую интерес, в сопровождении ряда химических детерминантов, состоящих из фрагментов той же указанной молекулы, которым присваиваются количественные показатели, с использованием формулы (XII), и некоторой модификации меры взаимосвязи (I), для определения Р(А). Фиг. 15 показывает ту же информацию в графической форме, где детерминанты изображены на графике в виде функции от соответствующих их значений количественных показателей. В этом контексте, является очевидным, что та же информация может быть представлена в форме вероятностных контурных карт, как показано на этой вставке

В целом, такие диаграммы являются очень полезными для создания коллекции соединений, поскольку они помогают исследователю выбирать соединения на основе математических оценок вероятности того, что они будут успешными в данном анализе, уменьшая потребность в использовании концепции молекулярного разнообразия для идентификации новых биологически активных химических рядов. Они также представляют интерес в медицинской химии, поскольку такие представления как то, которое представлено выше на вставке, ясно показывают, какие компоненты молекулы могут быть разумно модифицированы с минимальным риском потери фармакологической активности. Наоборот, такие графики настораживают токсиколога относительно того, какие компоненты токсичного соединения должны быть модифи73 цированы в порядке устранения нежелательного воздействия.

Для получения карт относительных вкладов, показанных выше и на фиг.15, химические детерминанты, соответствующие фрагментам биологически активной молекулы, получают количественные показатели согласно настоящему изобретению с использованием функции количественных показателей, использующей переменные х, у, ζ и Ν, которые дают возможность для непосредственной оценки вероятности случайного события во множестве активных молекул (Р(А)). Соответствующие значения Р(А) преобразуются с использованием функции количественных показателей (XII), давая вероятностное значение количественного показателя для каждого детерминанта, отражающее относительную вероятность того, что соответствующая химическая структура находится в основе биологической активности, представляющей интерес. Эти значения могут иллюстрироваться так, как на фиг.15, которая представляет собой графическое представление значений количественных показателей для различных химических детерминантов. Химический детерминант № 54, соответствует локальному максимуму в этом ряду. Или же, эти значения могут быть проиллюстрированы как выше на вставке, которая представляет собой вероятностную контурную карту, показывающую, какой фрагмент или сектор химической структуры, представляющей интерес, с наибольшей вероятностью придает биологическую активность (детерминант № 54 содержится в области, ограниченной 95% контурной линией). Другой способ представления значений показан на фиг. 11.

Пример № 23. Эквивалентность функций количественных показателей.

Функции количественных показателей, используемые в предыдущих примерах, представляют собой все пути для идентификации химических детерминантов, которые с наибольшей вероятностью находятся в основе данного биологического, фармакологического и/или токсикологического воздействия. Хотя специалисту в данной области ясно, что определенные меры взаимосвязи и/или функции количественных показателей лучше всего использовать для ответа только на определенные типы вопросов, когда они используются в способе по настоящему изобретению, каждая формула обеспечивает возможность идентификации одного и того же химического детерминанта с самым высоким количественным показателем, который с наибольшей вероятностью находится в основе данного биологического воздействия. Сами по себе, все формулы, представленные в предыдущих примерах, являются функционально эквивалентными в смысле дискретного субструктурного анализа.

Чтобы продемонстрировать это, анализ химических структур 131 агониста рецептора допамина Ό₂ осуществляют восемь раз параллельно с использованием восьми мер взаимосвязи и функций количественных показателей, содержащих различные сочетания переменных х, у, ζ и Ν, показанных ниже. Исследование осуществляется таким же образом, как описано ранее, а именно путем добавления химических структур 101207 молекул, описанных в качестве не имеющих воздействия на рецептор допамина Ό₂, к первому списку из 131 структуры, и присвоения количественных показателей ряду из 19 химических детерминантов, показанных ниже, с помощью функций количественных показателей (Х^-(ХХШ), которые читатель опознает в качестве представлений те же функции, которые были использованы в ряде предыдущих примеров, и/или близких к ним вариантов.

Это химические детерминанты с количественными показателями, полученными с помощью восьми различных функций количественных показателей. Все 19 химических детерми нантов, показанных выше, получают количественные показатели с использованием функций (Χν)-(ΧΧΠ) и списка химических структур, аннотированных на активность агониста рецептора допамина Ό₂. Используемые функции представляют собой

Фиг.

ческие детерминанты, показанные выше на

16А-16Н показывают соответствующие диаграммы относительных вкладов. Хими75 вставке, получают количественные показатели, как описано ранее, и строятся их графики, как функций от соответствующих значений количественных показателей. Фиг. 16А показывает количественные показатели, полученные с помощью функции (XV), фиг.16В - количественные показатели, полученные с помощью функции (XVI), фиг.16С - количественные показатели, полученные с помощью функции (XVII), фиг.16Э - количественные показатели, полученные с помощью функции (XVIII), фиг.16Е - количественные показатели, полученные с помощью функции (XIX), фиг.16Р - количественные показатели, полученные с помощью функции (XX), фиг. 160 - количественные показатели, полученные с помощью функции (XXI), и фиг.16Н - количественные показатели, полученные с помощью функции (XXII). Каждая из функций количественных показателей неизменно выделяет один и тот же химический детерминант (№73) в качестве находящегося с наибольшей вероятностью в основе биологической активности.

Как показано с помощью диаграмм относительных вкладов, представленных на фиг. 16А-16Н, каждая из восьми функций количественных показателей корректно идентифицирует химический детерминант № 73 в качестве соответствующего локальному максимуму, означающему, что он представляет собой химический мотив, с наибольшей вероятностью находящийся в основе активности агониста допамина Э₂, в списке из 19 исследуемых детерминантов. Интересно, что различные функции количественных показателей являются различными и с точки зрения ранжирования химических детерминантов с более низкими количественными показателями, поскольку детерминант № 62 предлагается в качестве имеющего важное значение для биологической активности и находится на третьей позиции в ранжировании при вычислениях с использованием функций количественных показателей (XV), (XVI) и (XVII), в то время как детерминант № 63 получает третью позицию с использованием функции количественных показателей (XXII), детерминант № 65 получает третью позицию в соответствии с функциями количественных показателей (XIX) и (XXI) и, наконец, детерминант № 66 получает третью позицию, когда он исследуется с помощью функций количественных показателей (XVIII) и (XXII).

Эти небольшие различия практически не имеют значения для успешного результата способа, поскольку в каждом случае детерминанты с более низкими количественными показателями на самом деле представляют собой фрагменты большого, имеющего более высокие количественные показатели детерминанта № 73 (см. вставку выше). Само по себе это является достаточным для непосредственного применения химического детерминанта № 73 и его фрагментов для дизайна коллекций соединений, предназначенных для высокопроизводительного скрининга, поскольку все они неизменно будут содержать структуры, содержащие каждый из детерминантов с более низкими количественными показателями. Отбор типа соединения, которое может быть включено в такую коллекцию, представлен ниже.

Эти отобранные структуры представляют собой примеры соединений, которые могут быть выбраны для включения в коллекцию соединений, созданную для идентификации агонистов рецепторов допамина Э₂. Каждая из структур, показанных выше, содержит химический детерминант № 73 или его существенную часть.

В качестве вывода, и хотя математические причины, лежащие за построением и использованием восьми различных функций количественных показателей, являются различными, в каждом случае все они идентифицируют один и тот же химический детерминант, который с наибольшей вероятностью находится в основе биологической активности. Сами по себе алгоритмы, содержащие различные сочетания переменных х, у, ζ и N или с.|. г, 5. ΐ и и, как рассмотрено ранее, являются функционально эквивалентными, в смысле настоящего изобретения.

Пример № 24. Инструменты для обнаружения лекарственных средств на основе информатики.

Из предыдущих примеров ясно, что настоящее изобретение может быть инкорпорировано в один или несколько рядов процедур, таких как, но не ограничиваясь этим, компьютерные программы, созданные для повышения высокопроизводительного «просеивания», обнаружения соединений, химии проб и ошибок, прогрессии соединений и/или оптимизации исходных соединений. Такие процедуры или программы предпочтительно создаются для управления машинами и/или роботизированными системами, которые осуществляют «просмотр» лекарственных средств, выбор соединений, генерирование наборов и/или химический синтез контролируемым полуавтономным или полностью автономным образом. Такие процедуры включают, но ни в коем случае не ограничиваются этим, следующие примеры, которые обра зуют предпочтительные воплощения настоящего изобретения.

• Процесс, с помощью которого анализируются химические структуры, аннотированные относительно соответствующих экспериментальных результатов, и идентифицируются биологически активные химические детерминанты, в соответствии с настоящим изобретением.

• Процесс, с помощью которого биологически активные химические детерминанты, идентифицированные в соответствии с настоящим изобретением, используются для осуществления поисков в химических базах данных, виртуальных или иных, в порядке идентификации соединений, веществ биологического происхождения, реагентов, продуктов реакции, промежуточных соединений или чего-либо подобного, которые с наибольшей вероятностью демонстрируют данное фармакологическое, биохимическое, токсикологическое и/или биологическое свойство.

• Процесс, с помощью которого биологически активные химические детерминанты, идентифицированные в соответствии с настоящим изобретением, хранятся в регистре вместе с сопровождающими экспериментальными данными и/или значениями количественных показателей, в электронной форме или иным образом и регулярно обновляются или нет, который служит в качестве хранилища структурной информации для использования в процессе принятия решения, автоматизированном или нет, для выбора химического соединения, ряда и/или каркаса, для высокопроизводительного «просеивания», медицинской химии и/или оптимизации исходных соединений, указанные экспериментальные результаты и значения количественных показателей связаны с любым данным фармакологическим, биохимическим, токсикологическим и/или биологическим свойством.

• Процесс, с помощью которого изобретение, как описывается в любом из предыдущих примеров, используется для идентификации фармакологических модуляторов мишеней для лекарственных средств, таких, например, как, но не ограничиваясь этим, лиганды для рецепторов, ингибиторы киназы, модуляторы ионных каналов, ингибиторы протеазы, ингибиторы фосфатазы и лиганды для рецепторов стероидов.

• Процесс, с помощью которого, изобретение, как описывается в любом из предыдущих примеров, используется непосредственно или используется в компьютерной программе, созданной для анализа химических структур, в порядке увеличения сильнодействия химических рядов, увеличения селективности химических рядов, создания соединений с множественными фармакологическими воздействиями, предсказания потенциальных вторичных фармакологических воздействий молекулы, предсказания потенциальных токсикологических воздействий молекулы, идентификации биологически активных остатков лигандов для рецепторов, предсказания потенциальных взаимодействий белокбелок, идентификации неизвестных пар лигандрецептор и/или идентификации эндогенных модуляторов мишеней для лекарственных средств. Последнее использование относится, в частности, к областям функциональной геномики и протеомики, где, например, нуклеотидные и/или аминокислотные последовательности могут быть выбраны для исследования на основе химических структур молекул, идентифицированных в биохимическом анализе «просеиванием» и обработанных в соответствии с настоящим изобретением, как, например, для идентификации неизвестных лигандов.

• Процесс, с помощью которого настоящее изобретение либо используется непосредственно, либо используется в программах, созданных для идентификации ложных положительных и/или отрицательных экспериментальных результатов.

• Процесс, с помощью которого настоящее изобретение либо используется непосредственно, либо используется в программах, созданных для предсказания потенциально опасных воздействий молекулы на человека, домашних животных и/или окружающую среду, как, например, при «просеивании» химикалиев, предназначенных для использования в качестве пищевых добавок, или в них самих, в пластиках, тканях и тому подобное.

• Процесс, с помощью которого настоящее изобретение либо используется непосредственно, либо используется в программе, созданной для осуществления конфигурационных, конформационных, стереохимических анализов, анализов сходства и/или различий.

• Процесс, с помощью которого настоящее изобретение либо используется непосредственно, либо используется в программе, созданной для генерирования карт относительных вкладов и/или графических представлений биологически активных остатков или химических структур.

• Процесс, с помощью которого любой из процессов, указанных выше, используемый либо сам по себе, либо в последовательных и/или в параллельных сочетаниях, используется для функционирования инструмента информатики, компьютерной программы и/или экспертной системы, предназначенной для использования при осуществлении обнаружения лекарственного средства, гербицида и/или пестицида.

• Процесс, с помощью которого любой из процессов, указанных выше, используемый либо сам по себе, либо в последовательных и/или в параллельных сочетаниях, используется для управления функционированием устройства и/или инструмента, автоматизированного или нет, автономного или нет, и использующего обновляемые регистры химических детерминантов, аннотированных относительно значений количественных показателей или нет, для использования при рациональном генерировании химических структур, выделении химических соединений, рациональном генерировании экспериментальных протоколов и/или данных скрининга, и/или рациональном выборе результатов и/или химических структур в секторах фармацевтического и/или сельскохозяйственного обнаружения.

Другие процедуры использования настоящего изобретения могут быть легко получены посредством обычных знаний специалиста в данной области.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Способ работы компьютерной системы для осуществления дискретного субструктурного анализа, способ включает стадии организации доступа (210, 220, 410) к базе данных (110, 115) молекулярных структур, причем в базе данных осуществляется поиск информации о молекулярных структурах и биологических и/или химических свойствах;

идентификации (220) в указанной базе данных поднабора молекул, имеющих данное биологическое и/или химическое свойство;

определения (230, 420) фрагментов молекул в указанном поднаборе;

вычисления (230, 430, 610-650) для каждого фрагмента значения количественного показателя, демонстрирующего вклад соответствующего фрагмента в указанное данное биологическое и/или химическое свойство; и осуществления (240, 250) повторяющегося процесса путем анализа (250) определенных фрагментов и вычисленных значений количественных показателей, при этом сначала выбирается по меньшей мере один фрагмент, который имеет значение количественного показателя, демонстрирующее высокий вклад в указанное биологическое и/или химическое свойство, а затем повторяются стадии организации доступа, идентификации, определения и вычисления.
2. Способ по п.1, где стадия вычисления значения количественного показателя включает в себя стадию вычисления (610) количества молекул (х) в указанном поднаборе молекул, которые содержат данный фрагмент.
3. Способ по одному из пп.1 или 2, дополнительно включающий в себя стадию идентификации в указанной базе данных второго поднабора молекул, не имеющих указанного биологического и/или химического свойства;

где указанная стадия вычисления значения количественного показателя включает стадию вычисления (620) количества молекул (у) в указанном поднаборе и в указанном втором поднаборе молекул, которые содержат данный фрагмент.
4. Способ по одному из пп.1-3, где указанная стадия вычисления значения количественного показателя включает в себя стадию вычисления (630) количества молекул (ζ) в указанном поднаборе молекул.
5. Способ по одному из пп.1-4, дополнительно включающий в себя стадию идентификации в указанной базе данных второго поднабора молекул, не имеющих указанного данного биологического и/или химического свойства; причем указанная стадия вычисления значения количественного показателя включает в себя стадию вычисления (640) общего количества молекул (Ν) в указанном поднаборе и в указанном втором поднаборе молекул.
6. Способ по одному из пп.1-5, где повторяющийся процесс осуществляется путем выбора фрагментов следующего повторения, которые должны иметь более высокую молекулярную массу, чем фрагменты предыдущего повторения.
7. Способ по одному из пп.1-6, дополнительно включающий в себя стадии выбора (710) фрагмента на основе вычисленных значений количественных показателей;

анализа (810) структуры выбранного фрагмента;

определения (820) обобщенного элемента в структуре фрагмента и замены (830) обобщенного элемента с помощью обобщенного выражения для генерирования обобщенной субструктуры.
8. Способ по п.7, дополнительно включающий в себя стадию осуществления (840) виртуального «просеивания» с использованием обобщенной субструктуры.
9. Способ по одному из пп.1-8, где стадия анализа определенных фрагментов и вычисленных значений количественных показателей включает в себя стадии выбора (1010) первого фрагмента на основе вычисленных значений количественных показателей;

выбора (1020) второго фрагмента на основе вычисленных значений количественных показателей и генерирования (1030) молекулярной субструктуры, включающей в себя указанный первый фрагмент и указанный второй фрагмент, путем применения функции отжига.
10. Способ по одному из пп.1-9, где стадия анализа определенных фрагментов и вычисленных значений количественных показателей включает в себя стадии выбора (710) по меньшей мере одного фрагмента на основе вычисленного значения количественного показателя;

выделения (720) соединений из предыдущего поднабора молекул, причем выделенные соединения содержат выбранный фрагмент;

выбора (730) соединений из предыдущего поднабора молекул, не содержащих выбранного фрагмента, или соединений, не включенных в предыдущий поднабор молекул; и формирования (740) нового поднабора молекул, включающего в себя выделенные и выбранные соединения.
11. Способ по одному из пп.1-10, дополнительно включающий в себя стадию генерирования (230) библиотеки фрагментов (120), включающей в себя определенные фрагменты и вычисленные значения количественных показателей.
12. Способ по одному из пп.1-11, где указанная база данных представляет собой частную базу данных.
13. Способ по одному из пп.1-12, где указанная база данных представляет собой общедоступную базу данных.
14. Способ по одному из пп.1-13, где указанная база данных представляют собой базу данных аминокислотных последовательностей и/или последовательностей нуклеиновых кислот и указанное биологическое и/или химическое свойство представляет собой данное воздействие на белок, представляющий интерес.
15. Способ по одному из пп.1-14, где указанное биологическое и/или химическое свойство представляет собой фармакологическое свойство и способ используется для обнаружения лекарственных средств.
16. Способ по одному из пп.1-15, дополнительно включающий в себя стадию компилирования (260) набора соединений, которые содержат по меньшей мере один из определенных фрагментов.
17. Способ по п.16, дополнительно включающий в себя стадию тестирования соединений указанного компилированного набора на указанное данное биологическое и/или химическое свойство.
18. Компьютерный программный продукт, приспособленный для осуществления способа по одному из пп.1-17.
19. Библиотека фрагментов, генерируемая путем осуществления способа по одному из пп.1-17.
20. Компьютерная система для осуществления дискретного субструктурного анализа, содержащая средства (100, 110, 115) для организации доступа к базе данных молекулярных структур, причем в базе данных производится поиск информации о молекулярной структуре и биологических и/или химических свойствах;

средства (100, 130) для идентификации в указанной базе данных поднабора молекул, имеющих данное биологическое и/или химическое свойство;

средства (100, 130, 135) для определения фрагментов молекул в указанном поднаборе;

средства (100, 130, 140) для вычисления для каждого фрагмента значения количественного показателя, показывающего вклад соответствующего фрагмента в указанное данное биологическое и/или химическое свойство; и средства (100, 130) для определения того, должно ли производиться следующее повторение, и если должно, для анализа определенных фрагментов и вычисленных значений количественных показателей и осуществления повторяющегося процесса.
21. Компьютерная система по п.20, приспособленная для осуществления способа по одному из пп.1-17.
22. Лекарственное средство, полученное путем синтеза молекулы, содержащей по меньшей мере один фрагмент, определяемый путем осуществления способа по одному из пп.1-17.