EA003796B1 - Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве - Google Patents

Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве Download PDF

Info

Publication number
EA003796B1
EA003796B1 EA200001159A EA200001159A EA003796B1 EA 003796 B1 EA003796 B1 EA 003796B1 EA 200001159 A EA200001159 A EA 200001159A EA 200001159 A EA200001159 A EA 200001159A EA 003796 B1 EA003796 B1 EA 003796B1
Authority
EA
Eurasian Patent Office
Prior art keywords
objects
distances
distance
relationships
relationship
Prior art date
Application number
EA200001159A
Other languages
English (en)
Other versions
EA200001159A1 (ru
Inventor
Димитрис К. Аграфиотис
Виктор С. Лобанов
Францис Р. Сейллем
Original Assignee
3-Дименшенл Фамэсьютикэлс, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3-Дименшенл Фамэсьютикэлс, Инк. filed Critical 3-Дименшенл Фамэсьютикэлс, Инк.
Publication of EA200001159A1 publication Critical patent/EA200001159A1/ru
Publication of EA003796B1 publication Critical patent/EA003796B1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/00686Automatic
    • B01J2219/00689Automatic using computers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/007Simulation or vitual synthesis
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)
  • Stacking Of Articles And Auxiliary Devices (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Digital Computer Display Output (AREA)
  • Knitting Machines (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Circuits Of Receivers In General (AREA)
  • Sewing Machines And Sewing (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Complex Calculations (AREA)

Abstract

Устройство, способ и средство программного обеспечения компьютера для точного или приближенного воспроизведения результатов анализа сходства (взаимосвязи) объектов посредством измерений расстояний между точками в многомерном пространстве. Применены принципы автоматической систематизации первоначальной (случайной или частично заданной) конфигурации точек посредством процесса итерационного уточнения и учета стохастических ошибок взаимосвязей или расстояний. Данные могут быть полными или неполными (т.е. некоторые взаимосвязи между объектами могут быть неизвестными), точными или неточными (т.е. некоторые или все взаимосвязи могут быть даны на условиях допустимых диапазонов или пределов), симметричными или асимметричными (т. е. взаимосвязь объекта А к объекту В может отличаться от взаимосвязи В к А), а также могут содержать систематические или стохастические ошибки. Взаимосвязи между объектами могут быть получены непосредственно из наблюдения, измерения, априорного знания, или интуитивно, или могут быть определены косвенно с применением любой подходящей методики для получения данных о сходстве (взаимосвязи). Настоящее изобретение использует методы итеративного анализа подгрупп объектов для воспроизведения их в многомерном пространстве. В примере осуществления изобретение использует в качестве итеративного анализа подгрупп объектов методы многомерного шкалирования или алгоритмы нелинейной картографии. В другом примере осуществления изобретения взаимосвязи определяются двуточечными взаимосвязями или двуточечными критериями сходства или несходства между парами объектов, которые в настоящем

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится к анализу данных и, в частности, к воспроизведению данных о сходстве в многомерном пространстве.
Уровень техники
В технике используются методы многомерного шкалирования (ΜΌ8) и нелинейная картография (ΝΣΜ), методы формирования данных, выводимых на экран в виде карты (далее - дисплейная карта), в том числе нелинейной карты, расстояния между объектами на которой представляют собой взаимосвязи между объектами.
ΜΌ8 и ΝΕΜ были введены Торгерсоном (Тогдегзоп, Рйусйоте!пка, 17:401 (1952), Крускалом (Кглзка1, Рзусйоте!пка, 29:115 (1964)) и Сэммоном (8аттоп, ΙΕΕΕ Тгапз. Сотри!., С18:401 (1969)), как средства формирования узкозонных воспроизведений данных, относящихся к области психологии. Многомерное шкалирование и нелинейное картографирование рассмотрены в работе Шиффмана и др. (8сЫ£1тап, Кеупо1бз апб Уоипд, 1п!гобис!юп !о Μи1!^б^тепзюпа1 8са1тд, Асабетк Ргезз, №\ν Уогк (1981)), Янга и Хамера (Уоипд апб Натег, Многомерное Шкалирование: Хронология, Теория и Приложения, ЕпЬаит Аззос1а!ез, 1пс., Н111зба1е, N1 (1987)), и Кокса и Кокса (Сох апб Сох, Многомерное Шкалирование, номер 59 в Уо^д^щ^ апб 8!а!1з!кз, С1артап-На11 (1994)). Содержание этих публикаций учитывается далее во всей их полноте.
ΜΌ8 и ΝΕΜ (это, вообще говоря, одно и то же, далее - ΜΌ8) представляет собой набор методов для визуализации признаков сходства объектов по расстояниям между точками в узкозонном Евклидовом пространстве. Средства соизмерения сходства рассмотрены в работе Хартигана (Нагбдап, 1. Ат. 8!а!1з!. Азз., 62:1140 (1967)), которая учитывается далее во всей ее полноте.
В частности, если задается конечное множество векторных или других выборок А={а1,1=1,...к}, функция взаимосвязи Гц=г(аьаД где а,,а, еА, которой соизмеряет сходство или несходство между ί-м и _)-м объектами в А, и набор изображений X = {х1,...,хк: х1 е Кт; из выборки А в т-размерном дисплейном плане (Кт представляет собой пространство всех тразмерных векторов вещественных чисел), то задача заключается в том, чтобы поместить х1 на дисплейный план так, чтобы Евклидовы расстояния между ними б = ||х1 - х^| аппроксимировали соответствующие значения гр настолько близко, насколько возможно. Такая проекция, которая во многих случаях может быть получена только приближенно, выполняется итерационно путем минимизации функции ошибки, которая измеряет разность между оригиналом и его проекцией б,,, матрицами расстояний между наборами исходных векторов и векторов проекций.
Предлагается несколько таких функций ошибки, большинство из которых представляют собой функцию наименьших квадратов, к которым также относится стресс (термин, взятый из области специализации автора-психологии) Крускала:
(Уравнение 1)
Критерий ошибки Сэммона:
(Уравнение 2)
И коэффициент отсутствия корреляции
Ьшдо:
(Уравнение 3) где б,, = ||х1 - х_||| - Евклидово расстояние между изображениями х1 и х, на дисплейном плане. В общем случае, решение может быть получено итерационно путем (1) вычисления или поиска в базе данных взаимосвязи р,;
(2) инициализации изображений х1;
(3) вычисления расстояний изображений б,, и значений функции ошибки (например, 8, Е или К в уравнении 1-3 выше);
(4) вычисления новой конфигурации изображений х1, с использованием метода градиентного спуска, типа линейной регрессии Крускала или подстановки упорядоченных изображений Гутмана и (5) повторения шагов 3 и 4, пока ошибка не будет минимизирована в пределах некоторого заранее определенного допуска.
Например, алгоритм Сэммона свертывает уравнение 2 путем итерационного изменения координат х1, с использованием уравнения 4:
где т - номер итерации, хрч - с.|-я координата р-го изображения хр, λ-коэффициент обучения (известный (заранее заданный) коэффициент), и дЕ(т) дх„(т) &%(т)2 (Уравнение 5)
Частные производные в уравнении 5 зада ются как:
(Уравнение 6)
<</ ' (Уравнение 7)
Вывод данных на экран в виде карты получается несколькими повторяющимися вычислениями уравнения 2 в зависимости видоизменения координат при расчетах уравнений 4 и 5, до тех пор, пока ошибка не будет уменьшена до значения в пределах заранее определенного допуска.
Изложенный выше общий пример обработки данных может быть использован для относительно небольших наборов данных, что существенно ограничивает его применение. Для больших наборов данных он не может практически применен. Названное ограничение происходит из того, что вычислительная мощность, необходимая для получения значений градиентов (т.е. шаг (4) выше), оценивается как квадрат объема набора данных. Для относительно больших массивов данных обработка названного квадрата объема данных даже в частичном (в виде определенной выборки) виде становится трудноосуществимой из-за затрат по времени на обработку столь больших объемов работ.
Именно поэтому требуется система, способ и средство программного обеспечения компьютера для воспроизведения данных о сходстве в многомерном пространстве, для того чтобы иметь возможность нормально масштабировать в соответствии с числом объектов, для того чтобы их применять как к маленьким, так и к большим массивам данных. Кроме этого, необходимы система, способ и средство программного обеспечения компьютера, которые были бы эффективны в случае пропуска данных и/или в случае данных, содержащих ограниченную или неограниченную неопределенность, помехи от передачи или ошибки.
Сущность изобретения
Настоящее изобретение представляет собой устройство (систему), способ и в качестве только примера осуществления, представленного только в описании, средство программного обеспечения компьютера для воспроизведения точных или приближенных соизмерений сходства/несходства (взаимосвязей) между объектами, предпочтительно, как расстояний между точками в многомерном пространстве, которое воспроизводит объекты. При выполнении последовательности операций используются принципы автоматизации процесса для итерационного уточнения первоначальной (случайной или частично упорядоченной) конфигурации точек с использованием случайных (стохастических) ошибок взаимосвязи или расстояние. Данные могут быть полными или неполными (т.е. некоторые взаимосвязи между объектами могут быть неизвестными), точными или неточными (т.е. некоторые или все взаимосвязи могут быть заданы в условиях допустимых диапазонов или пределов), симметричными или асимметричными (т. е. взаимосвязь от объекта А и объекта В может отличаться от взаимосвязи от В к А), а также могут содержать систематические или случайные ошибки.
Взаимосвязи между объектами могут быть получены непосредственно из наблюдения, измерения, априорного знания, или интуитивно, или могут быть определены косвенно с применением любой подходящей методики для получения данных о сходстве (взаимосвязи).
В настоящем изобретении представляется используется итеративный анализ подгруппы объектов с тем, чтобы воспроизвести их в многомерном пространстве и тем самым воспроизвести взаимосвязи между объектами.
В одном примере осуществления данного изобретения итеративно анализируются подгруппы объектов с применением методов многомерного шкалирования или нелинейной картографии.
В другом примере осуществления настоящего изобретения взаимосвязи уточняются как двуточечные взаимосвязи или двуточечное сходство/несходство между парами объектов, при этом в настоящем изобретении одновременно итерационно анализируется пара объектов, то есть, предпочтение отдается оценке подгрупп попарно, как в двойном вложенном цикле.
В последующем описании понятия взаимосвязь, сходство или несходство используются для обозначения связей (соотношений) между парой объектов. Понятие дисплейная карта используется для обозначения набора изображений (образов) в Ν-мерном пространстве, которое воспроизводят исходные объекты. Понятие расстояние используется для обозначения расстояния между изображениями на дисплейной карте, которые соответствуют объектам.
Здесь приводятся приведены примеры осуществления настоящего изобретения, в том числе примеры для данных и взаимосвязей химических соединений. Вместе с тем, необходимо понимать, что настоящее изобретение не ограничено примерами, представленными здесь. Настоящее изобретение может быть реализовано для различных приложений.
Например, в случае, если в описанном здесь конкретном воплощении для воспроизведения сходства/различия между объектами применяется расстояние между точками, то изобретение предназначено и адаптировано к применению любых дисплейных (отображаемых) атрибутов, воспроизводящих сходство/несходство между объектами, включая, но не ограничиваясь, шрифт, размер, цвет, шкалу серых тонов, курсив, подчеркивание, выделение полужирным, оконтуривание, обрамление и т. д. Например, сходство/различие между двумя объектами может быть представлено относительными размерами точек, которые воспроизводят объекты.
Далее особенности и преимущества настоящего изобретения, равно как структура и функционирование различных вариантов выполнения настоящего изобретения, описаны подробно со ссылками на сопроводительные чертежи.
Перечень фигур чертежей
Настоящее изобретение будет описано со ссылкой на сопроводительные чертежи, на которых фиг. 1 иллюстрирует структурную схему вычислительной среды согласно варианту выполнения изобретения;
фиг. 2 - структурная схема компьютера, который может быть применен для осуществления частей изобретения;
фиг. 3 - блок-схема, представляющая функционирование изобретения по визуализации и интерактивной обработке выводимых отображений согласно варианту выполнения изобретения;
фиг. 4 - блок-схема, представляющая способ, которым, согласно варианту выполнения изобретения, сгенерировано выводимое отображение;
фиг. 5 концептуально иллюстрирует отношения между объектами. Взаимосвязи заданы в пределах некоторых допусков;
фиг. 6 - структурная схема системы для воспроизведения взаимосвязей между объектами и фиг. 7 - блок-схема процесса, иллюстрирующая способ воспроизведения взаимосвязей между объектами.
На фигурах подобные номера ссылок указывают на идентичные или функционально подобные элементы. Кроме того, крайняя левая цифра (цифры) номеров ссылок обозначают чертежи, на которых были в первый раз введены ассоциированные элементы.
Сведения, подтверждающие возможность осуществления изобретения
I. Краткий обзор настоящего изобретения.
Настоящее изобретение представляет собой устройство (систему), способ и средство программного обеспечения компьютера для воспроизведения точных или приближенных соизмерений сходства/несходства (взаимосвязей) между объектами, предпочтительно, как расстояния между точками в многомерном пространстве, которые воспроизводят объекты. В последовательности выполнения операций используются принципы автоматизации итерационного уточнения первоначальной (случайной или частичноупорядоченной) конфигурации точек с использованием случайных ошибок взаимоотношение/расстояние. Данные могут быть полными или неполными (т.е. некоторые взаимосвязи между объектами могут быть неизвестными), точными или неточными (т.е. некоторые или все взаимосвязи могут быть заданы в терминах допустимых диапазонов или преде лов), симметричными или асимметричными (т. е. взаимосвязь от объекта А к объекту В может отличаться от взаимосвязи от В к А), а также могут содержать систематические или случайные ошибки.
Отношения между объектами могут быть получены непосредственно из наблюдения, измерения, априорного знания, или интуитивно, или могут быть определены косвенно с применением любой подходящей методики для получения данных о сходстве (взаимосвязи).
Устройство по настоящему изобретению итеративно анализирует подгруппы (подмножество) объектов с тем, чтобы воспроизвести их в многомерном пространстве и в конечном итоге воспроизвести сами объекты.
В предпочтительным варианте выполнения изобретения устройство итеративно анализирует подгруппу объектов с применением методов многомерного шкалирования или нелинейной картографии.
В другом предпочтительным варианте выполнения изобретения взаимосвязи определены как двуточечные взаимосвязи или двуточечные сходства/несходства между парами объектов, а настоящее изобретение одновременно итерационно анализирует пару объектов, предпочтительно, дается оценка подгруппам попарно, как в двойном вложенном цикле.
В альтернативном варианте выполнения отношения определены как Ν-мерные взаимосвязи или Ν-мерные сходства/несходства между разнородными объектами, а устройство по изобретению одновременно итеративно анализирует разнородные объекты, где Ν, предпочтительно, больше 1. Реализация данного альтернативного варианта будет очевидна тем, кто имеет подготовку в соответствующих областях знаний.
Понятие объект относится к любому объекту, данным, свойству, атрибуту, компоненту, элементу, ингредиенту, элементу, и т. д., для которых целесообразно представить сходство/несходство между образцами или любыми различными представителями таких объектов, данных, свойств, атрибутов, компонентов, элементов, ингредиентов, элементов и т. д. Без ограничения и только для иллюстрации, объекты включают, например, химические соединения, процессы, машины, смеси веществ, изделия производства, электрические устройства, механические устройства, финансовые данные, финансовые инструменты, финансовые тренды, ассоциированные финансовые особенности и характеристики, программные изделия, человеческие особенности и характеристики, научные свойства, особенности и характеристики, и т.д. В одном из вариантов выполнения устройство по изобретению оперирует с любым объектом, данными, свойством, атрибутом, компонентом, элементом, ингредиентом, элементом, и т. д., за исключением химических соединений.
II. Выделение подгруппы.
Посредством настоящего изобретения итерационно анализируются подгруппы объектов для воспроизведения их в многомерном пространстве и воспроизведения взаимосвязей между объектами. В предпочтительном варианте выполнения настоящего изобретения итерационно анализируются подгруппы объектов, используя при этом многомерное шкалирование или нелинейную картографию. В данном варианте выполнения изобретения объекты в выделенной подгруппе анализируются как группы, с использованием традиционного алгоритма, например, такого который был описан выше, но не ограничиваясь таким алгоритмом. В частности, координаты изображений, соответствующих объектам, включающим указанную подгруппу, уточняются с использованием многомерного шкалирования, нелинейного картографии или любого другого подходящего алгоритма, или двуточечного алгоритм уточнения, описанного ниже.
В данном варианте выполнения изобретения подгруппы объектов могут быть выбраны случайно, псевдослучайно, систематично, частично систематично, и т. д. Поскольку подгруппы объектов анализируются, и расстояния между ними пересматриваются, группа объектов имеет тенденцию к самоорганизации (автоматизации). Таким образом, к большим наборам данных могут быть теперь применены известные методы многомерного шкалирования или нелинейной картографии.
В другом предпочтительном варианте выполнения изобретения взаимосвязи определены как двуточечные взаимосвязи или двуточечные сходства/несходства между парами объектов, а настоящее изобретение одновременно итерационно анализирует два объекта. Пары объектов могут быть выбраны (выделены) случайно, псевдослучайно, систематично, частично систематично и т. д. Новые алгоритмы и методы для двуточечного анализа приведены ниже. Данный вариант выполнения изобретения описан только в качестве иллюстрации и не является ограничивающим.
В альтернативном варианте выполнения изобретения взаимосвязи определены как Νмерные отношения или Ν-мерные сходства/несходства между разнородными объектами, и существующее изобретение одновременно итеративно анализирует разнородные объекты, где Ν, предпочтительно, больше 1. Реализация данного альтернативного варианта выполнения изобретения будет очевидна специалистам в соответствующих областях знаний.
III. Полные матрицы двуточечных отношений без неопределенности.
Предпочтительный подход, примененный здесь, состоит в том, чтобы использовать итерационное уточнение, основанное на случайных или мгновенных ошибках. Обсуждение в этом разделе предполагает, что все двуточечные взаимосвязи известны и точны. Как и в традиционном ΜΌ8, способ начинает работу с первоначальной конфигурации точек, сгенерированной случайным образом или некоторой другой процедурой (см. ниже). Затем эта первоначальная конфигурация непрерывно уточняется путем повторяющегося выбора двух случайных точек 1, _), и изменением их координат на дисплейной карте согласно уравнению 8:
где I - номер текущей итерации, х1(1) и Х|(1) - текущие координаты ί-й и _)-й точек на дисплейной карте, х,(1+1) - новые координаты ί-й точки на дисплейной карте, а г,, - двуточечные взаимосвязи между ί-м и _)-м объектами, которые мы пытаемся приблизить на дисплейной карте (см. выше).
Г(.) в уравнении 8 выше может принимать любую функциональную форму. В идеальном случае, эта функция должна минимизировать разность между фактическим и планируемым расстояниями между ί-й и _)-й точками. Например, Г(.) может быть задана уравнением 9:
где I - номер итерации, бу = ||х1(1) - х/1)||, и λ(ΐ) - настраиваемый параметр, именуемый далее как коэффициент обучения, заимствованный из терминологии нейронных сетей. Данный процесс повторяется постоянное число раз, или до тех пор, пока не будет достигнут минимум некоторого глобального критерия ошибки в пределах некоторого заранее заданного допуска. Для получения статистической точности обычно требуется большое количество итераций.
Описанный выше способ напоминает теорию обратного распространения в нейронных сетях (\УсгЬо5. Веуопб Ведтеккюп: Νον Тоо1к Гог Ртеб1сйоп апб Лпа1уы8 ίη 1Не Вейауюта1 Заепсек. Р11Б Тйемх Натуатб и и1мег811у, СатЬпбде, ΜΑ (1974), апб КитеШаП апб МсС1е11аиб, Ебк., Рага11е1 Б|51г|Ьи1еб Ргосекыпд: Ехр1ога1юп8 ш 1Не М1сго81гис1иге оГ Содпйюп. Уо1. 1, МТ Ргекк, СатЬпбде, ΜΑ (1986)) апб Койопеп'к ке1Гогдашхшд ргтар1е (Койопеп, Вю1ощса1 СуЬегпейск, 43:59(1982)).
Коэффициент обучения λ в уравнении 9 играет ключевую роль в обеспечении сходимости. Если λ слишком мало, координаты изменяются незначительно, и сходимость медленная. Если, с другой стороны, λ слишком велико, скорость обучения может быть увеличена, но выводимое отображение может стать нестабильным. Как правило, λ выбирается из интервала [0, 2] и может быть фиксировано, или λ может монотонно уменьшаться в течение процесса уточнения. Более того, λ может также быть функцией от 1, ф б,, и/или от т и может использоваться для установления различных весов некоторым объектам и/или взаимосвязям.
Например, λ может быть вычислено как:
Г 1+аг^ (Уравнение 10) или =0 при г^гс и ύ^· . /тах_/|т1п. -аг, впротивномслучае л(0-Мт1п---γ---Iе ι “Λρϊιη*уДтах 4т,п).
(Уравнение 11) где λ^ и λΙΙΙιη являются начальными и конечными значениями коэффициента обучения, такими, что λ^, λοιη е [0, 2], является общим числом шагов уточнения (итерации), 1 - текущий номер итерации, а является постоянным коэффициентом шкалирования, а гс - заданным пороговым расстоянием. Уравнение 10 дает эффект уменьшения коррекции при больших разносах, что позволяет получать выводимое отображение, которое более точно сохраняет ближние взаимодействия, чем дальние. Подробно введение весовых коэффициентов рассматривается ниже. Уравнение 11 означает, что корректируются только те расстояния, которые меньше заданного порогового значения гс. Это обеспечивает сохранение только местных взаимосвязей, тем самым позволяя раскрывать карту в ее собственной размерности.
Одно из главных преимуществ данного подхода состоит в том, что он позволяет осуществлять частичные уточнения. В ряде случаев, для отражения общей структуры и топологии данных, бывает достаточно того, что двуточечные взаимосвязи представлены только приблизительно. В отличие от традиционного ΜΌ8, такой подход позволяет осуществлять очень точную регулировку процесса уточнения. Кроме того, поскольку выводимое отображение является самоорганизующимся, двуточечные уточнения становятся совместными, что частично облегчает квадратичный характер проблемы.
Описанная выше процедура вложения не гарантирует сходимость к глобальному минимуму (т. е. наиболее точное вложение в смысле наименьших квадратов). Если это необходимо, процесс уточнения может быть повторен несколько раз с различных первоначальных конфигураций и/или начальных чисел случайной последовательности. В общем случае, абсолютные координаты в выводимом отображении не имеют никакого физического смысла. Важны относительные расстояния между точками, и общая структура и топология данных (наличие, плотность и разделение кластеров, и т.д.).
Описанный выше способ идеально подходит как для метрического, так и для неметрического шкалирования. Последнее особенно полезно, когда двуточечные взаимосвязи не удовлетворяют аксиомам расстояния, и, в частности, неравенству треугольника. Хотя получение точной проекции возможно, только когда матрица двуточечных отношений является положительно определенной, значимые отображения могут быть получены даже тогда, когда этот критерий не удовлетворяется. Как упомянуто выше, общее качество проекции определяется функцией ошибки суммы квадратов, такой, какая показана в уравнениях 1-3.
Описанный выше общий алгоритм может также применяться, когда матрица двуточечных отношений неполна, т. е. когда некоторые из двуточечных отношений неизвестны, когда некоторые из двуточечных отношений неточны или искажены, а также в обоих вышеупомянутых случаях. Ниже эти случаи будут рассмотрены отдельно.
IV. Разреженные матрицы двуточечных отношений без неопределенности.
Описанный выше общий алгоритм может также применяться, когда матрица двуточечных отношений неполна, т. е. когда некоторые из двуточечных отношений неизвестны. В этом случае может использоваться алгоритм, подобный описанному выше, с тем исключением, что выполняются итерации для пар точек, для которых взаимосвязи известны. В таком случае в процессе выполнения алгоритма идентифицируются в пространстве конфигурации, которые удовлетворяют известным двуточечным взаимосвязям; неизвестные двуточечные взаимосвязи адаптируются в процессе уточнения и, в конечном счете, принимают значения, которые позволяют достичь удовлетворительного вложения для известных отношений.
В зависимости от количества отсутствующих данных, количество удовлетворительных вложений (отображений) исходной матрицы отношений может быть более одного. В таком случае из различных начальных конфигураций или начальных чисел последовательности случайных чисел могут быть получены различные конфигурации (отображения). В некоторых приложениях, таких как поиск конформационного пространства молекул, это свойство дает существенное преимущество над рядом альтернативных способов. В данном контексте могут использоваться все варианты первоначального алгоритма (см. разделы ниже).
V. Матрицы двуточечных отношений с ограниченной неопределенностью.
Описанный выше общий алгоритм может также применяться, когда двуточечные взаимосвязи содержат ограниченную неопределенность, т. е. когда про некоторые из двуточечных отношений известны только пределы заданных допусков (например, известно, что взаимосвязи лежат в пределах диапазона или группы с заранее заданными верхней и нижней границами). В таком случае может использоваться алгоритм, подобный одному из алгоритмов, описанных выше, с тем исключением, что расстояния на дисплейной карте корректируются только тогда, когда соответствующие точки лежат вне заранее заданных границ. Например, предположим, что взаимосвязи между двумя объектами ί и _) заданы в терминах, соответственно, верхней и нижней границ гтах и ттт. Когда в процессе уточнения выбирается эта пара объектов, вычисляется расстояние между соответствующими образами на дисплейной карте, которое обозначается как Если άϋ больше гтах, координаты образов модифицируются, при этом г берется как планируемое расстояние:
X/ 0+1)=/(А /'Λ (Уравнение 12)
И наоборот, если ά меньше ттш, координаты образов модифицируются, используя ттш как конечное расстояние:
х((1+1) = /й,х/фх/фгтЬ) (Уравнение 13)
Если лежит между верхней и нижней границами (т.е. ттт<ф|<ттах), модификация не производится. Другими словами, алгоритм стремится удовлетворить ограничению на верхней границе, если текущее расстояние между образами больше чем верхняя граница, или ограничению на нижней границе, если текущее расстояние между образами меньше чем нижняя граница. Если расстояние между образами находится в пределах верхней и нижней границ, модификация не производится.
Данный алгоритм может быть дополнен для случая, когда некоторые из двуточечных отношений задаются конечным множеством допустимых дискретных значений, или набором диапазонов значений, или некоторой комбинацией этих вариантов. Ниже, в целях рассмотрения, мы рассмотрим дискретные значения, как диапазоны нулевой ширины (например, дискретное значение 2 может быть представлено как диапазон [2,2]).
На фиг. 5 показаны различные возможные варианты для гипотетических одиночных двуточечных отношений и текущее расстояние между соответствующими образами на дисплейной карте. Здесь заштрихованные площади 510, 512 и 514 обозначают допустимые диапазоны для данных двуточечных отношений. Расстояния ά1-ά5 иллюстрируют 5 различных вариантов для текущего расстояния между соответствующими образами на дисплейной карте. Стрелки 516, 518, 520 и 522 указывают направление модификации, которая будет применяться к образам на отображении. Стрелки 518 и 522, направленные налево, указывают, что координаты ассоциированных образов на дисплейной карте должны быть модифицированы так, чтобы образы стали ближе друг к другу. Стрелки 516 и 520, направленные направо, указывают, что координаты ассоциированных образов на дисплейной карте должны быть модифицированы так, чтобы образы стали дальше друг от друга.
Как и в случае одного диапазона, если текущее расстояние между выбранной парой образов выводимого отображения находится в пределах любого из заранее заданных диапазонов, модификация координат не производится (т. е. случай ά1 на фиг. 5). И наоборот, производится модификация, с использованием самой близкой границы диапазона в качестве планируемого расстояния (т. е. случаи ά1-ά5 на фиг. 5). Например, если взаимосвязи между данной парой объектов лежат в диапазонах [1,2] [3,5] и [6,7], а текущее расстояние между соответствующими образами равно 2,9 (ά5 на фиг. 5), производится модификация с использованием 3 как планируемого расстояния (г^) в уравнении 8. Если, однако, текущее расстояние равно 2,1, координаты модифицируются с использованием 2 как планируемого расстояния г,, в уравнении 8.
Этот детерминированный критерий может быть заменен стохастическим или вероятностным критерием, в котором планируемое расстояние выбирается либо случайно, либо с вероятностью, которая зависит от разности между текущим расстоянием и двумя самыми близкими границами диапазона. В примере, описанном выше (ά5 на фиг. 5), может быть произведен вероятностный выбор между 2 и 3, с вероятностями, например, 0,1 и 0,9, соответственно (т. е. 2 мог быть выбран как требуемое расстояние с вероятностью 0,1, а 3 - с вероятностью 0,9). Может быть использован любой метод получения таких вероятностей. В качестве альтернативы, 2 или 3 могут быть выбраны как требуемое расстояние случайным образом.
Например, ограниченную неопределенность в двуточечных взаимосвязях могут представлять случайные или систематические ошибки, или шум, связанный с физическими измерениями. В общем случае, ограниченные неопределенности могут различаться для различных двуточечных взаимосвязей. Типичным примером является Ядерный Эффект Оуетйашег (ЫОЕ) в многомерной спектрометрии Ядерного Магнитного Резонанса.
Альтернативный алгоритм для случаев с неопределенностью должен уменьшить величину коррекции для пар объектов, для которых считается, что их взаимосвязи являются неопределенными. В такой схеме величина коррекции, как это задано коэффициентом обучения в уравнении 9, может быть, например, уменьшена для двуточечных взаимосвязей, для которых считается, что их взаимосвязи является неопределенными. Величина коррекции может зависеть от степени неопределенности, связанной с соответствующими двуточечными взаимосвязями (например, величина коррекции может быть обратно пропорциональна неопределенности, связанной с соответствующими двуточечными взаимосвязями). Если наличие и/или величина ошибок неизвестны, ошибки могут быть опре делены алгоритмом автоматически (см. раздел V ниже).
VI. Матрицы двуточечных взаимосвязей с неограниченной неопределенностью (искаженные данные).
Идеи, описанные в предшествующих разделах, могут применяться, когда считается, что некоторые из двуточечных взаимосвязей содержат искаженные данные, т. е. когда некоторые из двуточечных взаимосвязей неверны и, по существу, не имеют никакого взаимосвязи к фактическим величинам. В этом случае в ходе работы алгоритма проблемные взаимосвязи могут быть обнаружены и удалены из последующей обработки.
Другими словами, цель состоит в том, чтобы идентифицировать искаженные исходные данные и удалить их из матрицы взаимосвязей. Этот процесс позволяет получить разреженную матрицу взаимосвязей, которая может быть уточнена с использованием алгоритма из раздела 1.2 выше.
VII. Модификации Основного Алгоритма.
Во многих случаях работа описанного выше алгоритма может быть ускорена предварительным упорядочиванием данных с использованием подходящего статистического метода. Например, если сходства получены из данных, доступных в векторной или бинарной форме, первоначальная конфигурация точек на дисплейной карте может быть рассчитана с применением Анализа Главных Компонент. В предпочтительном варианте выполнения первоначальная конфигурация может быть построена из первых 3 главных компонент матрицы свойств (т. е. 3 скрытых переменных, на которые приходится большая часть дисперсии данных). На практике эта методика может давать существенный выигрыш в быстродействии процедуры уточнения. Действительно, если используется случайная начальная конфигурация, существенная часть времени обучения тратится на установление общей структуры и топологии выводимого отображения, что обычно связано с существенной перегруппировкой. Если, с другой стороны, входная конфигурация является частично упорядоченной, значение критерия ошибки может быть относительно быстро уменьшено до приемлемого уровня.
Если данные сильно кластеризованы, методика выборочного исследования позволяет уточнять области низкой плотности менее эффективно, чем области высокой плотности. В предпочтительном варианте выполнения изобретения данная тенденция может быть частично компенсирована модификацией исходного алгоритма, которая увеличивает выборочную вероятность в областях низкой плотности. В одном из вариантов выполнения изобретения центр масс выводимого отображения идентифицирован и построены концентрические слои с центрами в данной точке. Выполнено несколько регулярных итераций уточнения, и каждый раз выбирались точки внутри этих оболочек или между ними. Данный процесс был повторен заданное число раз. За этой фазой следовала фаза регулярного уточнения с использованием глобальной выборки, и процесс был повторен.
В общем случае, основной алгоритм не различает малые и большие расстояния. Уравнения 10 и 11 описывают способ, который за счет введения весовых коэффициентов, сохраняет малые расстояния более точно, чем большие.
Альтернативный (и дополнительный) подход состоит в обеспечении того, что точки, находящиеся на близком расстоянии, подвергаются более расширенной выборке, чем точки на большом расстоянии. Например, может быть использована альтернативная последовательность глобальных и локальных циклов уточнения, аналогичных циклу, описанному выше. В данном воплощении сначала выполнена фаза глобального уточнения, после чего полученное выводимое отображение разделено на части с помощью регулярной сетки. Затем точки (объекты) в каждой ячейке сетки подвергнуты локальному уточнению (т. е. сравниваются и улучшаются только точки из одной ячейки). Предлагается число шагов выборки в каждой ячейке выбирать пропорциональным числу точек, содержащихся в данной ячейке. Этот процесс является высоко параллелизуемым. За указанной фазой локального уточнения следует другая фаза глобального уточнения. Процесс повторяют заранее заданное число раз, или до тех пор, пока ошибка вложения не будет уменьшена до заранее заданного допуска. В качестве альтернативы, сеточный метод может быть заменен другим подходящим методом идентификации ближайших точек, например, типа к-б дерева.
Описанные здесь способы могут применяться для последовательного уточнения. Это означает, что, начав с созданного на дисплейной карте набора точек, можно добавить новый набор точек без модификации первоначального отображения. Строго говоря, это статистически корректно в том случае, когда новый набор точек значительно меньше первоначального набора. В предпочтительном варианте выполнения изобретения новый набор точек может быть внедрен в существующее отображение с использованием модификации основного алгоритма, описанной выше. В частности, для модификации только входящих точек могут использоваться уравнения 8 и 9. Кроме этого, процедура выборки гарантирует, что выбранные пары содержат по крайней мере одну точку из входного набора. Это означает, что случайным образом выбираются две точки так, что по крайней мере одна из этих точек принадлежит входному набору. В качестве альтернативы, каждая новая точка может быть независимо вне дрена с использованием подхода, описанного выше.
VIII. Оценочные свойства (особенности), соизмерение взаимосвязей и расстояний.
В предпочтительном варианте выполнения изобретения взаимосвязи между объектами могут быть представлены как сходства/несходства между объектами на дисплейной карте и могут быть получены из свойств или особенностей, связанных с объектами. Для создания выводимого отображения может использоваться любая мера сходства. Свойства или особенности, которые используются для оценки сходства или несходства, иногда вместе называются здесь оценочными свойствами.
Например, если объекты - это химические соединения, сходство между объектами может быть основано на структурном сходстве, химическом сходстве, физическом сходстве, биологическом сходстве, и/или некотором другом типе соизмерения сходства, которая может быть получена из структуры или идентичности соединений.
А. Оценочные свойства, имеющие непрерывные или дискретные вещественные значения.
Меры сходства могут быть получены из списка оценочных свойств, связанного с набором объектов. Например, если объекты - химические соединения, в качестве оценочных свойств могут выступать физические, химические и/или биологические свойства, связанные с набором химических соединений. В рамках такой формализации объекты могут быть представлены в виде векторов в многомерном пространстве свойств, а их сходство может быть рассчитано через некоторую геометрическую меру расстояния.
В предпочтительном варианте выполнения изобретения пространство свойств определяется с использованием одного или более свойств или описателей. В примере с химическим соединением, пространство свойств может быть определено с использованием одного или более молекулярных свойств или описателей. Такие молекулярные свойства могут включать топологические индексы, физико-химические свойства, эксплуатационные электростатические параметры, объем, параметры поверхности и т. д. Эти свойства могут включать, не ограничиваясь, молекулярный объем и площадь поверхности, дипольные моменты, коэффициенты распределения вода-октанол, молярные рефракции, теплоту формирования, значения полной энергии, потенциалы ионизации, молекулярные индексы связности, двумерные и трехмерные векторы автокорреляции, трехмерные структурные и/или фармакологические параметры, электронные поля, и т. д.
Нужно обратить внимание, что настоящее изобретение не ограничено данным воплощением. Например, молекулярные свойства могут включать наблюдаемые биологические активности набора соединений, в противоположность набору биологических объектов типа ферментов или рецепторов (также известных как сходство по характерным признакам). Фактически, в настоящем изобретении может использоваться любое векторное представление химических данных.
Необходимо также понимать, что настоящее изобретение не ограничено приложением, связанным с объектами типа химических соединений. Помимо указанных объектов, в настоящем изобретении могут быть реализованы любые наборы данных или объекты, включая объекты, которые связаны с оценочными свойствами, которые имеют непрерывные или дискретные значения.
1. Соизмерение взаимосвязи или расстояния, для которых значения оценочных свойств непрерывные или дискретные вещественные значения.
Соизмерение расстояния является некоторым алгоритмом или методикой, применяемой для определения взаимосвязи между объектами, основанного на выбранных оценочных свойствах. Выбор конкретной меры расстояния, используемой в каждом конкретном случае, зависит, по крайней мере частично, от набора значений, которые могут учитываться оценочными свойствами.
Например, в случае, когда оценочные свойства в качестве значений могут учитывать вещественные числа, в качестве удобной меры расстояния может использоваться соизмерение Минковского, показанная в уравнении 14 где к используется для нумерации элементов вектора свойств, а г е [1, да]. Для г = 1,0 уравнение 14 представляет собой метрику городских кварталов или Манхэттанскую метрику. Для г = 2,0 уравнение 14 - обычное Евклидово расстояние. Для г=да уравнение 14 представляет собой максимум расстояний в абсолютных координатах, известное также, как доминирующая метрика, верхняя метрика, или ультраметрическое расстояние. Можно показать, что для любого значения г е [1, да] метрика Минковского является правильной метрикой, т. е. что она удовлетворяет условиям аксиом расстояния и, в частности, неравенству треугольника.
В. Оценочные свойства, имеющие бинарные значения.
В качестве альтернативы, оценочные свойства объектов могут быть представлены в бинарной форме. При таком представлении для указания на присутствие или отсутствие, или потенциальное присутствие или отсутствие свойства или характеристики используются биты.
Например, если в качестве объектов выбраны химические соединения, такие объекты могут быть закодированы с использованием ключей основания, когда каждый бит обозначает присутствие или отсутствие в конечной молекуле специфического структурного свойства или шаблона. Такие свойства могут включать, но не ограничиваясь, присутствие, отсутствие или минимальное количество включений отдельного элемента (например, присутствие по крайней мере 1, 2 или 3 атомов азота), необычные или существенные электронные конфигурации и типы атомов (например, азот с двойной связью или ароматический углерод), общие функциональные группы, такие как спирты, амины и т. д., некоторые простые и сложные звенья, пара или тройка фармакологических групп в определенной классификации в 3мерном пространстве, и дизъюнкции необычных свойств, которые являются настолько редкими, что не обозначаются отдельными битами, но чрезвычайно важны, когда все же происходят. Как правило, этим необычным свойствам назначают общий бит, который устанавливается, когда в конечный молекуле присутствует один из шаблонов.
При назначении битов, в качестве альтернативы, оценочные свойства соединений могут быть закодированы в форме бинарных характерных признаков, которые не зависят от определенного ранее фрагмента или словаря особенностей. Вместо этого, до некоторого заранее определенного предела каждый шаблон в молекуле систематически пересчитывается и подается на вход алгоритма хеширования, который переворачивает некоторое небольшое число битов на псевдослучайных позициях точечного рисунка. Хотя и подразумевается, что две различных молекулы могут иметь совершенно одинаковые наборы характерных признаков, вероятность такого совпадения чрезвычайно мала для всех случаев, кроме самых простых. Накопленный опыт свидетельствует о том, что эти наборы характерных признаков содержат достаточно информации о молекулярных структурах, чтобы обеспечить значимое сравнение сходства.
7. Соизмерение расстояния, для которых значения оценочных свойств - бинарные.
Могут использоваться соизмерение взаимосвязей с бинарными описателями (т.е. меры, для которых оценочные свойства - бинарные или бинарные характерные признаки). Наиболее часто используется нормированное расстояние Хемминга:
^|ГОЯ(х^)| N (Уравнение 15) в котором измеряет число битов, различных у х и у; коэффициент Танимото (Ташто1о) или Джаккарда Пассагб):
т_ |ЗУР(х^)| |/ОЯ(х^)| (Уравнение 16) который является мерой числа оснований, общих для двух молекул, отнесенное к числу оснований, которые они могли бы иметь общими, а также коэффициент Дайса (Люс):
М*И (Уравнение 17)
В приведенных выше уравнениях ΆΝΏ(χ, у) есть пересечение бинарных множеств х и у (биты, которые в обоих множествах равны 1), ЮК. (х, у) есть объединение или включающее или хи у (биты, которые равны 1 либо в х, либо в у), ХОК есть исключающее или х и у (биты, которые равны 1 либо в х, либо в у, но не в обоих множествах сразу), |х| это число битов, которые равны 1 в х, а Ν длина бинарных множеств, измеренная в битах. Другая популярная метрика - Евклидово расстояние, которое для бинарных множеств может быть преобразовано в следующую форму:
(Уравнение 18) где ΝΟΤ (у) обозначает бинарное дополнение к у. Выражение | ХОК (χ, ΝΟΤ (у)) | представляет собой число битов, одинаковых в х и у (либо 0, либо 1). Евклидово расстояние - это хорошее соизмерение сходства в случаях, когда бинарные множества относительно велики, и используется, главным образом, в ситуациях, когда измеряется относительное сходство.
В примере с соединениями, расстояние между объектами может быть определено с использованием бинарного или многомерного представления.
Настоящее изобретение, однако, не ограничено этим воплощением.
Например, сходство между двумя соединениями может быть определено путем сравнения форм молекул с использованием подходящего метода 3-размерной линеаризации. Сходство между двумя соединениями может также быть выведено из модели сходства, определенной согласно заранее заданной процедуре. Примером одной такой модели сходства может служить нейронная сеть, обученная прогнозировать коэффициент сходства по заданным двум соединениям, закодированным соответствующим образом. Такая нейронная сеть может быть обучена по обучающей последовательности пар структур и известному коэффициенту сходства для каждой такой пары, которые, например, могут быть введены пользователем.
С. Шкалирование оценочных свойств.
В уравнении 14 свойства (т. е. оценочные свойства) могут быть шкалированы по-другому, что позволяет отразить их относительную важность в оценке взаимосвязей между соединениями. Например, свойству А может быть придан вес 2, а свойству В может быть придан вес
10. Таким образом, свойство В будет иметь в пять раз большее воздействия при расчете взаимосвязи, чем свойство А. Соответственно, уравнение 14 может быть заменено уравнением 19:
где \ν1: - вес к-го свойства. Примером такого весового множителя может служить коэффициент нормализации. Однако могут также использоваться и другие весовые схемы.
Шкалирование (веса) не должно быть обязательно одинаковым для всего отображения, т. е. результирующее отображение не должно быть обязательно изоморфным. В дальнейшем отображения, полученные с применением однородных весов, будут называться глобально взвешенными (изоморфными), тогда как отображения, полученные с применением разнородных весов, будут называться локально взвешенными (неизоморфными). Для локально взвешенных отображений взаимосвязи (или расстояния) на дисплейной карте отражают локальную меру сходства. То, что определяет степень сходства в одном домене выводимого отображения, не обязательно будет определять степень сходства в другом домене выводимого отображения.
Например, локально взвешенные отображения могут применяться, чтобы отразить сходства, полученные с помощью локально взвешенного алгоритма изучения на основе случайных чисел. Локально взвешенное самообучение использует данные режима обучения для осреднения, интерполяции внутри, экстраполяции от или иной комбинации данных режима обучения. Большая часть методов самообучения (также упоминаемых как методы моделирования или предсказания) конструируют одиночную модель, удовлетворяющую всем данным режима обучения. С другой стороны, локальные модели пытаются удовлетворять данным режима обучения в локальной области, окружающей запрос. Примерами локальных моделей могут служить ближайшие соседи, взвешенное среднее значение, и локально взвешенная регрессия. Локально взвешенное обучение рассмотрено у Вапника (Уаршк, Абуапсек ίη №ита1 ΙηίοηηαΙίοη Ргосе88шд ЗуЧепъ. 4:831, Мотдап-Каикшап, 8ап Ма1ео, СА (1982)); Боттоу и Вапник (Войои апб Уаршк, №ита1 Сошри1абоп, 4(6):888 (1992) апб Уаршк апб Войои, №ита1 Сошри1абоп, 5(6):893 (1993)), все эти публикации включены здесь ссылкой во всей их полноте.
Видимые отображения могут также быть построены на основе матрицы взаимосвязей, которая не является строго симметричной, т. е. матрица взаимосвязей такова, что г,, ψ гр. Предполагается, что данный подход будет использоваться в ситуациях, когда взаимосвязи (т. е. функция взаимосвязей) определены локально, например, в локально взвешенной модели, в которой используется локальная функция рас стояния на точечной базе. В данном воплощении каждый пункт обучения связан с функцией расстояния и значениями соответствующих параметров. Для того, чтобы создать выводимое отображение, отражающее эти локальные взаимосвязи расстояния, расстояние между двумя точками лучше всего оценивать дважды, используя локальные функции расстояния между соответствующими точками. Полученные расстояния усредняются и подаются на вход алгоритма отображения, описанного выше. Данный подход мог бы потенциально привести к получению значимой проекции в случае, когда локальные функции расстояния на точечной базе непрерывны или полунепрерывны везде в пространстве признаков.
IX. Реализация изобретения.
А. Общие положения.
Изобретение может быть реализовано различными способами, с использованием различных алгоритмов, и может быть внедрено на аппаратных средствах, программном обеспечении, аппаратно-программном обеспечении или любой их комбинации. На фиг. 6 приведен пример структурной схемы, которая иллюстрирует модули и поток данных, которые могут быть включены в устройство (систему) 610 в соответствии с настоящим изобретением. Структурная схема на фиг. 6 приведена для лучшего понимания настоящего изобретения и настоящее изобретение не ограничено примером выполнения, приведенным на фиг. 6 в виде структурной схемы.
Устройство 610 включает реляционную базу данных 612, в которой хранятся данные взаимосвязей 630, ассоциированные с объектами. Поскольку настоящее изобретение может быть реализовано с любым типом данных, для которых могут быть определены взаимосвязи, в реляционной базе данных 612 могут быть размещены любые типы данных и ассоциированных взаимосвязей.
Данные взаимосвязей 630 могут быть получены из одного или более источников. Например, отношение 630а может быть получено из внешнего источника 632, отношение 630Ь может быть получено из других источников 640, а данные взаимосвязей 630п могут быть сгенерированы модулем генератора взаимосвязей 634 на основе оценочных свойств 636, наличие которого необязательно. Для выполнения одного или более алгоритмов, таких как одно или несколько уравнений 14-19, необязательный модуль генератора взаимосвязей 634 может включать аппаратные средства, программное обеспечение, аппаратно-программное обеспечение или любую их комбинацию.
Данные взаимосвязей 630 передаются на координатный модуль 616. В предпочтительном варианте выполнения изобретения взаимосвязи 630 передаются на координатный модуль 616 в виде матрицы взаимосвязей 614, которая, пред почтительно, является матрицей, содержащей любой объем данных взаимосвязей 630 из базы данных взаимосвязей 612.
Координатный модуль 616 назначает начальные координаты точкам данных или объектам, которые ассоциированы данными взаимосвязей 630. Начальные координаты могут быть назначены случайным образом или посредством любой другой методики. Например, данные могут быть заранее упорядоченными или частично упорядоченными. Координаты включают выводимое отображение. Видимое отображение может представлять собой линейное или развернутое выводимое отображение. Видимое отображение представляет собой Ν-мерное выводимое отображение.
Подгруппа (подмножество) 618 взаимосвязь/координаты и ассоциированные с ними взаимосвязи 620 передаются на модуль пересмотра координат 622. В предпочтительном варианте выполнения изобретения на модуль пересмотра координат 622 каждый раз передается одну из подгрупп взаимосвязь/координаты 618.
Можно предусмотреть, чтобы модуль выделения подгруппы 636 выбирал подгруппы взаимосвязь/координаты 618 для их дальнейшей передачи в модуль пересмотра координат 622. Модуль выделения подгруппы 636 может выбирать подгруппы взаимосвязь/координаты 618 случайным образом или с помощью любого другого подходящего метода, включая один метод или более из числа описанных выше.
Модуль уточнения координат 622 уточняет положение объектов на дисплейной карте (т. е. уточняет координаты 618) на основе точных или приближенных измерений сходства/несходства (взаимосвязи 620). В частном случае, модуль пересмотра координат 622 измеряет расстояния между объектами на дисплейной карте и сравнивает их с ассоциированными взаимосвязями 620. Затем, на основе сравнения, модуль пересмотра координат 622 уточняет координаты 618. Такие расстояния могут либо использоваться непосредственно, либо могут изменять другие атрибуты изображения.
Для реализации одного или более традиционных алгоритмов многомерного шкалирования или алгоритмов нелинейного отображения (как это описано выше), модуль пересмотра координат 622 может включать аппаратные средства, программное обеспечение, аппаратнопрограммное обеспечение или любое их сочетание. Кроме того, или в качестве альтернативы, для реализации одного или более современных алгоритмов двуточечного анализа, таких, например, как одно или несколько уравнений 8-13, или их сочетаний, модуль пересмотра координат 622 может включать аппаратные средства, программное обеспечение, аппаратно-программное обеспечение, или любое их сочетание.
Когда модуль пересмотра координат 622 производит описанный выше двуточечный ана лиз, для обеспечения сходимости расстояния между координатами в подгруппах взаимосвязь/координаты 618 и ассоциированным соотношением (взаимосвязями) 620 может применяться коэффициент обучения λ. Модуль уточнения координат 622 может быть разработан для представления точных или приближенных измерений сходства/несходства (взаимосвязи 620). Например, модуль пересмотра координат 622 может быть запрограммирован на обработку полных двуточечных матриц, которые не содержат неопределенности, разреженных двуточечных матриц, которые не содержат неопределенности, двуточечных матриц, которые содержат ограниченную неопределенность, двуточечных матриц, которые содержат неограниченную неопределенность (т. е. искаженные данные), или любой их комбинации. Модуль уточнения координат 622 может также быть запрограммирован на введение дополнительных объектов или точек данных в группу объектов, как это описано выше.
Модуль уточнения координат 622 генерирует исправленные координаты 624, которые возвращаются в координатный модуль 616. Данный процесс повторяется для дополнительных подгрупп координат 618 и ассоциированных взаимосвязей 620, и предпочтительно повторяется на аналогичных подгруппах взаимосвязь/координаты 618 и ассоциированных взаимосвязях 620 до тех пор, пока не будет достигнут заранее заданный интервал или не будет удовлетворен некоторый другой критерий.
В варианте выполнения изобретения, если желательно визуализировать взаимосвязи между объектами, координаты 626 могут быть переданы для отображения на необязательный модуль визуализации 628. Уточненные координаты 626 передаются на необязательный модуль визуализации 628 до тех пор, пока не закончится итеративный процесс согласно изобретению.
В. Реализация изобретения в виде средства программного обеспечения компьютера.
Настоящее изобретение может быть реализовано с использованием одного или нескольких компьютеров. Компьютер 202, приведенный на фиг. 2 в качестве примера, включает один или несколько процессоров, например, таких, как процессор 204. Процессор 204 подключен к каналу связи 206. Различные варианты программного обеспечения описываются в условиях данной компьютерной (вычислительной) системы, приведенной в качестве примера. Из данного описания специалистам в соответствующей области (областях) знаний, станет понятно, как можно воплотить данное изобретение, используя другие вычислительные системы и/или архитектуры вычислительных систем.
Компьютер 202 включает также оперативную память 208, предпочтительно запоминающее устройство с произвольным порядком доступа (ВАМ), и может также включать одно уст ройство внешней памяти 210 или более. Устройства внешней памяти 210 могут включать, например, накопитель на жестком диске 212 и/или накопитель на сменных носителях 214, например, накопитель на гибких дисках, устройство чтения магнитной ленты, накопитель на оптических дисках и т.д. Накопитель на сменных носителях 214 обычным способом читает и/или записывает данные на сменный носитель информации 216. Сменный носитель информации 216 представляет собой гибкий магнитный диск, магнитную ленту, оптический диск и т.д., информация которых считывается и записывается накопителем на сменных носителях 214. Сменный носитель информации 216 включает носитель данных, который компьютер может использовать для хранения программного обеспечения и/или данных.
В альтернативных вариантах выполнения изобретения компьютер 202 может включать другие аналогичные средства, позволяющие загружать компьютерные программы или другие команды в компьютер 202. Такие средства могут включать, например, сменный носитель информации 220 и интерфейс 218. В качестве примера такого оборудования можно указать программный картридж и картридж интерфейса (аналогично тем, что можно найти в устройствах для видеоигр), сменный чип памяти (типа ΕΡΒΘΜ - ПРОГРАММИРУЕМОГО ПЗУ или ΡΚ.ΟΜ - НПЗУ) и соответствующий разъем, а также другие сменные модулей памяти 220 и интерфейс 218, которые позволяют производить передачу программного обеспечения и данных со сменного модуля памяти 220 на компьютер 202.
Компьютер 202 может также включать коммуникационный интерфейс 222. Коммуникационный интерфейс 222 позволяет передавать программное обеспечение и данные между компьютером 202 и внешними устройствами. В качестве примеров коммуникационного интерфейса 222 можно указать, но не ограничиваясь этими примерами, модем, сетевой интерфейс (типа Е111СГПС1 карты), коммуникационный порт, слот и карты РСМС1А и т.д. Программное обеспечение и данные передаются через коммуникационный интерфейс 222 в форме сигналов (обычно данные на носителе), который могут представлять собой электронные, электромагнитные, оптические или другие сигналы, которые могут быть приняты коммуникационным интерфейсом 222.
В данном описании понятие средство программного обеспечения компьютера применяется для общего обозначения носителя, такого как сменные носители информации 216 и 220, жесткие диски 212, которые могут быть удалены из компьютера 202, а также сигналы, несущие программное обеспечение, получаемое коммуникационным интерфейсом 222. Указанные компьютерные программы представляют собой средства для обеспечения компьютера 202 программным обеспечением.
Программное обеспечение компьютера (другое название - логика управления ЭВМ) хранится в оперативной памяти и/или на устройствах внешней памяти 210. Программное обеспечение может также быть получено через коммуникационный интерфейс 222. В процессе выполнения такие компьютерные программы позволяют компьютеру 202 реализовать особенности настоящего изобретения, которые были изложены в данном документе. В частности, в процессе своего выполнения компьютерные программы позволяют процессору 204 реализовать особенности настоящего изобретения. Соответственно, такое программное обеспечение представляют собой контроллеры компьютера 202.
В варианте выполнения, в котором изобретение реализовано с использованием программного обеспечения, это программное обеспечение может быть сохранено в компьютерной программе и загружено в компьютер 202 с использованием накопителя на сменных носителях 214, жесткого диска 212, и/или коммуникационного интерфейса 222. При выполнении процессором 204 логика управления (программное обеспечение) заставляет процессор 204 реализовывать свойства настоящего изобретения, которые были изложены в данном документе.
В другом варианте выполнения часть изобретения, которая автоматизирована, реализуется, в основном, или полностью, с помощью аппаратных средств. Примером таких аппаратных компонент могут служить специализированные интегральные схемы (А81С). Реализация аппаратно реализованного конечного автомата, который мог бы выполнять функции, изложенные в данном документе, будет очевидна специалистам в соответствующей области (областях) знаний.
В еще одном варианте выполнения изобретение реализовано с использованием комбинации аппаратных средств и программного обеспечения.
В качестве компьютера 202 может быть выбран любой подходящий компьютер (вычислительная машина), подобный компьютеру, на котором работает операционная система, поддерживающая графический интерфейс пользователя и среду работы с окнами. Подходящими компьютерными системами являются 8Шсоп Сгар1ис5. 1пс. (8ΟΙ) рабочая станция/сервер, рабочая станция/сервер 8ип, рабочая станция/сервер ЭЕС, рабочая станция/сервер ΙΒΜ, ΙΒΜ совместимый персональный компьютер, Арр1е Μααηΐοδί, или любая другая подходящая компьютерная система, однопользовательская, с одним процессором семейства 1п1е1 РепНиш, РепНиш Рго, или РепНиш II или более. Подходящими операционными системами являются (но не ограничиваясь данным перечнем) ΙΚΙΧ,
О8/8о1ап8, Ωίβίΐαΐ Ишх, ΑΙΧ, ^ίηάθ№ 95/ΝΤ М1сго8ой, Арр1е Мас О8, или любая другая операционная система. Например, в варианте выполнения программа может быть реализована и работать на рабочей станции 8Шсоп ОтарЫск Ос1апе под управлением операционной системы ΙΡΙΧ 6.4, и использовать графический интерфейс пользователя Мой!, на базе X \Утбо\у 8уйет.
С. Функционирование настоящего изобретения.
На фиг. 7 показано функционирование настоящего изобретения в виде блок-схемы процесса 700. Функционирование настоящего изобретения показано для общего случая, когда матрица взаимосвязей 614 является полной двуточечной матрицей взаимосвязей без неопределенностей. Основываясь на приведенных выше описаниях и блок-схеме 700, специалисты в соответствующей области (областях) знаний смогут изменить блок-схему 700, приспособив ее к другим ситуациям, когда, например, матрица взаимосвязей 614 - это разреженная п-мерная или двуточечная матрица взаимосвязей без неопределенности; матрица взаимосвязей 614 - это η-мерная или двуточечная матрица взаимосвязей с ограниченной неопределенностью; где матрица взаимосвязей 614 - это двуточечная матрица взаимосвязей с неограниченной неопределенностью (т. е. искаженные данные); и т.д.
Для общего случая, когда матрица взаимосвязей 614 - это полная двуточечная матрица взаимосвязей без неопределенности, процесс начинается на шаге 702, на котором координатный модуль 616 получает из базы данных взаимосвязей 614 матрицу взаимосвязей 612.
На шаге 704 координатный модуль 616 назначает начальные координаты объектам, связанным с взаимосвязями в матрице взаимосвязей 614. Назначение начальных координат может быть сделано случайным образом. В качестве альтернативы, начальные координаты могут быть предварительно упорядоченными или частично предварительно упорядоченными.
На шаге 706 из матрицы взаимосвязей 614 для уточнения выбирается подгруппа взаимосвязь/координаты 618. Подгруппа 618 может быть выбрана случайно, псевдослучайно, систематично, частично систематично, и т. д. Выделение происходит с помощью модуля выделения подгруппы 638.
На шаге 708 выбранное подмножество 618 и ассоциированная взаимосвязь 620 передаются на модуль пересмотра координат 622. Модуль уточнения координат 622 производит уточнение координат в подгруппе взаимосвязь/координаты 618, которое базируется на ассоциированных взаимосвязях 620.
На шаге 710 принимается решение о необходимости выбрать другую подгруппу для уточнения координат. Если другая подгруппа взаимосвязь/координаты 618 должно быть уточ нено, процесс обработки возвращается на шаг 706 выбора другой подгруппы взаимосвязь/координаты 618. В противном случае процесс обработки останавливается на шаге 712.
В необязательном варианте выполнения изобретения на шаге 714 координаты 626 передаются для отображения на необязательный модуль визуализации 628. Шаг 714 может быть выполнен в любой момент в течение одного или более шагов 706-712.
В другом необязательном варианте выполнения изобретения данные взаимосвязей 630 генерируются до шага 702. В этом необязательном варианте выполнения изобретения оценочные свойства 636 получены на шаге 716. На шаге 718 на основе оценочных свойств генератор взаимосвязей 634 генерирует данные взаимосвязей 630. На шаге 720 данные взаимосвязей 630 передаются в базе данных взаимосвязей 612.
Обработка продолжается до шага 702, когда данные взаимосвязей 630 в форме матрицы взаимосвязей 614 передаются на координатный модуль.
Χ. Пример использования изобретения.
Настоящее изобретение может быть реализовано в ряде приложений и для различных типов данных. В варианте выполнения настоящее изобретение может быть реализовано как система, способ, и/или средство программного обеспечения компьютера для визуализации и интерактивного анализа данных, относящихся к химическим соединениям, где расстояния между объектами в многомерном пространстве представляют собой сходства и/или несходства между соответствующими соединениями (по отношению к выбранным особенностям или свойствам соединений) и могут быть вычислены с помощью некоторого заранее описанного метода. Результирующие отображения могут быть показаны с помощью подходящего графического устройства (такого, например, как графический терминал), и подвергнуты анализу в интерактивном режиме, что позволит выявить взаимосвязи между данными и инициализировать набор задач, связанных с этими соединениями.
Пользователь может выбрать для отображения группу соединений, а также методику оценки сходства/несходства между выбранными соединениями. Видимое отображение может быть сгенерировано в соответствии с выбранными соединениями и выбранной методикой. Для каждого из выбранных соединений выводимое отображение имеет точку, в которой расстояние между любыми двумя точками представляет сходство/несходство между соответствующими соединениями. В этом случае отображается часть выводимого отображения. Пользователи получают возможность интерактивно анализировать соединения, представленные на дисплейной карте. В качестве альтернативы, каждая из точек может соответствовать группе соединений или объектов.
На фиг. 1 приведена структурная схема вычислительной среды 102 в соответствии с предпочтительным вариантом выполнения настоящего изобретения.
Модуль визуализации химических данных и интерактивного анализа 104 включает модуль генерации отображения 106, а также одну или более вспомогательную компоненту интерфейса пользователя 108. Модуль генерации отображения 106 определяет наличие сходства между химическими соединениями относительно одной или более выбранных особенностей или свойств (здесь иногда упоминаемых как оценочные свойства или особенности) соединений. Модуль генерации отображения 106 реализует данную функцию путем восстановления и анализа данных о химических соединениях и реактивах, получаемых из одной базы данных 120 или более.
Модуль визуализации химических данных и интерактивного анализа 104 связывается с одной базой данных 120 или более через канал передачи данных 118. Канал передачи данных 118 представляет собой, предпочтительно, любой тип средства передачи данных, например, шину передачи данных, компьютерную сеть и т.д.
Модули интерфейса пользователя 108 отображают, предпочтительно, двумерное или трехмерное выводимое отображение на подходящем графическом устройстве. Модули интерфейса пользователя 108 позволяют человекуоператору интерактивно анализировать и обрабатывать информацию выводимого отображения, так, чтобы выявить взаимосвязи между данными и инициализировать список задач, относящихся к соответствующим соединениями.
Модули интерфейса пользователя 108 дают пользователям возможность организовать соединения во группу (представляющие, например, комбинаторную библиотеку). Информация, принадлежащая, группам соединений, предпочтительно, хранится в одной или более базах данных 120.
Устройство (устройства) ввода данных 114 принимают входную информацию (такую, как данные, команды, запросы, и т.д.) от человекаоператора и через канал передачи данных 118 передают ее, например, на модуль визуализации химических данных и интерактивного анализа 104. В настоящем изобретении может использоваться любое хорошо известное подходящее устройство ввода данных, например, клавиатура, координатно-указательное устройство (мышь, шаровой ролик, шаровой манипулятор, световое перо, и т.д.), сенсорный экран, устройство распознавания речевых команд, и т.д. В случае необходимости, вводимая пользователем информация может также быть сохранена и затем восстановлена из файлов данных/команд.
Устройство (устройства) вывода 116 осуществляют вывод информации человеку оператору. В настоящем изобретении может использоваться любое хорошо известное подходящее устройство вывода данных, например, монитор, принтер, накопитель на гибком магнитном диске, или другое запоминающее устройство, речевой синтезатор и т. д.
Модуль визуализации химических данных и интерактивного анализа 104 может взаимодействовать с одними или более вычислительными модулями 122 через канал передачи данных 118.
Компоненты, показанные в вычислительной среде 102 на фиг. 1 (например, модуль визуализации химических данных и интерактивного анализа 104), могут быть реализованы с применением одного или более компьютеров, таких как компьютер из примера 202, показанный на фиг. 2.
А. Функционирование предпочтительного варианта изобретения.
Ниже, со ссылкой на блок-схему 302, приведенную на фиг. 3, будет описано функционирование настоящего изобретения в том виде, как оно реализовано для визуализации и интерактивной обработки химических соединений в выводимом отображении. Если не оговорено иначе, описываемое ниже взаимодействие с пользователями происходит при работе модулей интерфейса пользователя 108 (фиг. 1).
На шаге 304 пользователь выбирает одно или более соединение для отображения на новом выводимом отображении. Пользователь может выбирать соединения для отображения путем извлечения списка соединений из файла, путем ручного ввода списка соединений и/или с использованием графического интерфейса пользователя (ОИ1). Изобретение предполагает наличие других средств, позволяющих пользователю указать соединения для отображения на дисплейной карте.
На шаге 306 пользователь выбирает метод, используемый для оценки молекулярного сходства или несходства между соединениями, выбранными на шаге 304. В данном варианте выполнения сходство/несходство между соединениями, выбранными на шаге 304, определяется (на шаге 308) исходя из заранее заданного множества оценочных свойств. Как описано выше, оценочными могут быть любые свойства, связанные со структурой, функционированием или идентичностью соединений, выбранных на шаге 304. Оценочные свойства включают, но не ограничиваясь, структурные свойства, функциональные свойства, химические свойства, физические свойства, биологические свойства, и т.д. соединений, выбранных на шаге 304.
В одном из вариантов выполнения настоящего изобретения, выбранные оценочные свойства могут быть шкалированы по-другому, что позволяет отразить их относительную важность при оценке схожести (сходства или несходства) двух соединений. Соответственно, как и на шаге 306, для каждого из выбранных оценочных свойств пользователь выбирает коэффициент шкалирования (коэффициент Ламе). Обратите внимание, что такой выбор коэффициентов Ламе является необязательным. Пользователю не нужно выбирать коэффициент Ламе для каждого выбранного оценочного свойства. В случае, когда пользователь не выбрал коэффициент Ламе для данного оценочного свойства, этому оценочному свойству по умолчанию присваивается коэффициент Ламе, равный единице.
В качестве альтернативы, на шаге 306 пользователь может по своему выбору получить из источника, например, из базы данных, значения сходства/несходства относящиеся к соединениям, выбранным на шаге 304. Эти значения сходства/несходства, полученные из базы данных, были сгенерированы предварительно. В другом варианте выполнения на шаге 306 пользователь может принять решение о выборе значений сходство/несходство с помощью любой известной методики или процедуры.
На шаге 308 модуль генерации отображения 106 генерирует новое выводимое отображение. Это новое выводимое отображение содержит точку для каждого из соединений, выбранных на шаге 304. Кроме того, на этом новом выводимом отображении расстояние между любыми двумя точками является производным от степени сходства/несходства между соответствующими соединениями. Далее, со ссылкой на блок-схему 402, приведенную на фиг. 4, будет описан способ, которым модуль генерации отображения 106 генерирует новое выводимое отображение.
На шаге 404 на новом выводимом отображении задаются первоначальные значения координат точек, соответствующих соединениям, выбранным на шаге 304.
На шаге 406 выбираются для обработки два соединения ί, ф выбранные на шаге 304.
На шаге 408 с помощью метода, выбранного пользователем на шаге 306, определяются значения сходство/несходство г между соединениями ί, .).
На шаге 410, на основе значения сходство/несходства определенного на шаге 408, рассчитываются координаты точек на дисплейной карте, соответствующих соединениям ί, ф
На шаге 412 модифицируются параметры обучения.
На шаге 414 принимается решение о завершении процесса. Если принято решение в данной точке процесс не завершать, управление передается на шаг 406. В противном случае выполняется шаг 416.
На шаге 416 выводимое отображение выводится (т. е. генерация выводимого отображения закончена).
Детали, относящиеся к шагам на блоксхеме 402, обсуждались выше. На шаге 312 при веденное на фиг. 3 средство просмотра отображения 112 отображает новое выводимое отображение на устройстве вывода 116 (например, на графическом мониторе компьютера).
На шаге 314 модули интерфейса пользователя 108 позволяют операторам интерактивно анализировать и обрабатывать соединения, показанные на отображаемом выводимом отображении.
Настоящее изобретение дает возможность пользователям изменять существующие выводимые отображения визуализации соединения (в данном контексте используется понятие выводимое отображение визуализации соединения, которое относится к ранее представленному выводимому отображению). Например, пользователи могут добавлять в отображение дополнительные соединения, удалять соединения из отображения, выделять соединения на отображении, и т. д. В таких случаях повторяются соответствующие функциональные действия из блок-схемы 302. Например, когда пользователь решит добавить к существующему отображению новые соединения, повторяются шаги 304 (выбор соединения для отображения), 310 (генерация выводимого отображения) и 312 (показ отображения). Тем не менее, согласно варианту выполнения изобретения, отображение последовательно уточняется и отображается шагами 310 и 312, когда происходит добавление соединений к существующему выводимому отображению визуализации соединения (это пошаговое увеличение точности описано выше).
Упомянутый выше пример химического соединения полезен для визуализации и в интерактивной образа любые объектов, обладающих химическими свойствами, включая, но не ограничиваясь, (но могут использоваться для) небольшие молекулы, полимеры, пептиды, белки, и т. д. Данный пример может также использоваться для отображения различных взаимосвязей сходства между этими соединениями.
XI. Выводы.
Настоящее изобретение описано выше в виде стандартных функциональных блоков для иллюстрации эффективности указанных функций и взаимосвязей. Границы этих функциональных стандартных блоков были определены в данном документе произвольно, исходя из удобства описания. Альтернативные границы могут быть определены, когда указанные функции и взаимосвязи будут соответствующим образом представлены. Таким образом, любые такие дополнительные границы находятся в пределах объема и относятся к сущности заявленного изобретения, что должно быть понятно специалистам в соответствующей области (областях) знаний.
Эти функциональные стандартные блоки могут быть реализованы дискретными компонентами, с помощью специализированных интегральных схем, процессоров, на которых вы полняется соответствующее программное обеспечение и т.п., или любого их сочетания. Специалисту в соответствующей области (областях) знаний, будет вполне по силам разработать соответствующую схему и/или программное обеспечение для реализации этих стандартных функциональных блоков.
С помощью приведенных выше описаний и примеров специалисту в соответствующей области (областях) знаний будет не сложно реализовать настоящее изобретение для широкого спектра приложений, каждое из которых попадает в объем данного изобретения.
Хотя выше и были описаны различные варианты выполнения настоящего изобретения, необходимо понимать, что они были приведены только в качестве примера, и не являются ограничивающими. Таким образом, объем и сущность настоящего изобретения не должны быть ограничены любым из приведенных выше описаний предпочтительных вариантов выполнения, а должны быть определены только в соответствии со следующими пунктами формулы изобретения и их эквивалентными признаками.

Claims (26)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ воспроизведения данных о сходстве объектов в многомерном пространстве посредством воспроизведения взаимосвязи между объектами в качестве расстояния от одного к другому на дисплейной карте, отличающийся тем, что сначала объектам присваивают координаты и помещают объекты на дисплейной карте в соответствии с присвоенными им координатами, затем выделяют подгруппу объектов по признакам ассоциированных взаимосвязей между объектами, после чего, уточняя координаты объектов, видоизменяют расстояния между объектами на дисплейной карте на основании взаимосвязей между объектами и расстояниями между ними и после этого повторяют выделение подгрупп и видоизменение расстояний, как сказано выше, и получают дополнительные подгруппы объектов из общей группы объектов, при этом видоизмененные расстояния между объектами отображают относительные взаимосвязи между объектами.
  2. 2. Способ по п.1, отличающийся тем, что выделение подгрупп объектов производят парами объектов по признакам двуточечной ассоциированной взаимосвязи.
  3. 3. Способ по п.2, отличающийся тем, что в случае неизвестности взаимосвязей между по меньшей мере одной парой объектов выделение подгрупп объектов, видоизменение расстояний и повторение выделения подгрупп и видоизменение расстояний осуществляют для пар объектов, ассоциированные взаимосвязи между которыми известны, а для пар объектов с неизвестными взаимосвязями расстояния адаптируют с приведением их к значениям, обеспечивающим удовлетворительное вложение для известных взаимосвязей.
  4. 4. Способ по п.2, отличающийся тем, что в случае взаимосвязей между по меньшей мере одной парой объектов по признакам ограниченной неопределенности видоизменение расстояния на дисплейной карте между парой объектов, имеющих взаимосвязь по признаку ограниченной неопределенности, осуществляют по набору допустимых диапазонов значений взаимосвязи только при условии, если это расстояние выходит за пределы вышеназванных диапазонов.
  5. 5. Способ по п.2, отличающийся тем, что в случае взаимосвязей между по меньшей мере одной парой объектов по признакам ограниченной неопределенности видоизменение расстояния на дисплейной карте между парой объектов, имеющих взаимосвязь по признаку ограниченной неопределенности, осуществляют по верхнему пределу допустимого значения взаимосвязи только при условии, если это расстояние по значению близко к вышеназванному верхнему пределу.
  6. 6. Способ по п.2, отличающийся тем, что в случае взаимосвязей между по меньшей мере одной парой объектов по признакам ограниченной неопределенности видоизменение расстояния на дисплейной карте между парой объектов, имеющих взаимосвязь по признаку ограниченной неопределенности, осуществляют по нижнему пределу набора диапазонов допустимых значений взаимосвязи только при условии, если это расстояние выходит за пределы вышеназванных диапазонов.
  7. 7. Способ по п.2, отличающийся тем, что в случае взаимосвязей между по меньшей мере одной парой объектов по признакам неограниченной неопределенности дополнительно проводят идентификацию пары объектов, имеющих взаимосвязь по признакам неограниченной неопределенности, далее удаляют взаимосвязь с признаками неограниченной неопределенности и после этого адаптируют расстояние между объектами по признакам соответствующих взаимосвязей посредством повторения выделения подгрупп объектов, видоизменения расстояний и нового повторения выделения, с приведением указанного расстояния к значению, обеспечивающему удовлетворительное вложение для известных взаимосвязей.
  8. 8. Способ по п.2, отличающийся тем, что видоизменение расстояний осуществляют итеративно в соответствии с уравнением:
    *,(«+·)= у (О где ΐ - номер текущей итерации, χ1(ΐ) и χ,(ΐ) - текущие координаты ί-го и )-го объектов на дисплейной карте, г,, - взаимосвязь между ί-м и |-м объектами, 6,, = ||χ1(ΐ) - х,(1)|| - расстояние между ί-м и _)-м объектами и λ(ΐ) - переменный или постоянный параметр.
  9. 9. Способ по п.8, отличающийся тем, что параметр λ задают постоянным в процессе видоизменения расстояний между объектами.
  10. 10. Способ по п.8, отличающийся тем, что параметр λ задают монотонно убывающим в процессе видоизменения расстояний между объектами.
  11. 11. Способ по п.8, отличающийся тем, что параметр λ задают переменным в зависимости от 1, _) и/или Гу в процессе видоизменения расстояний между объектами.
  12. 12. Способ по п.11, отличающийся тем, что параметр λ задают как функцию взаимосвязи между избранной парой объектов г,, и определяют, в частности, по формуле
    Г 1+аг# или по формуле где λ,,,,,,, и λ^η - начальное и конечное значения λ, причем λ^, λ^η е [0,1], Т - общее число итераций, ΐ - текущий номер итерации, а - постоянный коэффициент шкалирования.
  13. 13. Способ по п.11, отличающийся тем, что параметр λ задают как функцию по меньшей мере одного избранного объекта.
  14. 14. Способ по п.11, отличающийся тем, что параметр λ задают как функцию избранной пары объектов.
  15. 15. Способ по п.1, отличающийся тем, что видоизменение расстояний осуществляют посредством метода многомерного шкалирования.
  16. 16. Способ по п.1, отличающийся тем, что видоизменение расстояний осуществляют посредством метода нелинейного шкалирования.
  17. 17. Способ по п.1, отличающийся тем, что видоизменение расстояний осуществляют посредством получения значения функции ошибки и последующим уточнением расстояния посредством метода градиентного спуска.
  18. 18. Способ по п.1, отличающийся тем, что указанные объекты являются нехимическими.
  19. 19. Способ воспроизведения данных о сходстве объектов в многомерном пространстве посредством воспроизведения взаимосвязи между объектами в качестве расстояния от одного к другому на дисплейной карте, отличающийся тем, что сначала помещают объекты на дисплейной карте, затем выделяют подгруппу объектов по признакам ассоциированных взаимосвязей между объектами, после чего выделяют в вышеназванной подгруппе пару объектов, имеющих ассоциированную двуточечную взаимосвязь, после этого видоизменяют расстояния между парами объектов на дисплейной карте на основании взаимосвязей между парами объектов и расстояниями, после чего повторяют выделение вышеуказанных пар и видоизменение расстояний, как сказано выше, и получают до полнительные пары объектов из общей группы объектов.
  20. 20. Способ по п.19, отличающийся тем, что дополнительно осуществляют выделение второй подгруппы объектов и затем итеративно повторяют выделение пар объектов и видоизменение расстояний во второй выделенной подгруппе объектов.
  21. 21. Устройство воспроизведения данных о сходстве объектов в многомерном пространстве посредством воспроизведения взаимосвязи между объектами в качестве расстояния от одного к другому на дисплейной карте, отличающееся тем, что оно снабжено координатным модулем размещения объектов на дисплейной карте, модулем выделения подгруппы объектов и пересмотра расстояний между ними и модулем пересмотра координат и пересмотра расстояний между объектами в выделенной подгруппе на основе разности между расстояниями и соответствующими взаимосвязями, при этом вход модуля выделения подгруппы объектов и пересмотра расстояний между ними связан с выходом координатного модуля размещения объектов на дисплейной карте, выход модуля выделения подгруппы объектов и пересмотра расстояний между ними связан с входом модуля пересмотра координат и пересмотра расстояний между объектами в выделенной подгруппе, а вход координатного модуля размещения объектов на дисплейной карте связан с выходом модуля пересмотра координат и пересмотра расстояний между объектами в выделенной подгруппе.
  22. 22. Устройство по п.21, отличающееся тем, что оно дополнительно содержит модуль выделения подгруппы, выделения пары объектов и пересмотра расстояния между ними.
  23. 23. Устройство по п.21, отличающееся тем, что оно дополнительно содержит модуль выделения подгруппы, состоящей из по меньшей мере двух объектов, и пересмотра расстояния между ними, и модуль пересмотра координат и расстояния между объектами в выделенной подгруппе.
  24. 24. Устройство по п.23, отличающееся тем, что оно дополнительно содержит модуль пересмотра координат, вычисления значения функции ошибки и пересмотра расстояния посредством метода градиентного спуска.
  25. 25. Устройство по п.23, отличающееся тем, что оно дополнительно содержит модуль пересмотра координат и вычисления значения функции ошибки посредством метода многомерного шкалирования.
  26. 26. Устройство по п.23, отличающееся тем, что оно дополнительно содержит модуль пересмотра координат и вычисления значения функции ошибки посредством метода нелинейного шкалирования.
EA200001159A 1998-05-07 1999-05-07 Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве EA003796B1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/073,845 US6453246B1 (en) 1996-11-04 1998-05-07 System, method, and computer program product for representing proximity data in a multi-dimensional space
PCT/US1999/009963 WO1999057686A1 (en) 1998-05-07 1999-05-07 System, method, and computer program product for representing proximity data in a multi-dimensional space

Publications (2)

Publication Number Publication Date
EA200001159A1 EA200001159A1 (ru) 2001-06-25
EA003796B1 true EA003796B1 (ru) 2003-10-30

Family

ID=22116149

Family Applications (1)

Application Number Title Priority Date Filing Date
EA200001159A EA003796B1 (ru) 1998-05-07 1999-05-07 Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве

Country Status (16)

Country Link
US (1) US6453246B1 (ru)
EP (1) EP1078333B1 (ru)
JP (1) JP2002513979A (ru)
KR (1) KR20010043417A (ru)
CN (1) CN1306650A (ru)
AT (1) ATE259981T1 (ru)
AU (1) AU3887899A (ru)
CA (1) CA2331351A1 (ru)
DE (1) DE69914896T2 (ru)
DK (1) DK1078333T3 (ru)
EA (1) EA003796B1 (ru)
ES (1) ES2214854T3 (ru)
IL (1) IL139527A0 (ru)
PT (1) PT1078333E (ru)
WO (1) WO1999057686A1 (ru)
ZA (1) ZA200006388B (ru)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574876A (en) * 1992-09-18 1996-11-12 Hitachi, Ltd. Processor system using synchronous dynamic memory
US6571227B1 (en) * 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
US20040186071A1 (en) 1998-04-13 2004-09-23 Bennett C. Frank Antisense modulation of CD40 expression
US7321828B2 (en) * 1998-04-13 2008-01-22 Isis Pharmaceuticals, Inc. System of components for preparing oligonucleotides
US20030228597A1 (en) * 1998-04-13 2003-12-11 Cowsert Lex M. Identification of genetic targets for modulation by oligonucleotides and generation of oligonucleotides for gene modulation
AU745157B2 (en) * 1998-10-02 2002-03-14 Canon Kabushiki Kaisha Method and apparatus for generating a geometric skeleton of a polygonal shape
US6631211B1 (en) * 1999-07-08 2003-10-07 Perkinelmer Las, Inc. Interactive system for analyzing scatter plots
US7366719B2 (en) 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
EP1252588B1 (en) * 2000-01-21 2007-06-27 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US7624074B2 (en) * 2000-08-07 2009-11-24 Health Discovery Corporation Methods for feature selection in a learning machine
US6571228B1 (en) * 2000-08-09 2003-05-27 Po-Tong Wang Hybrid neural networks for color identification
US6778946B1 (en) * 2000-10-17 2004-08-17 International Business Machines Corporation Methods and apparatus for processing ranked fuzzy cartesian queries
US7174304B1 (en) * 2000-12-05 2007-02-06 Ims Health Incorporated System and method for estimating product distribution using a product specific universe
US7167851B2 (en) * 2001-01-31 2007-01-23 Accelrys Software Inc. One dimensional molecular representations
US7089592B2 (en) * 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
US6721737B2 (en) * 2001-04-04 2004-04-13 International Business Machines Corporation Method of ranking items using efficient queries
AU2002305652A1 (en) * 2001-05-18 2002-12-03 Biowulf Technologies, Llc Methods for feature selection in a learning machine
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
JP2003141159A (ja) * 2001-11-06 2003-05-16 Fujitsu Ltd 距離インデクスを用いた検索装置および方法
US7363311B2 (en) * 2001-11-16 2008-04-22 Nippon Telegraph And Telephone Corporation Method of, apparatus for, and computer program for mapping contents having meta-information
US20040034612A1 (en) * 2002-03-22 2004-02-19 Nick Mathewson Support vector machines for prediction and classification in supply chain management and other applications
CA2480202A1 (en) * 2002-04-10 2003-10-23 Transtech Pharma, Inc. System and method for data analysis, manipulation, and visualization
US8120618B2 (en) * 2002-06-11 2012-02-21 Hewlett-Packard Development Company, L.P. System and method for visualization of objects using energy minimization of customized potential functions
US20040123253A1 (en) * 2002-09-27 2004-06-24 Chandandumar Aladahalli Sensitivity based pattern search algorithm for component layout
US7103609B2 (en) * 2002-10-31 2006-09-05 International Business Machines Corporation System and method for analyzing usage patterns in information aggregates
WO2005006179A1 (en) * 2003-07-10 2005-01-20 Health Discovery Corporation A method for identifying biomarkers using fractal genomics modeling
US20050114331A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation Near-neighbor search in pattern distance spaces
JP2005234994A (ja) * 2004-02-20 2005-09-02 Fujitsu Ltd 類似度判定プログラム、マルチメディアデータ検索プログラム、類似度判定方法、および類似度判定装置
JP2005250721A (ja) * 2004-03-03 2005-09-15 Hitachi High-Technologies Corp 蛋白質または高分子複合体の検索・照合方法及び装置
US20050222828A1 (en) * 2004-04-02 2005-10-06 Ehtibar Dzhafarov Method for computing subjective dissimilarities among discrete entities
CN101019122A (zh) * 2004-07-12 2007-08-15 阿托米斯蒂克斯公司 在非平衡条件下用于分子的量子化学模拟的方法和计算机系统
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
US20060089812A1 (en) * 2004-10-25 2006-04-27 Jacquez Geoffrey M System and method for evaluating clustering in case control data
US8078488B2 (en) * 2005-01-25 2011-12-13 Ims Software Services Ltd. System and method for determining trailing data adjustment factors
US20060190288A1 (en) * 2005-01-22 2006-08-24 Ims Software Services Ltd. System and method for allocating prescriptions to non-reporting outlets
US8744897B2 (en) * 2005-01-22 2014-06-03 Ims Software Services Ltd. Sample store forecasting process and system
US20060290697A1 (en) * 2005-06-24 2006-12-28 Tom Sawyer Software System for arranging a plurality of relational nodes into graphical layout form
US7827173B2 (en) * 2005-09-20 2010-11-02 France Telecom Method for sorting a set of electronic documents
WO2007053630A2 (en) * 2005-10-31 2007-05-10 Dun & Bradstreet, Inc. System and method for providing a fraud risk score
US7313454B2 (en) * 2005-12-02 2007-12-25 Mks Instruments, Inc. Method and apparatus for classifying manufacturing outputs
US20080133496A1 (en) * 2006-12-01 2008-06-05 International Business Machines Corporation Method, computer program product, and device for conducting a multi-criteria similarity search
WO2008137544A1 (en) 2007-05-02 2008-11-13 Mks Instruments, Inc. Automated model building and model updating
US8645440B2 (en) 2007-06-11 2014-02-04 Guy Rosman Acceleration of multidimensional scaling by vector extrapolation techniques
JP5052985B2 (ja) * 2007-07-31 2012-10-17 住友重機械工業株式会社 分子シミュレーション方法、分子シミュレーション装置、分子シミュレーションプログラム、及び該プログラムを記録した記録媒体
US8520906B1 (en) 2007-09-24 2013-08-27 Videomining Corporation Method and system for age estimation based on relative ages of pairwise facial images of people
US8916531B2 (en) 2007-11-20 2014-12-23 Isis Pharmaceuticals, Inc. Modulation of CD40 expression
JP2011508320A (ja) * 2007-12-21 2011-03-10 エム ケー エス インストルメンツ インコーポレーテッド 部分的最小二乗分析(pls−ツリー)を用いたデータの階層編成
US8494798B2 (en) * 2008-09-02 2013-07-23 Mks Instruments, Inc. Automated model building and batch model building for a manufacturing process, process monitoring, and fault detection
US8499284B2 (en) * 2008-09-11 2013-07-30 Microsoft Corporation Visualizing relationships among components using grouping information
RU2382407C1 (ru) * 2008-11-21 2010-02-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система для обнаружения лица
US9069345B2 (en) * 2009-01-23 2015-06-30 Mks Instruments, Inc. Controlling a manufacturing process with a multivariate model
US8577480B2 (en) 2009-05-14 2013-11-05 Mks Instruments, Inc. Methods and apparatus for automated predictive design space estimation
US8086327B2 (en) * 2009-05-14 2011-12-27 Mks Instruments, Inc. Methods and apparatus for automated predictive design space estimation
JP2011160379A (ja) * 2010-02-04 2011-08-18 Sony Corp 画像処理装置および方法、並びにプログラム
US8855804B2 (en) 2010-11-16 2014-10-07 Mks Instruments, Inc. Controlling a discrete-type manufacturing process with a multivariate model
US8407639B2 (en) * 2011-01-27 2013-03-26 Raytheon Company Systems and methods for mapping state elements of digital circuits for equivalence verification
US8577876B2 (en) * 2011-06-06 2013-11-05 Met Element, Inc. System and method for determining art preferences of people
US9429939B2 (en) 2012-04-06 2016-08-30 Mks Instruments, Inc. Multivariate monitoring of a batch manufacturing process
US9541471B2 (en) 2012-04-06 2017-01-10 Mks Instruments, Inc. Multivariate prediction of a batch manufacturing process
CN102789490B (zh) * 2012-07-04 2014-11-05 苏州大学 一种数据可视化方法及系统
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US10163034B2 (en) 2013-06-19 2018-12-25 Oracle International Corporation Tripoint arbitration for entity classification
FR3011377B1 (fr) 2013-10-01 2015-11-06 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
US20180053114A1 (en) 2014-10-23 2018-02-22 Brighterion, Inc. Artificial intelligence for context classifier
US10896421B2 (en) 2014-04-02 2021-01-19 Brighterion, Inc. Smart retail analytics and commercial messaging
US10992675B2 (en) 2014-04-14 2021-04-27 Oracle International Corporation Anomaly detection using tripoint arbitration
US20150339673A1 (en) 2014-10-28 2015-11-26 Brighterion, Inc. Method for detecting merchant data breaches with a computer network server
US20150032589A1 (en) 2014-08-08 2015-01-29 Brighterion, Inc. Artificial intelligence fraud management solution
US20150066771A1 (en) 2014-08-08 2015-03-05 Brighterion, Inc. Fast access vectors in real-time behavioral profiling
US20160055427A1 (en) 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
US20160078367A1 (en) 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US10546099B2 (en) 2014-10-15 2020-01-28 Brighterion, Inc. Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers
US20160071017A1 (en) 2014-10-15 2016-03-10 Brighterion, Inc. Method of operating artificial intelligence machines to improve predictive model training and performance
US20160063502A1 (en) 2014-10-15 2016-03-03 Brighterion, Inc. Method for improving operating profits with better automated decision making with artificial intelligence
US11080709B2 (en) 2014-10-15 2021-08-03 Brighterion, Inc. Method of reducing financial losses in multiple payment channels upon a recognition of fraud first appearing in any one payment channel
US10290001B2 (en) 2014-10-28 2019-05-14 Brighterion, Inc. Data breach detection
US10671915B2 (en) 2015-07-31 2020-06-02 Brighterion, Inc. Method for calling for preemptive maintenance and for equipment failure prevention
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11416129B2 (en) 2017-06-02 2022-08-16 The Research Foundation For The State University Of New York Data access interface
US10229092B2 (en) 2017-08-14 2019-03-12 City University Of Hong Kong Systems and methods for robust low-rank matrix approximation
US20190342297A1 (en) 2018-05-01 2019-11-07 Brighterion, Inc. Securing internet-of-things with smart-agent technology
US10721256B2 (en) 2018-05-21 2020-07-21 Oracle International Corporation Anomaly detection based on events composed through unsupervised clustering of log messages
US11178161B2 (en) 2019-04-18 2021-11-16 Oracle International Corporation Detecting anomalies during operation of a computer system based on multimodal data

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223941A (ja) 1985-03-29 1986-10-04 Kagaku Joho Kyokai 化学構造の検索方法
US4773099A (en) * 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
US4908773A (en) 1987-04-06 1990-03-13 Genex Corporation Computer designed stabilized proteins and method for producing same
US4859736A (en) 1987-03-30 1989-08-22 Ciba-Geigy Corporation Synthetic polystyrene resin and its use in solid phase peptide synthesis
US4939666A (en) 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US4935875A (en) 1987-12-02 1990-06-19 Data Chem, Inc. Chemical analyzer
US5147608A (en) 1988-04-29 1992-09-15 Millipore Corporation Apparatus and process for performing repetitive chemical processing
US5010175A (en) 1988-05-02 1991-04-23 The Regents Of The University Of California General method for producing and selecting peptides with specific properties
ES2045298T3 (es) 1988-08-24 1994-01-16 Siemens Ag Procedimiento para la descontaminacion quimica de la superficie de un componente metalico de una instalacion de reactor nuclear.
US5025388A (en) 1988-08-26 1991-06-18 Cramer Richard D Iii Comparative molecular field analysis (CoMFA)
US5265030A (en) 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
US5723289A (en) 1990-06-11 1998-03-03 Nexstar Pharmaceuticals, Inc. Parallel selex
IE66205B1 (en) 1990-06-14 1995-12-13 Paul A Bartlett Polypeptide analogs
US5650489A (en) 1990-07-02 1997-07-22 The Arizona Board Of Regents Random bio-oligomer library, a method of synthesis thereof, and a method of use thereof
US5167009A (en) 1990-08-03 1992-11-24 E. I. Du Pont De Nemours & Co. (Inc.) On-line process control neural network using data pointers
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5155801A (en) 1990-10-09 1992-10-13 Hughes Aircraft Company Clustered neural networks
US5331573A (en) 1990-12-14 1994-07-19 Balaji Vitukudi N Method of design of compounds that mimic conformational features of selected peptides
US5260882A (en) 1991-01-02 1993-11-09 Rohm And Haas Company Process for the estimation of physical and chemical properties of a proposed polymeric or copolymeric substance or material
US5499193A (en) 1991-04-17 1996-03-12 Takeda Chemical Industries, Ltd. Automated synthesis apparatus and method of controlling the apparatus
WO1993001484A1 (en) 1991-07-11 1993-01-21 The Regents Of The University Of California A method to identify protein sequences that fold into a known three-dimensional structure
JPH07117950B2 (ja) * 1991-09-12 1995-12-18 株式会社エイ・ティ・アール視聴覚機構研究所 パターン認識装置およびパターン学習装置
US5270170A (en) 1991-10-16 1993-12-14 Affymax Technologies N.V. Peptide library and screening method
US5240680A (en) 1991-12-19 1993-08-31 Chiron Corporation Automated apparatus for use in peptide synthesis
US6037135A (en) 1992-08-07 2000-03-14 Epimmune Inc. Methods for making HLA binding peptides and their uses
DE69328640T2 (de) * 1992-02-07 2000-09-28 Canon K.K., Tokio/Tokyo Verfahren und Einrichtung zur Mustererkennung
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US5288514A (en) 1992-09-14 1994-02-22 The Regents Of The University Of California Solid phase and combinatorial synthesis of benzodiazepine compounds on a solid support
US5565325A (en) 1992-10-30 1996-10-15 Bristol-Myers Squibb Company Iterative methods for screening peptide libraries
JP2513395B2 (ja) 1992-11-09 1996-07-03 株式会社島津製作所 ペプチドアミド合成用リンカ―
US5703792A (en) 1993-05-21 1997-12-30 Arris Pharmaceutical Corporation Three dimensional measurement of molecular diversity
US6081766A (en) 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5585277A (en) 1993-06-21 1996-12-17 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
US5679582A (en) 1993-06-21 1997-10-21 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
ATE369376T1 (de) 1993-06-21 2007-08-15 Aventis Pharma Inc Selektiv spaltbare linker, die auf einer methionin- und einer estergruppe basieren
US5434796A (en) 1993-06-30 1995-07-18 Daylight Chemical Information Systems, Inc. Method and apparatus for designing molecules with desired properties by evolving successive populations
JP2948069B2 (ja) 1993-09-20 1999-09-13 株式会社日立製作所 化学分析装置
US5598510A (en) 1993-10-18 1997-01-28 Loma Linda University Medical Center Self organizing adaptive replicate (SOAR)
JPH09511828A (ja) 1994-04-05 1997-11-25 ファーマジェニクス,インコーポレイテッド 化合物ライブラリー内の活性化合物の確認と識別
US5602938A (en) * 1994-05-20 1997-02-11 Nippon Telegraph And Telephone Corporation Method of generating dictionary for pattern recognition and pattern recognition method using the same
US5549974A (en) 1994-06-23 1996-08-27 Affymax Technologies Nv Methods for the solid phase synthesis of thiazolidinones, metathiazanones, and derivatives thereof
EP0694855B1 (en) * 1994-07-28 2002-05-02 International Business Machines Corporation Search/sort circuit for neural networks
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
US5574844A (en) 1994-09-22 1996-11-12 International Business Machines Corporation Computer system and method for processing atomic data to calculate and exhibit the properties and structure of matter
US5553225A (en) 1994-10-25 1996-09-03 International Business Machines Corporation Method and apparatus for combining a zoom function in scroll bar sliders
US5712171A (en) 1995-01-20 1998-01-27 Arqule, Inc. Method of generating a plurality of chemical compounds in a spatially arranged array
US5845225A (en) 1995-04-03 1998-12-01 Mosher; Frederick A. Microcomputer controlled engine cleaning system
US5807754A (en) 1995-05-11 1998-09-15 Arqule, Inc. Combinatorial synthesis and high-throughput screening of a Rev-inhibiting arylidenediamide array
US5602755A (en) 1995-06-23 1997-02-11 Exxon Research And Engineering Company Method for predicting chemical or physical properties of complex mixtures
US6337183B1 (en) 1995-09-08 2002-01-08 Scriptgen Pharmaceuticals, Inc. Screen for compounds with affinity for nucleic acids
US5811241A (en) 1995-09-13 1998-09-22 Cortech, Inc. Method for preparing and identifying N-substitued 1,4-piperazines and N-substituted 1,4-piperazinediones
US5734796A (en) 1995-09-29 1998-03-31 Ai Ware, Inc. Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping
CA2184195C (en) 1995-10-25 2002-04-16 Andrew Pakula Screening method for identifying ligands for target proteins
WO1997020952A1 (en) 1995-12-07 1997-06-12 Scriptgen Pharmaceuticals, Inc. A fluorescence-based screening method for identifying ligands
US5712564A (en) 1995-12-29 1998-01-27 Unisys Corporation Magnetic ink recorder calibration apparatus and method
AU1847997A (en) 1996-01-26 1997-08-20 Robert D. Clark Method of creating and searching a molecular virtual library using validated molecular structure descriptors
US5995938A (en) 1996-02-27 1999-11-30 Whaley; Susan S. Medication compliance system
US6014661A (en) 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6026397A (en) 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
EP0818744A3 (en) 1996-07-08 1998-07-08 Proteus Molecular Design Limited Process for selecting candidate drug compounds
JP2001503546A (ja) 1996-11-04 2001-03-13 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 化学データの可視化、並びに対話式に処理および分析するためのシステム、方法、およびコンピュータプログラム製品
US5861532A (en) 1997-03-04 1999-01-19 Chiron Corporation Solid-phase synthesis of N-alkyl amides
US5908960A (en) 1997-05-07 1999-06-01 Smithkline Beecham Corporation Compounds
US5933819C1 (en) 1997-05-23 2001-11-13 Scripps Research Inst Prediction of relative binding motifs of biologically active peptides and peptide mimetics
US5960443A (en) 1997-07-25 1999-09-28 Young; David E. Quantitative visual system for comparing parameters which characterize multiple complex entities
US6049797A (en) 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes

Also Published As

Publication number Publication date
EA200001159A1 (ru) 2001-06-25
AU3887899A (en) 1999-11-23
EP1078333B1 (en) 2004-02-18
DE69914896D1 (de) 2004-03-25
DE69914896T2 (de) 2004-12-09
WO1999057686A1 (en) 1999-11-11
CA2331351A1 (en) 1999-11-11
IL139527A0 (en) 2001-11-25
PT1078333E (pt) 2004-07-30
ZA200006388B (en) 2001-05-23
JP2002513979A (ja) 2002-05-14
KR20010043417A (ko) 2001-05-25
CN1306650A (zh) 2001-08-01
US6453246B1 (en) 2002-09-17
EP1078333A1 (en) 2001-02-28
DK1078333T3 (da) 2004-06-07
ATE259981T1 (de) 2004-03-15
ES2214854T3 (es) 2004-09-16

Similar Documents

Publication Publication Date Title
EA003796B1 (ru) Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве
Kwon et al. What would a graph look like in this layout? a machine learning approach to large graph visualization
US7139739B2 (en) Method, system, and computer program product for representing object relationships in a multidimensional space
Pezzotti et al. Approximated and user steerable tSNE for progressive visual analytics
Knowles ParEGO: A hybrid algorithm with on-line landscape approximation for expensive multiobjective optimization problems
US20230197204A1 (en) Local-ancestry inference with machine learning model
JP2024505685A (ja) アクティブラーニングによる薬剤の最適化
CN113377964B (zh) 知识图谱链接预测方法、装置、设备及存储介质
CN116109121A (zh) 基于大数据分析的用户需求挖掘方法及系统
Maljovec et al. Adaptive sampling with topological scores
Nguyen et al. Many processors, little time: MCMC for partitions via optimal transport couplings
Dommaraju et al. Identifying topological prototypes using deep point cloud autoencoder networks
US20240006017A1 (en) Protein Structure Prediction
JP2002175305A (ja) 遺伝子ネットワークを推測するためのグラフィカルモデリング法及びそのための装置
Ali et al. Evaluation of latent space learning with procedurally-generated datasets of shapes
CN115345106A (zh) 电子器件的Verilog-A模型构建方法、系统及设备
CN114530195A (zh) 一种基于深度学习的蛋白质模型质量评估方法
Nielsen et al. Machine learning to support the presentation of complex pathway graphs
Sarkar et al. Bayesian higher order hidden markov models
Kovshov et al. Algorithms for finding logical regularities in pattern recognition
JP7224263B2 (ja) モデル生成方法、モデル生成装置及びプログラム
US20230420070A1 (en) Protein Structure Prediction
Szili Structural learning for continuous data using graphical models
Tavares et al. Clustering genomic words in human DNA using peaks and trends of distributions
Nagai et al. Optimal transport distances for directed, weighted graphs: a case study with cell-cell communication networks

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM AZ BY KZ KG MD TJ TM RU