BR112021015643A2

BR112021015643A2 - Sistemas e métodos para prever as propriedades olfativas de moléculas utilizando aprendizagem de máquina

Info

Publication number: BR112021015643A2
Application number: BR112021015643-7A
Authority: BR
Inventors: Alexander Wiltschko; Benjamin Sanchez-Lengeling
Original assignee: Google Llc
Priority date: 2019-02-08
Filing date: 2020-02-10
Publication date: 2021-10-05
Also published as: CN113544786A; JP2023113924A; US20220139504A1; KR102619861B1; JP7457721B2; JP2022520069A; KR20210119479A; CA3129069A1; EP3906559A1; WO2020163860A1

Abstract

sistemas e métodos para prever as propriedades olfativas de moléculas utilizando aprendizagem de máquina. a presente divulgação fornece sistemas e métodos para predizer propriedades olfativas de uma molécula. um método de exemplo inclui obter uma rede neural de gráfico aprendida por máquina treinada para predizer propriedades olfativas de moléculas com base, pelo menos em parte, nos dados de estrutura química associados às moléculas. o método inclui obter de um gráfico que descreve graficamente uma estrutura química de uma molécula selecionada. o método inclui fornecer o gráfico como entrada para a rede neural de gráfico aprendida por máquina. o método inclui receber dados de predição descritivos de uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina. o método inclui fornecer os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

Description

SISTEMAS E MÉTODOS PARA PREVER AS PROPRIEDADES OLFATIVAS DE MOLÉCULAS UTILIZANDO APRENDIZAGEM DE MÁQUINA CAMPO

[0001]A presente divulgação se refere geralmente ao aprendizado de máquina. Mais particularmente, a presente divulgação se refere ao uso de modelos aprendidos por máquina para predizer propriedades olfativas de moléculas.

ANTECEDENTES

[0002]A relação entre a estrutura de uma molécula e suas propriedades perceptivas olfativas (por exemplo, o cheiro de uma molécula conforme observado por um humano) é complexa, e até o momento, geralmente pouco se sabe sobre essas relações. Por exemplo, as indústrias de aromas e fragrâncias geralmente dependem de tentativa e erro, heurísticas, e/ou produtos naturais de mineração para fornecer produtos comercialmente úteis com propriedades olfativas desejadas. Geralmente há uma falta de princípios significativos para organizar o ambiente olfativo, embora seja conhecido que o mapeamento entre a estrutura molecular e o cheiro pode ser muito não linear, de modo que pequenas mudanças nas moléculas podem produzir grandes mudanças na qualidade olfativa. Além disso, o inverso também pode ser verdadeiro, onde diversas famílias de moléculas podem ter o mesmo cheiro.

SUMÁRIO

[0003]Aspectos e vantagens das modalidades da presente divulgação serão apresentados em parte na seguinte descrição, ou podem ser aprendidos a partir da descrição, ou podem ser aprendidos através da prática das modalidades.

[0004]Um aspecto de exemplo da presente divulgação é direcionado a um método implementado por computador para predizer propriedades olfativas de moléculas. O método inclui obter, por um ou mais dispositivos de computação, uma rede neural de gráfico aprendida por máquina treinada para predizer propriedades olfativas de moléculas com base, pelo menos em parte, nos dados de estrutura química associados às moléculas. O método inclui obter, pelo um ou mais dispositivos de computação, um gráfico que descreve graficamente uma estrutura química de uma molécula selecionada. O método inclui fornecer, pelo um ou mais dispositivos de computação, o gráfico que descreve graficamente a estrutura química da molécula selecionada como entrada para a rede neural de gráfico aprendida por máquina. O método inclui receber, pelo um ou mais dispositivos de computação, dados de predição descritivos de uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina. O método inclui fornecer, pelo um ou mais dispositivos de computação, os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

[0005]Outro exemplo de aspecto da presente divulgação é direcionado a um dispositivo de computação. O dispositivo de computação inclui um ou mais processadores; e uma ou mais mídias legíveis por computador não transitórias que armazenam instruções. As instruções, quando executadas pelo um ou mais processadores, fazem o dispositivo de computação executar operações. As operações incluem obter uma rede neural de gráfico aprendida por máquina treinada para predizer uma ou mais propriedades olfativas de uma molécula com base, pelo menos em parte, em dados de estrutura química associados à molécula. As operações incluem obter dados gráficos representativos de uma estrutura química de uma molécula selecionada. As operações incluem fornecer dados gráficos representativos da estrutura química como entrada para a rede neural de gráfico aprendida por máquina. As operações incluem receber dados de predição descritivos de uma ou mais propriedades olfativas associadas à molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina. As operações incluem fornecer os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

[0006]Outros aspectos da presente divulgação são direcionados a vários sistemas, aparelhos, mídia legível por computador não transitória, interfaces de usuário, e dispositivos eletrônicos.

[0007]Estas e outras características, aspectos e vantagens de várias modalidades da presente divulgação serão melhor compreendidos com referência à seguinte descrição e reivindicações anexas. Os desenhos anexos, que são incorporados e constituem uma parte deste relatório descritivo, ilustram modalidades exemplares da presente divulgação, e juntamente com a descrição, servem para explicar os princípios relacionados.

BREVE DESCRIÇÃO DOS DESENHOS

[0008]A discussão detalhada das modalidades dirigida a um técnico no assunto é apresentada no relatório descritivo, que faz referência às figuras anexas, nas quais: A FIG. 1A representa um diagrama de blocos de um sistema de computação de exemplo de acordo com modalidades de exemplo da presente divulgação; A FIG. 1B representa um diagrama de blocos de um dispositivo de computação de exemplo de acordo com modalidades de exemplo da presente divulgação; A FIG. 1C representa um diagrama de blocos de um dispositivo de computação de exemplo de acordo com modalidades de exemplo da presente divulgação; A FIG. 2 representa um diagrama de blocos de um modelo de predição de exemplo de acordo com modalidades de exemplo da presente divulgação; A FIG. 3 representa um diagrama de blocos de um modelo de predição de exemplo de acordo com modalidades de exemplo da presente divulgação; A FIG. 4 representa um diagrama de fluxograma de operações exemplares para predição de propriedades olfativas da molécula de acordo com modalidades exemplares da presente divulgação; e A FIG. 5 representa exemplos de ilustrações para visualizar a contribuição estrutural associada com propriedades olfativas preditas de acordo com exemplos de modalidades da presente divulgação. A FIG. 6 ilustra um esquema de modelo de exemplo e fluxo de dados de acordo com modalidades de exemplo da presente divulgação; A FIG. 7 ilustra a estrutura global de um espaço de embedding aprendido de exemplo de acordo com modalidades de exemplo da presente divulgação.

[0009]Números de referência que são repetidos em várias figuras destinam-se a identificar as mesmas ferramentas em várias implementações.

DESCRIÇÃO DETALHADA Visão Geral

[00010]Aspectos de exemplo da presente divulgação são direcionados a sistemas e métodos que incluem ou de outra forma alavancam modelos aprendidos por máquina (por exemplo, redes neurais de gráfico) em conjunto com dados de estrutura química de molécula para predizer uma ou mais propriedades perceptivas (por exemplo, olfativo, gustativo, tátil, etc.) de uma molécula. Em particular, os sistemas e métodos da presente divulgação podem predizer as propriedades olfativas (por exemplo, odor percebido por humanos expresso usando rótulos como "doce", "pinho", "pêra", "podre", etc.) de uma única molécula com base na estrutura química da molécula. De acordo com um aspecto da presente divulgação, em algumas implementações, uma rede neural de gráfico aprendida por máquina pode ser treinada e usada para processar um gráfico que descreve graficamente a estrutura química de uma molécula para predizer as propriedades olfativas da molécula. Em particular, a rede neural de gráfico pode operar diretamente sobre a representação gráfica da estrutura química da molécula (por exemplo, realizar convoluções dentro do espaço de gráfico) para predizer as propriedades olfativas da molécula. Como um exemplo, o gráfico pode incluir nós que correspondem a átomos e bordas que correspondem a ligações químicas entre os átomos. Assim, os sistemas e métodos da presente divulgação podem fornecer dados de predição que predizem o cheiro de moléculas anteriormente não avaliadas por meio do uso de modelos aprendidos por máquina. Os modelos aprendidos por máquina podem ser treinados, por exemplo, usando dados de treinamento que incluem descrições de moléculas (por exemplo, descrições estruturais de moléculas, descrições baseadas em gráficos de estruturas químicas de moléculas, etc.) que foram rotuladas (por exemplo, manualmente por um especialista) com descrições de propriedades olfativas (por exemplo, descrições textuais de categorias de odores como “doce”, “pinho”, “pêra”, “podre” etc.) que foram avaliadas para as moléculas.

[00011]Assim, aspectos da presente divulgação são direcionados a propor o uso de redes neurais de gráfico para modelagem de relação estrutura-odor quantitativa (QSOR). Implementações de exemplo dos sistemas e métodos descritos neste documento superam significativamente os métodos anteriores em um novo conjunto de dados rotulado por especialistas olfativos. Uma análise adicional mostra que as embeddings aprendidas de redes neurais de gráfico capturam uma representação significativa de espaço de odor da relação subjacente entre a estrutura e o odor.

[00012]Mais particularmente, a relação entre a estrutura de uma molécula e suas propriedades perceptivas olfativas (por exemplo, o cheiro de uma molécula conforme observado por um humano) é complexa, e até o momento, geralmente pouco se sabe sobre essas relações. Por conseguinte, os sistemas e métodos da presente divulgação fornecem o uso de aprendizagem profunda e fontes de dados subutilizadas para obter predições de propriedades perceptivas olfativas de moléculas invisíveis, permitindo, assim, melhorias na identificação e desenvolvimento de moléculas com propriedades perceptivas desejadas, por exemplo, permitindo o desenvolvimento de novos compostos úteis em produtos comerciais de aroma, fragrância ou cosméticos, melhorando a experiência na predição de efeitos psicoativos de drogas de moléculas únicas, e/ou semelhantes. Os sistemas melhorados para a predição de propriedades perceptivas olfativas de moléculas aqui descritas podem fornecer melhorias significativas na identificação e desenvolvimento de moléculas com propriedades perceptivas desejadas e o desenvolvimento de novos compostos úteis.

[00013]Mais particularmente, de acordo com um aspecto da presente divulgação, modelos aprendidos por máquina, como modelos de rede neural de gráfico, podem ser treinados para fornecer predições de propriedades perceptivas (por exemplo, propriedades olfativas, propriedades gustativas, propriedades táteis, etc.) de uma molécula com base em um gráfico de entrada da estrutura química da molécula. Por exemplo, um modelo aprendido por máquina pode ser fornecido com uma estrutura de gráfico de entrada da estrutura química de uma molécula, por exemplo, com base em uma descrição padronizada de uma estrutura química da molécula (por exemplo, uma cadeia (string) de sistema de entrada de linha de entrada molecular simplificada (SMILES), etc.). O modelo aprendido por máquina pode fornecer saída compreendendo uma descrição das propriedades perceptivas preditas da molécula, como, por exemplo, uma lista de propriedades perceptivas olfativas descritivas de como a molécula teria o cheiro para um humano. Por exemplo, uma cadeia SMILES pode ser fornecida, como a cadeia SMILES "O=C(OCCC(C)C)C" para a estrutura química do acetato de isoamila, e o modelo aprendido por máquina pode fornecer como saída uma descrição do que essa molécula teria o mesmo cheiro para um ser humano, por exemplo, uma descrição das propriedades do odor da molécula,

como “fruta, banana, maçã”. Em particular, em algumas modalidades, em resposta ao recebimento de uma cadeia SMILES ou outra descrição da estrutura química, os sistemas e métodos da presente divulgação podem converter a cadeia em uma estrutura de gráfico que descreve graficamente a estrutura bidimensional de uma molécula e pode fornecer a estrutura de gráfico para um modelo aprendido por máquina (por exemplo, uma rede neural convolucional de gráfico treinada, e/ou outro tipo de modelo aprendido por máquina) que pode predizer, a partir da estrutura de gráfico ou recursos derivados da estrutura de gráfico, propriedades olfativas da molécula. Adicionalmente ou alternativamente ao gráfico bidimensional, sistemas e métodos podem fornecer a criação de uma representação gráfica tridimensional da molécula, por exemplo, usando cálculos químicos quânticos, para entrada em um modelo aprendido por máquina.

[00014]Em alguns exemplos, a predição pode indicar se a molécula tem ou não uma determinada qualidade perceptiva olfativa desejada (por exemplo, uma percepção de cheiro alvo, etc.). Em algumas modalidades, os dados de predição podem incluir um ou mais tipos de informações associadas a uma propriedade olfativa predita de uma molécula. Por exemplo, os dados de predição para uma molécula podem fornecer a classificação da molécula em uma classe de propriedade olfativa, e/ou em várias classes de propriedade olfativa. Em alguns casos, as classes podem incluir rótulos textuais fornecidos por humanos (por exemplo, especialistas) (por exemplo, azedo, cereja, pinheiro, etc.). Em alguns casos, as classes podem incluir representações não textuais de cheiro/odor, como uma localização em um continuum de cheiro,

ou semelhante. Em alguns casos, os dados de predição para moléculas podem incluir valores de intensidade que descrevem a intensidade do cheiro/odor predito. Em alguns casos, os dados de predição podem incluir valores de confiança associados à propriedade perceptiva olfativa predita.

[00015]Além ou alternativamente a classificações específicas para uma molécula, os dados de predição podem incluir uma embedding numérica que permite a pesquisa de similaridade, agrupamento ou outras comparações entre duas ou mais moléculas com base em uma medida de distância entre dois ou mais embeddings. Por exemplo, em algumas implementações, o modelo aprendido por máquina pode ser treinado para emitir embeddings que podem ser usadas para medir similaridade, treinando o modelo aprendido por máquina usando um esquema de treinamento tripleto onde o modelo é treinado para emitir embeddings que estão mais próximas no espaço de embedding para um par de estruturas químicas semelhantes (por exemplo, um exemplo de âncora e um exemplo positivo) e para emitir embeddings que estão mais distantes no espaço de embedding para um par de estruturas químicas diferentes (por exemplo, a âncora e um exemplo negativo).

[00016]Assim, em algumas implementações, os sistemas e métodos da presente divulgação podem não necessitar da geração de vetores de recursos descritivos da molécula para entrada em um modelo aprendido por máquina. Em vez disso, o modelo aprendido por máquina pode ser fornecido diretamente com a entrada de uma forma de valor de gráfico da estrutura química original, reduzindo assim os recursos necessários para fazer predições de propriedades olfativas. Por exemplo, ao fornecer o uso da estrutura de gráfico de moléculas como entrada para o modelo aprendido por máquina, novas estruturas de moléculas podem ser conceituadas e avaliadas sem exigir a produção experimental de tais estruturas de moléculas para determinar as propriedades perceptivas, assim acelerando muito a capacidade para avaliar a nova estrutura molecular e economizar recursos significativos.

[00017]De acordo com outro aspecto da presente divulgação, dados de treinamento compreendendo uma pluralidade de moléculas conhecidas podem ser obtidos para fornecer treinamento de um ou mais modelos aprendidos por máquina (por exemplo, um gráfico de rede neural convolucional, outro tipo de modelo aprendido por máquina) para fornecer predições das propriedades olfativas das moléculas. Por exemplo, em algumas modalidades, os modelos aprendidos por máquina podem ser treinados usando um ou mais conjuntos de dados de moléculas, onde o conjunto de dados inclui a estrutura química e uma descrição textual das propriedades perceptivas (por exemplo, descrições do cheiro da molécula fornecida por especialistas humanos, etc.) para cada molécula. Como um exemplo, os dados de treinamento podem ser derivados de listas da indústria, como, por exemplo, listas da indústria de perfumes de estruturas químicas e seus odores correspondentes. Em algumas modalidades, devido ao fato de que algumas propriedades perceptivas são raras, etapas podem ser tomadas para equilibrar propriedades perceptivas comuns e propriedades perceptivas raras ao treinar o(s) modelo(s) aprendido(s) por máquina.

[00018]De acordo com outro aspecto da presente divulgação, em algumas modalidades, os sistemas e métodos podem fornecer indicações de como as mudanças na estrutura de uma molécula podem afetar as propriedades perceptivas preditas.

Por exemplo, os sistemas e métodos podem fornecer indicações de como as mudanças na estrutura da molécula podem afetar a intensidade de uma propriedade perceptiva particular, o quão catastrófica uma mudança na estrutura da molécula seria para as qualidades perceptivas desejadas, e/ou semelhantes.

Em algumas modalidades, os sistemas e métodos podem fornecer a adição, e/ou remoção de um ou mais átomos, e/ou grupos de átomos da estrutura de uma molécula para determinar o efeito de tal adição/remoção em uma ou mais propriedades perceptivas desejadas.

Por exemplo, mudanças iterativas e diferentes na estrutura química podem ser realizadas, e em seguida, o resultado pode ser avaliado para entender como tal mudança afetaria as propriedades perceptivas da molécula.

Ainda como outro exemplo, um gradiente da função de classificação do modelo aprendido por máquina pode ser avaliado (por exemplo, em relação a um rótulo particular) em cada nó, e/ou borda do gráfico de entrada (por exemplo, através de retropropagação através do modelo aprendido por máquina) para gerar um mapa de sensibilidade (por exemplo, que indica a importância de cada nó, e/ou borda do gráfico de entrada para a saída de tal rótulo específico). Além disso, em algumas implementações, um gráfico de interesse pode ser obtido, gráficos semelhantes podem ser amostrados adicionando ruído ao gráfico, e em seguida, a média dos mapas de sensibilidade resultantes para cada gráfico amostrado pode ser tomada como o mapa de sensibilidade para o gráfico de interesse.

Técnicas semelhantes podem ser realizadas para determinar diferenças perceptivas entre diferentes estruturas de moléculas.

[00019]De acordo com outro aspecto, os sistemas e métodos da presente divulgação podem fornecer para interpretar, e/ou visualizar quais aspectos da estrutura de uma molécula mais contribuem para sua qualidade de odor predita. Por exemplo, em algumas modalidades, um mapa de calor pode ser gerado para sobrepor a estrutura da molécula que fornece indicações de quais porções da estrutura de uma molécula são mais importantes para as propriedades perceptivas da molécula, e/ou quais porções da estrutura de uma molécula são menos importantes às propriedades perceptivas da molécula. Em algumas implementações, os dados indicativos de como as mudanças na estrutura de uma molécula impactariam a percepção olfativa podem ser usados para gerar visualizações de como a estrutura contribui para uma qualidade olfativa predita. Por exemplo, conforme descrito acima, mudanças iterativas na estrutura da molécula (por exemplo, uma técnica de knock-down, etc.) e seus resultados correspondentes podem ser usados para avaliar quais porções da estrutura química são mais contribuintes para a percepção olfativa. Como outro exemplo, conforme descrito acima, uma técnica de gradiente pode ser usada para gerar um mapa de sensibilidade para a estrutura química, que pode então ser usado para produzir a visualização (por exemplo, na forma de um mapa de calor).

[00020]De acordo com outro aspecto da presente divulgação, em algumas modalidades, o(s) modelo(s) aprendido(s) por máquina podem ser treinados para produzir predições de uma estrutura química de molécula que forneceria uma ou mais propriedades perceptivas desejadas (por exemplo, gerar uma estrutura química de molécula que iria produzir uma determinada qualidade de cheiro, etc.). Por exemplo, em algumas implementações, uma pesquisa iterativa pode ser realizada para identificar moléculas propostas que são preditas para exibir uma ou mais propriedades perceptivas desejadas (por exemplo, qualidade de cheiro direcionado, intensidade, etc.). Por exemplo, uma pesquisa iterativa pode propor uma série de estruturas químicas de moléculas candidatas que podem ser avaliadas pelo(s) modelo(s) aprendido(s) por máquina. Em um exemplo, as estruturas de moléculas candidatas podem ser geradas por meio de um processo evolutivo ou genético. Como outro exemplo, as estruturas de moléculas candidatas podem ser geradas por um agente de aprendizagem de reforço (por exemplo, rede neural recorrente) que busca aprender uma política que maximiza uma recompensa que é uma função de se as estruturas de moléculas candidatas geradas exibem uma ou mais propriedades perceptivas desejadas.

[00021]Assim, em algumas implementações, uma pluralidade de estruturas de gráfico de moléculas candidatas que descrevem a estrutura química de cada molécula candidata podem ser geradas (por exemplo, geradas iterativamente) para uso como entrada para um modelo aprendido por máquina. A estrutura de gráfico para cada molécula candidata pode ser inserida no modelo aprendido por máquina a ser avaliado. O modelo aprendido por máquina pode produzir dados de predição para cada molécula candidata que descreve uma ou mais propriedades perceptivas da molécula candidata. Os dados de predição da molécula candidata podem então ser comparados a uma ou mais propriedades perceptivas desejadas para determinar se a molécula candidata exibiria as propriedades perceptivas desejadas (por exemplo, uma molécula candidata viável, etc.). Por exemplo, a comparação pode ser realizada para gerar uma recompensa (por exemplo, em um esquema de aprendizado por reforço) ou para determinar se deve reter ou descartar a molécula candidata (por exemplo, em um esquema de aprendizado evolutivo). Abordagens de busca de força bruta também podem ser empregadas. Em outras implementações, que podem ou não ter as estruturas de aprendizagem evolutiva ou de reforço descritas acima, a busca por moléculas candidatas que exibem uma ou mais propriedades perceptivas desejadas pode ser estruturada como um problema de otimização multiparâmetro com uma restrição na otimização definida para cada propriedade desejada.

[00022]De acordo com outro aspecto da presente divulgação, os sistemas e métodos podem fornecer para predizer, identificar, e/ou otimizar outras propriedades associadas a uma estrutura de molécula juntamente com as propriedades olfativas desejadas. Por exemplo, os modelos aprendidos por máquina podem predizer ou identificar propriedades de estruturas moleculares, como propriedades ópticas (por exemplo, clareza, refletividade, cor, etc.), propriedades gustativas (por exemplo, gostos como "banana", "azedo", "Picante", etc.) estabilidade de prateleira, estabilidade em níveis de pH específicos, biodegradabilidade, toxicidade, aplicabilidade industrial, e/ou semelhantes.

[00023]De acordo com outro aspecto da presente divulgação, os modelos aprendidos por máquina descritos neste documento podem ser usados em técnicas de aprendizagem ativa para estreitar um amplo campo de candidatos a um conjunto menor de moléculas que são então avaliados manualmente. De acordo com outros aspectos da presente divulgação, sistemas e métodos podem permitir a síntese de moléculas com propriedades particulares em um processo iterativo de projeto-teste-refino. Por exemplo, com base em dados de predição dos modelos aprendidos por máquina, moléculas podem ser propostas para desenvolvimento. As moléculas podem então ser sintetizadas, e então, submetidas a testes especializados. O feedback do teste pode então ser fornecido de volta à fase de projeto para refinar as moléculas para melhor alcançar as propriedades desejadas, etc.

[00024]Os sistemas e métodos da presente divulgação fornecem uma série de efeitos e benefícios técnicos. Como um exemplo, os sistemas e métodos descritos neste documento podem permitir a redução do tempo e dos recursos necessários para determinar se uma molécula forneceria as qualidades perceptivas desejadas. Por exemplo, os sistemas e métodos descritos neste documento permitem o uso de estruturas de gráfico descritivas da estrutura química de uma molécula, em vez de exigir a geração de vetores de recursos que descrevem uma molécula para fornecer a entrada de modelo. Assim, os sistemas e métodos fornecem melhorias técnicas nos recursos necessários para obter e analisar as entradas de modelo e produzir saídas de predição de modelo. Além disso, o uso de modelos aprendidos por máquina para predizer propriedades olfativas representa a integração do aprendizado de máquina em uma aplicação prática (por exemplo, predizer propriedades olfativas). Ou seja, os modelos aprendidos por máquina são adaptados à implementação técnica específica de predição de propriedades olfativas.

[00025]Com referência agora às Figuras, modalidades de exemplo da presente divulgação serão discutidas em mais detalhes. Dispositivos e Sistemas de Exemplo

[00026]A Figura 1A representa um diagrama de blocos de um sistema de computação de exemplo 100 que pode facilitar as predições de propriedades perceptivas, como propriedades perceptivas olfativas, de moléculas de acordo com modalidades exemplares da presente divulgação. O sistema 100 é fornecido apenas como um exemplo. Outros sistemas de computação que incluem diferentes componentes podem ser usados em adição ou alternativamente ao sistema 100. O sistema 100 inclui um dispositivo de computação de usuário 102, um sistema de computação de servidor 130, e um sistema de computação de treinamento 150 que são acoplados comunicativamente através de uma rede 180.

[00027]O dispositivo de computação de usuário 102 pode ser qualquer tipo de dispositivo de computação, como, por exemplo, um dispositivo de computação pessoal (por exemplo, laptop ou desktop), um dispositivo de computação móvel (por exemplo, smartphone ou tablet), um console de jogo ou controlador, um dispositivo de computação vestível, um dispositivo de computação embutido, ou qualquer outro tipo de dispositivo de computação.

[00028]O dispositivo de computação de usuário 102 inclui um ou mais processadores 112 e uma memória 114. O um ou mais processadores 112 pode ser qualquer dispositivo de processamento adequado (por exemplo, um núcleo de processador, um microprocessador, um ASIC, um FPGA, um controlador, um microcontrolador, etc.) e podem ser um processador ou uma pluralidade de processadores que são operativamente conectados. A memória 114 pode incluir um ou mais meios de armazenamento legíveis por computador não transitórios, como RAM, ROM, EEPROM, EPROM, dispositivos de memória flash, discos magnéticos, etc., e combinações dos mesmos. A memória 114 pode armazenar dados 116 e instruções 118 que são executadas pelo processador 112 para fazer com que o dispositivo de computação de usuário 102 realize operações.

[00029]Em algumas implementações, o dispositivo de computação de usuário 102 pode armazenar ou incluir um ou mais modelos aprendidos por máquina 120, tal como um modelo aprendido por máquina de predição de propriedade olfativa como discutido neste documento. Por exemplo, os modelos aprendidos por máquina 120 podem ser ou podem incluir vários modelos aprendidos por máquina, como redes neurais (por exemplo, redes neurais profundas) ou outros tipos de modelos aprendidos por máquina, incluindo modelos não lineares, e/ou modelos lineares. As redes neurais podem incluir redes neurais de alimentação direta, redes neurais recorrentes (por exemplo, redes neurais recorrentes de memória de curto prazo longa), redes neurais convolucionais ou outras formas de redes neurais. Exemplos de modelos aprendidos por máquina 120 são discutidos com referência às Figuras 2 e 3.

[00030]Em algumas implementações, um ou mais modelos aprendidos por máquina 120 podem ser recebidos do sistema de computação de servidor 130 através da rede 180, armazenados na memória do dispositivo de computação de usuário 114, e em seguida, usados ou de outra forma implementados pelo um ou mais processadores 112. Em algumas implementações, o dispositivo de computação de usuário 102 pode implementar várias instâncias paralelas de um único modelo aprendido por máquina 120.

[00031]Adicionalmente ou alternativamente, um ou mais modelos aprendidos por máquina 140 podem ser incluídos ou de outra forma armazenados e implementados pelo sistema de computação de servidor 130 que se comunica com o dispositivo de computação de usuário 102 de acordo com uma relação cliente-servidor. Por exemplo, os modelos aprendidos por máquina 140 podem ser implementados pelo sistema de computação de servidor 140 como uma parte de um serviço da web. Assim, um ou mais modelos 120 podem ser armazenados e implementados no dispositivo de computação de usuário 102, e/ou um ou mais modelos 140 podem ser armazenados e implementados no sistema de computação de servidor 130.

[00032]O dispositivo de computação de usuário 102 também pode incluir um ou mais componentes de entrada de usuário 122 que recebe entrada de usuário. Por exemplo, o componente de entrada de usuário 122 pode ser um componente sensível ao toque (por exemplo, uma tela de exibição sensível ao toque ou uma superfície sensível ao toque) que é sensível ao toque de um objeto de entrada de usuário (por exemplo, um dedo ou uma caneta). O componente sensível ao toque pode servir para implementar um teclado virtual. Outros exemplos de componentes de entrada de usuário incluem um microfone, um teclado tradicional, uma câmera, ou outros meios pelos quais um usuário pode fornecer entrada de usuário.

[00033]O sistema de computação de servidor 130 inclui um ou mais processadores 132 e uma memória 134. O um ou mais processadores 132 pode ser qualquer dispositivo de processamento adequado (por exemplo, um núcleo de processador, um microprocessador, um ASIC, um FPGA, um controlador, um microcontrolador, etc.) e podem ser um processador ou uma pluralidade de processadores que são operativamente conectados. A memória 134 pode incluir um ou mais meios de armazenamento legíveis por computador não transitórios, como RAM, ROM, EEPROM, EPROM, dispositivos de memória flash, discos magnéticos, etc., e combinações dos mesmos. A memória 134 pode armazenar dados 136 e instruções 138 que são executadas pelo processador 132 para fazer com que o sistema de computação de servidor 130 realize operações.

[00034]Em algumas implementações, o sistema de computação de servidor 130 inclui ou é implementado de outra forma por um ou mais dispositivos de computação de servidor. Em casos em que o sistema de computação de servidor 130 inclui vários dispositivos de computação de servidor, tais dispositivos de computação de servidor podem operar de acordo com arquiteturas de computação sequencial, arquiteturas de computação paralela, ou alguma combinação das mesmas.

[00035]Conforme descrito acima, o sistema de computação de servidor 130 pode armazenar ou de outra forma incluir um ou mais modelos aprendidos por máquina 140. Por exemplo, os modelos 140 podem ser ou podem incluir vários modelos aprendidos por máquina, como modelos aprendidos por máquina de predição de propriedade olfativa. Os exemplos de modelos aprendidos por máquina incluem redes neurais ou outros modelos não lineares multicamadas. As redes neurais de exemplo incluem redes neurais de alimentação direta, redes neurais profundas, redes neurais recorrentes, e redes neurais convolucionais. Modelos de exemplo 140 são discutidos com referência às Figuras 2 a 4.

[00036]O dispositivo de computação de usuário 102, e/ou o sistema de computação de servidor 130 pode treinar os modelos 120, e/ou 140 por meio da interação com o sistema de computação de treinamento 150 que está acoplado comunicativamente através da rede 180. O sistema de computação de treinamento 150 pode ser separado do sistema de computação de servidor 130 ou pode ser uma parte do sistema de computação de servidor 130.

[00037]O sistema de computação de treinamento 150 inclui um ou mais processadores 152 e uma memória 154. O um ou mais processadores 152 pode ser qualquer dispositivo de processamento adequado (por exemplo, um núcleo de processador, um microprocessador, um ASIC, um FPGA, um controlador, um microcontrolador, etc.) e podem ser um processador ou uma pluralidade de processadores que são operativamente conectados. A memória 154 pode incluir um ou mais meios de armazenamento legíveis por computador não transitórios, como RAM, ROM, EEPROM, EPROM, dispositivos de memória flash, discos magnéticos, etc., e combinações dos mesmos. A memória 154 pode armazenar dados 156 e instruções 158 que são executadas pelo processador 152 para fazer com que o sistema de computação de treinamento 150 realize operações. Em algumas implementações, o sistema de computação de treinamento 150 inclui ou é implementado de outra forma por um ou mais dispositivos de computação de servidor.

[00038]O sistema de computação de treinamento 150 pode incluir um treinador de modelo 160 que treina os modelos aprendidos por máquina 120, e/ou 140 armazenados no dispositivo de computação de usuário 102, e/ou o sistema de computação de servidor 130 usando várias técnicas de treinamento ou aprendizagem, tais como, por exemplo, propagação reversa de erros. Em algumas implementações, a execução da propagação reversa de erros pode incluir a realização da retropropagação truncada ao longo do tempo. O treinador de modelo 160 pode realizar uma série de técnicas de generalização (por exemplo, declínios de peso, desistências, etc.) para melhorar a capacidade de generalização dos modelos que estão sendo treinados.

[00039]Em particular, o treinador de modelo 160 pode treinar os modelos aprendidos por máquina 120, e/ou 140 com base em um conjunto de dados de treinamento 162. Os dados de treinamento 162 podem incluir, por exemplo, descrições de moléculas (por exemplo, descrições gráficas de estruturas químicas de moléculas) que foram rotuladas (por exemplo, manualmente por um especialista) com descrições de propriedades olfativas (por exemplo, descrições textuais de categorias de odor, como "doce", "pinheiro", "pera", "podre" etc.) que foram avaliados para as moléculas, e/ou semelhantes.

[00040]O treinador de modelo 160 inclui lógica de computador utilizada para fornecer a funcionalidade desejada. O treinador de modelo 160 pode ser implementado em hardware, firmware, e/ou software controlando um processador de uso geral. Por exemplo, em algumas implementações, o treinador de modelo 160 inclui arquivos de programa armazenados em um dispositivo de armazenamento, carregados em uma memória, e executados por um ou mais processadores. Em outras implementações, o treinador de modelo 160 inclui um ou mais conjuntos de instruções executáveis por computador que são armazenados em um meio de armazenamento legível por computador tangível, como disco rígido RAM ou mídia ótica ou magnética.

[00041]A rede 180 pode ser qualquer tipo de rede de comunicação, como uma rede de área local (por exemplo, intranet), rede de área ampla (por exemplo, Internet) ou alguma combinação das mesmas e pode incluir qualquer número de links com ou sem fio. Em geral, a comunicação pela rede 180 pode ser realizada através de qualquer tipo de conexão com fio, e/ou sem fio, usando uma ampla variedade de protocolos de comunicação (por exemplo, TCP/IP, HTTP, SMTP, FTP), codificações ou formatos (por exemplo, HTML, XML), e/ou esquemas de proteção (por exemplo, VPN, HTTP seguro, SSL).

[00042]A Figura 1A ilustra um sistema de computação de exemplo que pode ser usado para implementar a presente divulgação. Outros sistemas de computação também podem ser usados. Por exemplo, em algumas implementações, o dispositivo de computação de usuário 102 pode incluir o treinador de modelo 160 e o conjunto de dados de treinamento

162. Em tais implementações, os modelos 120 podem ser treinados e usados localmente no dispositivo de computação de usuário 102. Quaisquer componentes ilustrados como sendo incluídos em um do dispositivo 102, sistema 130, e/ou sistema 150 podem, em vez disso, ser incluídos em um ou ambos os outros do dispositivo 102, sistema 130, e/ou sistema 150.

[00043]A figura 1B representa um diagrama de blocos de um dispositivo de computação 10 de exemplo de acordo com modalidades de exemplo da presente divulgação. O dispositivo de computação 10 pode ser um dispositivo de computação de usuário ou um dispositivo de computação de servidor.

[00044]O dispositivo de computação 10 inclui uma série de aplicativos (por exemplo, aplicativos 1 a N). Cada aplicativo contém sua própria biblioteca de aprendizado de máquina e modelo(s) aprendido por máquina. Por exemplo, cada aplicativo pode incluir um modelo aprendido por máquina. Os aplicativos de exemplo incluem um aplicativo de mensagem de texto, um aplicativo de e-mail, um aplicativo de ditado, um aplicativo de teclado virtual, um aplicativo de navegador, etc.

[00045]Conforme ilustrado na Figura 1B, cada aplicativo pode se comunicar com uma série de outros componentes do dispositivo de computação, como, por exemplo, um ou mais sensores, um gerenciador de contexto, um componente de estado do dispositivo, e/ou componentes adicionais. Em algumas implementações, cada aplicativo pode se comunicar com cada camada de dados de dispositivo central usando uma API (por exemplo, uma API pública). Em algumas implementações, a API usada por cada aplicativo é específica para aquele aplicativo.

[00046]A figura 1C representa um diagrama de blocos de um dispositivo de computação 50 de exemplo de acordo com modalidades de exemplo da presente divulgação. O dispositivo de computação 50 pode ser um dispositivo de computação de usuário ou um dispositivo de computação de servidor.

[00047]O dispositivo de computação 50 inclui uma série de aplicativos (por exemplo, aplicativos 1 a N). Cada aplicativo está em comunicação com uma camada de inteligência central. Os aplicativos de exemplo incluem um aplicativo de mensagem de texto, um aplicativo de e-mail, um aplicativo de ditado, um aplicativo de teclado virtual, um aplicativo de navegador, etc. Em algumas implementações, cada aplicativo pode se comunicar com a camada de inteligência central (e o(s) modelo(s) armazenado(s) nela) usando uma API (por exemplo, uma API comum em todos os aplicativos).

[00048]A camada de inteligência central inclui vários modelos aprendidos por máquina. Por exemplo, conforme ilustrado na Figura 1C, um respectivo modelo aprendido por máquina (por exemplo, um modelo) pode ser fornecido para cada aplicativo e gerenciado pela camada de inteligência central. Em outras implementações, dois ou mais aplicativos podem compartilhar um único modelo aprendido por máquina. Por exemplo, em algumas implementações, a camada de inteligência central pode fornecer um único modelo (por exemplo, um único modelo) para todos os aplicativos. Em algumas implementações, a camada de inteligência central é incluída ou de outra forma implementada por um sistema operacional do dispositivo de computação 50.

[00049]A camada de inteligência central pode se comunicar com uma camada de dados de dispositivo central. A camada de dados de dispositivo central pode ser um repositório centralizado de dados para o dispositivo de computação 50. Conforme ilustrado na Figura 1C, a camada de dados de dispositivo central pode se comunicar com uma série de outros componentes do dispositivo de computação, como, por exemplo, um ou mais sensores, um gerenciador de contexto, um componente de estado do dispositivo, e/ou componentes adicionais. Em algumas implementações, a camada de dados de dispositivo central pode se comunicar com cada camada de dados de dispositivo central usando uma API (por exemplo, uma API privada). Arranjos de Modelo de Exemplo

[00050]A Figura 2 representa um diagrama de blocos de um modelo de predição de exemplo 202 de acordo com modalidades de exemplo da presente divulgação. Em algumas implementações, o modelo de predição 202 é treinado para receber um conjunto de dados de entrada 204 (por exemplo, dados de gráfico de estrutura química da molécula, etc.), e como resultado do recebimento dos dados de entrada 204, fornecer dados de saída 206, por exemplo, dados de predição de propriedade olfativa para a molécula.

[00051]A Figura 3 representa um diagrama de blocos de um modelo aprendido por máquina de exemplo 202 de acordo com modalidades de exemplo da presente divulgação. O modelo aprendido por máquina 202 é semelhante ao modelo de predição 202 da Figura 2, exceto pelo fato de que o modelo aprendido por máquina 202 da Figura 3 é um modelo de exemplo que inclui um modelo de predição de propriedade olfativa 302 e um modelo de predição de otimização de estrutura de molécula 306. Em algumas implementações, o modelo de predição aprendido por máquina 202 pode incluir um modelo de predição de propriedade olfativa 302 que prediz uma ou mais propriedades perceptivas olfativas para uma molécula com base na estrutura química da molécula (por exemplo, fornecida em uma forma de estrutura de gráfico) e um modelo de predição de otimização de estrutura de molécula 306 que prediz como mudanças em uma estrutura de molécula podem afetar as propriedades perceptivas preditas. Assim, os modelos podem fornecer saída que inclui propriedades perceptivas olfativas e como a estrutura de uma molécula afeta essas propriedades olfativas preditas. Métodos de Exemplo

[00052]A Figura 4 representa um diagrama de fluxograma do método de exemplo 400 para predizer propriedades olfativas de acordo com modalidades de exemplo da presente divulgação. Embora a Figura 4 represente as etapas realizadas em uma ordem particular para fins de ilustração e discussão, os métodos da presente divulgação não estão limitados à ordem ou arranjo particularmente ilustrado. As várias etapas do método 400 podem ser omitidas, reorganizadas, combinadas, e/ou adaptadas de várias maneiras sem se desviar do escopo da presente divulgação. O método 400 pode ser implementado por um ou mais dispositivos de computação, como um ou mais dos dispositivos de computação representados nas Figuras 1A- 1C.

[00053]Em 402, o método 400 pode incluir obter, por um ou mais dispositivos de computação, uma rede neural de gráfico aprendida por máquina treinada para predizer propriedades olfativas de moléculas com base, pelo menos em parte, nos dados de estrutura química associados às moléculas. Em particular, um modelo de predição aprendido por máquina (por exemplo, rede neural de gráfico, etc.) pode ser treinado e usado para processar um gráfico que descreve graficamente a estrutura química de uma molécula para predizer as propriedades olfativas da molécula. Por exemplo, uma rede neural de gráfico treinada pode operar diretamente sobre a representação gráfica da estrutura química da molécula (por exemplo, realizar convoluções dentro do espaço de gráfico) para predizer as propriedades olfativas da molécula. O modelo aprendido por máquina pode ser treinado usando dados de treinamento que incluem descrições de moléculas (por exemplo, descrições gráficas de estruturas químicas de moléculas) que foram rotuladas (por exemplo, manualmente por um especialista) com descrições de propriedades olfativas (por exemplo, descrições textuais de categorias de odores como “doce”, “pinho”, “pera”, “podre” etc.) que foram avaliadas para as moléculas. O modelo de predição aprendido por máquina treinado pode fornecer dados de predição que predizem o cheiro de moléculas anteriormente não avaliadas.

[00054]Mais particularmente, a maioria dos modelos de aprendizado de máquina exige uma entrada de formato regular (por exemplo, uma grade de pixels ou um vetor de números) como entrada. No entanto, GNNs permitem o uso de entradas de formato irregular, como gráficos, para serem usados diretamente em aplicativos de aprendizado de máquina. Como tal, de acordo com um aspecto da presente divulgação, ao visualizar átomos como nós, e ligações como bordas, uma molécula pode ser interpretada como um gráfico. GNNs de exemplo são transformações invariantes de permutação que podem ser aprendidas em nós e bordas, que produzem vetores de comprimento fixo que são posteriormente processados por uma rede neural totalmente conectada. GNNs podem ser considerados recursos de aprendizagem especializados para uma tarefa, em contraste com recursos gerais criados por especialistas.

[00055]Alguns GNNs de exemplo incluem uma ou mais camadas de passagem de mensagem, cada uma seguida por uma operação de redução de soma, seguida por várias camadas totalmente conectadas. A camada final totalmente conectada de exemplo tem um número de saídas igual ao número de descritores de odor preditos. Um modelo de exemplo é ilustrado na FIG. 6, que ilustra um esquema de modelo de exemplo e fluxo de dados. No exemplo ilustrado na Figura 6, cada molécula é primeiro caracterizada por seus átomos constituintes, ligações e conectividades. Cada camada de Rede Neural de Gráficos (GNN) transforma os recursos da camada anterior. As saídas da camada GNN final são reduzidas a um vetor, que é então usado para predizer descritores de odores por meio de uma rede neural totalmente conectada. Em algumas implementações de exemplo, as embeddings de gráfico podem ser recuperadas da penúltima camada do modelo. Um exemplo da representação do espaço de embedding para quatro descritores de odor é mostrado no canto inferior direito.

[00056]Com referência novamente à Figura 4, em 404, o método 400 pode incluir obter, pelo um ou mais dispositivos de computação, um gráfico que descreve graficamente uma estrutura química de uma molécula selecionada. Por exemplo, uma estrutura de gráfico de entrada da estrutura química de uma molécula (por exemplo, uma molécula não avaliada anteriormente, etc.) pode ser obtida para uso na predição de uma ou mais propriedades perceptivas (por exemplo, olfativas) da molécula. Por exemplo, em algumas modalidades, uma estrutura de gráfico pode ser obtida com base em uma descrição padronizada da estrutura química de uma molécula, como uma cadeia de sistema de entrada de linha de entrada molecular simplificado (SMILES), e/ou semelhantes. Em algumas modalidades, em resposta ao recebimento de uma cadeia SMILES ou outra descrição da estrutura química, um ou mais dispositivos de computação podem converter a cadeia em uma estrutura de gráfico que descreve graficamente a estrutura bidimensional de uma molécula. Adicionalmente ou alternativamente, um ou mais dispositivos de computação podem fornecer a criação de uma representação tridimensional da molécula, por exemplo, usando cálculos químicos quânticos, para entrada em um modelo aprendido por máquina.

[00057]Em 406, o método 400 pode incluir fornecer, pelo um ou mais dispositivos de computação, o gráfico que descreve graficamente a estrutura química da molécula selecionada como entrada para a rede neural de gráfico aprendida por máquina. Por exemplo, a estrutura de gráfico descritiva da estrutura química de uma molécula, obtida em 404, pode ser fornecida a um modelo aprendido por máquina (por exemplo, uma rede neural convolucional de gráfico treinada, e/ou outro tipo de modelo aprendido por máquina) que pode predizer, da estrutura de gráfico ou recursos derivados da estrutura de gráfico, propriedades olfativas da molécula.

[00058]Em 408, o método 400 pode incluir receber, pelo um ou mais dispositivos de computação, dados de predição descritivos de uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina. Em particular, o modelo aprendido por máquina pode fornecer dados de predição de saída compreendendo uma descrição das propriedades perceptivas preditas da molécula, como, por exemplo, uma lista de propriedades perceptivas olfativas descritivas de como a molécula teria o cheiro para um humano. Por exemplo, uma cadeia SMILES pode ser fornecida, como a cadeia SMILES "O=C(OCCC(C)C)C" para a estrutura química do acetato de isoamila, e o modelo aprendido por máquina pode fornecer como saída uma descrição do que essa molécula teria o mesmo cheiro para um ser humano, por exemplo, uma descrição das propriedades do odor da molécula, como “fruta, banana, maçã”.

[00059]Em algumas modalidades de exemplo, os dados de predição podem indicar se a molécula tem ou não uma determinada qualidade perceptiva olfativa desejada (por exemplo, uma percepção de cheiro alvo, etc.). Em algumas modalidades de exemplo, os dados de predição podem incluir um ou mais tipos de informações associadas a uma propriedade olfativa predita de uma molécula. Por exemplo, os dados de predição para uma molécula podem fornecer a classificação da molécula em uma classe de propriedade olfativa, e/ou em várias classes de propriedade olfativa. Em alguns casos, as classes podem incluir rótulos textuais fornecidos por humanos (por exemplo, especialistas) (por exemplo, azedo, cereja, pinheiro, etc.). Em alguns casos, as classes podem incluir representações não textuais de cheiro/odor, como uma localização em um continuum de cheiro, ou semelhante. Em algumas modalidades de exemplo, os dados de predição para moléculas podem incluir valores de intensidade que descrevem a intensidade do cheiro/odor predito. Em algumas modalidades de exemplo, os dados de predição podem incluir valores de confiança associados à propriedade perceptiva olfativa predita. Em algumas modalidades de exemplo, além ou alternativamente a classificações específicas para uma molécula, os dados de predição podem incluir uma embedding numérica que permite a pesquisa de similaridade, ou outras comparações entre duas moléculas com base em uma medida de distância entre duas embeddings.

[00060]Em 410, o método 400 pode incluir fornecer, pelo um ou mais dispositivos de computação, os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

[00061]A FIG. 5 representa exemplos de ilustrações para visualizar a contribuição estrutural associada com propriedades olfativas preditas de acordo com exemplos de modalidades da presente divulgação. Conforme ilustrado na FIG. 5, em algumas modalidades, os sistemas e métodos da presente divulgação podem fornecer dados de saída para facilitar a interpretação, e/ou visualização de quais aspectos da estrutura de uma molécula mais contribui para sua qualidade de odor predita. Por exemplo, em algumas modalidades, um mapa de calor pode ser gerado para sobrepor a estrutura da molécula, como as visualizações 502, 510 e 520, que fornece indicações de quais porções da estrutura de uma molécula são mais importantes para as propriedades perceptivas da molécula, e/ou quais porções da estrutura de uma molécula são menos importantes às propriedades perceptivas da molécula. Por exemplo, uma visualização de mapa de calor, como a visualização 502, pode fornecer indicações de que os átomos/ligações 504 podem ser mais importantes para as propriedades perceptivas preditas, que os átomos/ligações 506 podem ser moderadamente importantes para as propriedades perceptivas preditas, e que átomos/ligações 508 podem ser menos importantes para as propriedades perceptivas preditas. Em outro exemplo, a visualização 510 pode fornecer indicações de que os átomos/ligações 512 podem ser mais importantes para as propriedades perceptivas preditas, que os átomos/ligações 514 podem ser moderadamente importantes para as propriedades perceptivas preditas, e que os átomos/ligações 516 e átomos/ligações 518 pode ser menos importante para as propriedades perceptivas preditas. Em algumas implementações, os dados indicativos de como as mudanças na estrutura de uma molécula impactariam a percepção olfativa podem ser usados para gerar visualizações de como a estrutura contribui para uma qualidade olfativa predita. Por exemplo, mudanças iterativas na estrutura da molécula (por exemplo, uma técnica de knock-down, etc.) e seus resultados correspondentes podem ser usados para avaliar quais porções da estrutura química são mais contribuintes para a percepção olfativa. Exemplo de Embeddings de Rede Neural de Gráfico Aprendido

[00062]Algumas arquiteturas de rede neural de exemplo descritas neste documento podem ser configuradas para construir representações de dados de entrada em suas camadas intermediárias. O sucesso de redes neurais profundas em tarefas de predição depende da qualidade de suas representações aprendidas, geralmente chamadas de embeddings. A estrutura de uma embedding aprendido pode até levar a percepções sobre a tarefa ou área problemática, e a embedding pode até ser um objeto de estudo em si.

[00063]Alguns exemplos de sistemas de computação podem salvar as ativações da penúltima camada totalmente conectada como uma "embedding de odor" de dimensão fixa. O modelo de

GNN pode transformar a estrutura de gráfico de uma molécula em uma representação de comprimento fixo que é útil para classificação. Uma embedding de GNN aprendida em uma tarefa de predição de odores pode incluir uma organização útil e semanticamente significativa de moléculas odoríferas.

[00064]Uma representação de embedding de odores que reflita as relações de senso comum entre os odores deve mostrar a estrutura global e localmente. Especificamente, para estrutura global, odores que são perceptivamente semelhantes devem estar próximos em uma embedding. Para a estrutura local, as moléculas individuais que têm percepções de odor semelhantes devem se agrupar, e portanto, estar próximas na embedding.

[00065]Representações de embedding de exemplo de cada ponto de dados podem ser produzidas a partir da saída da penúltima camada de um modelo de GNN treinado de exemplo. Por exemplo, cada molécula pode ser mapeada para um vetor de 63 dimensões. Qualitativamente, para visualizar este espaço em 2D, opcionalmente, a análise de componentes principais (PCA) pode ser utilizada para reduzir sua dimensionalidade. A distribuição de todas as moléculas que compartilham um rótulo semelhante pode ser destacada usando a estimativa de densidade de kernel (KDE).

[00066]Um exemplo de estrutura global do espaço de embedding é ilustrado na FIG. 7. Neste exemplo, descobrimos que os descritores de odor individuais (por exemplo, almíscar, repolho, lírio e uva) tendem a se agrupar em sua própria região específica. Para descritores de odor que co- ocorrem com frequência, descobrimos que o espaço de embedding captura uma estrutura hierárquica que está implícita nos descritores de odor. Os clusters para rótulos de odor de jasmim, lavanda e lírio-do-vale são encontrados dentro do agrupamento para o rótulo de odor floral mais amplo.

[00067]A FIG. 7 ilustra uma representação 2D de embeddings de um modelo de GNN como um espaço de odor aprendido. As moléculas são representadas como pontos individuais. Áreas sombreadas e contornadas são estimativas de densidade de kernel da distribuição de dados rotulados. A. Quatro descritores de odor com baixa co-ocorrência têm baixa sobreposição no espaço de embedding. B. Três descritores gerais de odores (floral, carne, alcoólico), cada um deles inclui rótulos mais específicos dentro de seus limites. Experimentos de exemplo indicaram que as embeddings geradas podem ser usados para recuperar moléculas que são perceptivamente semelhantes a uma molécula de origem (por exemplo, usando uma pesquisa de vizinho mais próximo sobre os embeddings). Exemplo de Aprendizagem por Transferência

[00068]Um descritor de odor pode ser recém-inventado ou refinado (por exemplo, as moléculas com o descritor de pera podem ser posteriormente atribuídas a um descritor de casca de pera, haste de pera, polpa de pera, núcleo de pera mais específico). Uma embedding de odor útil seria capaz de realizar a aprendizagem de transferência para esse novo descritor, usando apenas dados limitados. Para aproximar este cenário, experimentos de exemplo eliminaram um descritor de odor por vez de um conjunto de dados. Usando as embeddings treinadas a partir de descritores de odor (N -1) como caracterização, uma floresta aleatória foi treinada para predizer o descritor de odor previamente apresentado.

Foram usados os recursos cFP e Mordred como linha de base para comparação. As embeddings de GNN superam significativamente as impressões digitais Morgan e os recursos Mordred nesta tarefa, mas como esperado, ainda têm um desempenho um pouco pior do que um GNN treinado no odor alvo. Isso indica que as embeddings baseadas em GNN podem generalizar para predizer novos odores, mas relacionados.

[00069]Em outro exemplo, a abordagem de modelagem QSOR proposta pode generalizar para tarefas perceptivas adjacentes, e capturar estruturas significativas e úteis sobre a percepção olfativa humana, mesmo quando medida em diferentes contextos, com diferentes metodologias. Divulgação Adicional

[00070]A tecnologia aqui discutida faz referência a servidores, bancos de dados, aplicativos de software e outros sistemas baseados em computador, bem como ações tomadas e informações enviadas de e para tais sistemas. A flexibilidade inerente dos sistemas baseados em computador permite uma grande variedade de configurações, combinações e divisões de tarefas e funcionalidades possíveis entre os componentes. Por exemplo, os processos discutidos neste documento podem ser implementados usando um único dispositivo ou componente ou vários dispositivos ou componentes trabalhando em combinação. Bancos de dados e aplicativos podem ser implementados em um único sistema ou distribuídos em vários sistemas. Os componentes distribuídos podem operar sequencialmente ou em paralelo.

[00071]Embora a presente matéria tenha sido descrita em detalhes com respeito a várias modalidades de exemplo específicas do mesmo, cada exemplo é fornecido a título de explicação, não como limitação da divulgação.

Técnicos no assunto, ao atingir uma compreensão do anterior, podem prontamente produzir alterações, variações e equivalentes a tais modalidades.

Consequentemente, a divulgação da matéria não impede a inclusão de tais modificações, variações, e/ou adições à presente matéria, como seria prontamente aparente para um técnico no assunto.

Por exemplo, os recursos ilustrados ou descritos como parte de uma modalidade podem ser usados com outra modalidade para produzir adicionalmente uma modalidade adicional.

Assim, pretende-se que a presente divulgação cubra tais alterações, variações e equivalentes.

Claims

REIVINDICAÇÕES

1. Método implementado por computador, o método caracterizado pelo fato de que compreende: obter, por um ou mais dispositivos de computação, uma rede neural de gráfico aprendida por máquina treinada para predizer propriedades olfativas de moléculas com base, pelo menos em parte, nos dados de estrutura química associados às moléculas; obter, pelo um ou mais dispositivos de computação, um gráfico que descreve graficamente uma estrutura química de uma molécula selecionada; fornecer, pelo um ou mais dispositivos de computação, o gráfico que descreve graficamente a estrutura química da molécula selecionada como entrada para a rede neural de gráfico aprendida por máquina; receber, pelo um ou mais dispositivos de computação, dados de predição descritivos de uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina; e fornecer, pelo um ou mais dispositivos de computação, os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que obter, pelo um ou mais dispositivos de computação, a rede neural de gráfico aprendida por máquina compreende: obter, pelo um ou mais dispositivos de computação, dados de treinamento compreendendo uma pluralidade de exemplos químicos estruturas, cada estrutura química de exemplo marcada com um ou mais rótulos de propriedade olfativa que descrevem propriedades olfativas da estrutura química de exemplo; e treinar, pelo um ou mais dispositivos de computação, a rede neural de gráfico aprendida por máquina para predizer propriedades olfativas de moléculas com base em parte nos dados de treinamento obtidos.

3. Método implementado por computador, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que compreende adicionalmente: gerar, pelo um ou mais dispositivos de computação, dados de visualização descritivos de uma importância relativa de uma ou mais unidades estruturais da estrutura química da molécula selecionada para as propriedades olfativas preditas associadas à molécula selecionada; e fornecer, pelo um ou mais dispositivos de computação, os dados de visualização em associação com os dados de predição indicativos da uma ou mais propriedades olfativas.

4. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que compreende adicionalmente: gerar, pelo um ou mais dispositivos de computação, dados indicativos de como uma mudança estrutural na estrutura química da molécula selecionada afeta as propriedades olfativas preditas associadas à molécula selecionada.

5. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que os dados de predição indicativos da uma ou mais propriedades olfativas da molécula selecionada compreendem uma intensidade de uma propriedade olfativa particular.

6. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que compreende adicionalmente: obter, pelo um ou mais dispositivos de computação, um segundo gráfico que descreve graficamente uma segunda estrutura química de uma segunda molécula selecionada; fornecer, pelo um ou mais dispositivos de computação, o segundo gráfico que descreve graficamente a segunda estrutura química da segunda molécula selecionada como entrada para a rede neural de gráfico aprendida por máquina; receber, pelo um ou mais dispositivos de computação, segundos dados de predição descritivos de uma ou mais segundas propriedades olfativas associadas com a segunda molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina; e determinar, pelo um ou mais dispositivos de computação, uma ou mais diferenças olfativas entre a molécula selecionada e a segunda molécula selecionada com base em uma comparação dos dados de predição para a molécula selecionada com os segundos dados de predição para a segunda molécula selecionada.

7. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que compreende adicionalmente determinar, pelo um ou mais dispositivos de computação através da entrada do gráfico que descreve graficamente a estrutura química da molécula selecionada na rede neural de gráfico aprendida por máquina ou em uma rede neural de gráfico aprendida por máquina adicional, dados indicativos de um ou mais dos seguintes: propriedades ópticas da molécula selecionada;

propriedades gustativas da molécula selecionada; biodegradabilidade da molécula selecionada; estabilidade da molécula selecionada; ou toxicidade da molécula selecionada.

8. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que o gráfico que descreve graficamente a estrutura química da molécula selecionada compreende uma estrutura de gráfico bidimensional indicativa de uma representação bidimensional da estrutura química da molécula selecionada.

9. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que o gráfico que descreve graficamente a estrutura química da molécula selecionada compreende uma estrutura de gráfico tridimensional indicativa de uma representação tridimensional da estrutura química da molécula selecionada, e em que o método compreende adicionalmente realizar, pelo um ou mais dispositivos de computação, um ou mais cálculos químicos quânticos para identificar a representação tridimensional da estrutura química da molécula selecionada.

10. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que compreende adicionalmente: realizar, pelo um ou mais dispositivos de computação, um processo de pesquisa iterativa para identificar uma molécula adicional que exibe uma ou mais propriedades olfativas desejadas, em que o processo de pesquisa iterativa compreende, para cada uma de uma pluralidade de iterações:

gerar, pelo um ou mais dispositivos de computação, um gráfico de molécula candidata que descreve graficamente uma estrutura química candidata de uma molécula candidata; fornecer, pelo um ou mais dispositivos de computação, o gráfico de molécula candidata que descreve graficamente a estrutura química candidata da molécula candidata como entrada para a rede neural de gráfico aprendida por máquina; receber, pelo um ou mais dispositivos de computação, dados de predição descritivos de uma ou mais propriedades olfativas preditas da molécula candidata como uma saída da rede neural de gráfico aprendida por máquina; e comparar, pelo um ou mais dispositivos de computação, uma ou mais propriedades olfativas preditas da molécula candidata com uma ou mais propriedades olfativas desejadas.

11. Método implementado por computador, de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que: os dados de predição indicativos da uma ou mais propriedades olfativas preditas da molécula selecionada compreendem uma embedding numérica; e o método compreende adicionalmente identificar, pelo um ou mais dispositivos de computação, outras moléculas que têm propriedades olfativas que são semelhantes às propriedades olfativas preditas da molécula selecionada, comparando a embedding numérica com outra saída de embedding numérica para as outras moléculas pela rede neural de gráfico aprendida por máquina.

12. Dispositivo de computação, caracterizado pelo fato de que compreende: um ou mais processadores; e uma ou mais mídias legíveis por computador não transitórias que armazenam instruções que, quando executadas pelo um ou mais processadores, fazem com que o dispositivo de computação realize operações, as operações compreendendo: obter uma rede neural de gráfico aprendida por máquina treinada para predizer uma ou mais propriedades olfativas de uma molécula com base, pelo menos em parte, em dados de estrutura química associados à molécula; obter dados de gráfico representativos de uma estrutura química de uma molécula selecionada; fornecer dados gráficos representativos da estrutura química como entrada para a rede neural de gráfico aprendida por máquina; receber dados de predição descritivos de uma ou mais propriedades olfativas associadas à molécula selecionada como uma saída da rede neural de gráfico aprendida por máquina; e fornecer os dados de predição descritivos da uma ou mais propriedades olfativas preditas da molécula selecionada como uma saída.

13. Dispositivo de computação, de acordo com a reivindicação 12, caracterizado pelo fato de que obter a rede neural de gráfico aprendida por máquina treinada para predizer uma ou mais propriedades olfativas de uma molécula compreende adicionalmente: obter dados de treinamento compreendendo uma pluralidade de exemplos de estruturas químicas, cada exemplo de estrutura química marcada com um ou mais rótulos de propriedades olfativas que descrevem propriedades olfativas da estrutura química de exemplo; e treinar a rede neural de gráfico aprendida por máquina para predizer propriedades olfativas com base em parte nos dados de treinamento obtidos.

14. Dispositivo de computação, de acordo com a reivindicação 12 ou 13, caracterizado pelo fato de que as operações compreendem adicionalmente: gerar dados indicativos de como uma mudança estrutural na estrutura química da molécula selecionada afeta as propriedades olfativas preditas associadas à molécula selecionada.

15. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 14, caracterizado pelo fato de que as operações compreendem adicionalmente: gerar dados de visualização descritivos de uma importância relativa de uma ou mais unidades estruturais da molécula selecionada para as propriedades olfativas preditas associadas à molécula selecionada; e fornecer os dados de visualização em associação com os dados de predição descritivos de uma ou mais propriedades olfativas.

16. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 15, caracterizado pelo fato de que os dados de predição indicativos da uma ou mais propriedades olfativas da molécula selecionada compreendem uma intensidade de uma propriedade olfativa particular.

17. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 16, caracterizado pelo fato de que as operações compreendem adicionalmente: obter dados de gráfico representativos de uma estrutura química de uma segunda molécula selecionada;

fornecer dados gráficos representativos da estrutura química da segunda molécula selecionada como entrada para a rede neural de gráfico aprendida por máquina; receber dados de predição descritivos de uma ou mais propriedades olfativas associadas à segunda molécula selecionada como uma saída do modelo de predição aprendido por máquina; e determinar uma ou mais diferenças perceptivas entre a molécula selecionada e a segunda molécula selecionada.

18. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 17, caracterizado pelo fato de que as operações compreendem adicionalmente determinar, com base pelo menos em parte em dados gráficos representativos da estrutura química, dados indicativos de um ou mais de: propriedades ópticas da molécula selecionada; propriedades gustativas da molécula selecionada; biodegradabilidade da molécula selecionada; estabilidade da molécula selecionada; ou toxicidade da molécula selecionada.

19. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 18, caracterizado pelo fato de que os dados gráficos representativos da estrutura química da molécula selecionada compreendem uma estrutura de gráfico indicativa de uma estrutura bidimensional da molécula selecionada.

20. Dispositivo de computação, de acordo com qualquer uma das reivindicações 12 a 19, caracterizado pelo fato de que os dados gráficos representativos da estrutura química da molécula selecionada compreendem uma estrutura de gráfico tridimensional indicativa de uma representação tridimensional da estrutura química da molécula selecionada, em que as operações compreendem adicionalmente a realização de um ou mais cálculos químicos quânticos para identificar a representação tridimensional da estrutura química da molécula selecionada.