BR112023020614A2

BR112023020614A2 - Processamento de entradas multimodais usando modelos de linguagem

Info

Publication number: BR112023020614A2
Application number: BR112023020614A
Authority: BR
Inventors: George Hill Felix; Lee Menick Jacob; Rafailia Tsimpoukelli Maria; Oriol Vinyals; Serkan Cabi; Mohammadali Eslami Seyed
Original assignee: Deepmind Tech Ltd
Priority date: 2021-06-08
Filing date: 2022-06-08
Publication date: 2023-12-19
Also published as: EP4302239A1; CN117121015A; KR20230152741A; CA3214735A1; IL307517A; AU2022288746A1; JP2024522328A; WO2022258666A1

Abstract

processamento de entradas multimodais usando modelos de linguagem. métodos, sistemas e aparelhos, incluindo programas de computador codificados em meios de armazenamento de computador, para processamento de entradas multimodais utilizando modelos de linguagem. em particular, as entradas incluem uma imagem, e a imagem é codificada por uma rede de codificador de imagem para gerar uma sequência de incorporações de imagem que representam a imagem. a sequência de incorporações de imagem é fornecida como pelo menos parte de uma sequência de entrada que é processada por uma rede neural de modelo de linguagem.