CN112733536A - 词嵌入方法和设备以及词搜索方法 - Google Patents

词嵌入方法和设备以及词搜索方法 Download PDF

Info

Publication number
CN112733536A
CN112733536A CN202010310047.3A CN202010310047A CN112733536A CN 112733536 A CN112733536 A CN 112733536A CN 202010310047 A CN202010310047 A CN 202010310047A CN 112733536 A CN112733536 A CN 112733536A
Authority
CN
China
Prior art keywords
word
word embedding
chemical substance
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010310047.3A
Other languages
English (en)
Inventor
柳尚贤
金映锡
崔俊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112733536A publication Critical patent/CN112733536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种词嵌入方法和设备以及词搜索方法,其中,所述词嵌入方法包括:基于化学物质的特性信息来训练词嵌入模型;和从词嵌入模型获取表示化学物质的词的嵌入向量,其中,词嵌入模型被配置为预测输入词的上下文词。

Description

词嵌入方法和设备以及词搜索方法
本申请要求于2019年10月14日在韩国知识产权局提交的第10-2019-0127032号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及词嵌入和词搜索方法和设备。
背景技术
大量的知识已发表成文本,例如论文和书籍。以自由文本描述的这样的累积知识是用户理解的形式,并且正在努力使用自然语言处理(NLP)技术从文本提取结构化知识。
发明内容
提供本发明内容以便以简化的形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,提供了一种词嵌入方法,所述方法包括:基于化学物质的特性信息来训练词嵌入模型;和从词嵌入模型获取表示化学物质的词的嵌入向量,其中,词嵌入模型被配置为预测输入词的上下文词。
训练词嵌入模型的步骤可包括:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以响应于化学物质的结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
基于指纹、简化分子线性输入规范(SMILES)、图形或图像中的一个的格式来确定化学物质的结构信息。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以响应于化学物质的成分信息被输入到词嵌入模型,从词嵌入模型输出表示化学物质的词的上下文词。
化学物质的成分信息可从表示化学物质的词获取。
可将表示化学物质的词分成字母或元素,并且将字母或元素顺序地输入到词嵌入模型。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以从词嵌入模型输出化学物质的物理性质信息。
物理性质信息可包括关于化学物质的质量、体积、颜色、熔点以及沸点中的任何一个或任何组合的信息。
所述词嵌入方法可包括:将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
所述词嵌入方法可包括:确定具有将要生成的嵌入向量的词是否表示化学材料。
在一个总体方面,提供了另一种词搜索方法,所述词搜索方法包括:接收化学物质的特性信息或表示所述化学物质的词;和基于词嵌入矩阵输出表示具有与所述化学物质相似的特性的物质的词,其中,词嵌入矩阵从基于多个化学物质的特性信息训练的词嵌入模型获取,并且词嵌入模型被配置为预测输入词的上下文词。
所述化学物质的特性信息可包括所述化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合。
一种词嵌入设备包括:处理器,被配置为:基于化学物质的特性信息来训练词嵌入模型,和从词嵌入模型获取表示化学物质的词的嵌入向量;和词嵌入模型,被配置为预测输入词的上下文词。
处理器可被配置为:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
处理器可被配置为:训练词嵌入模型,以响应于化学物质的结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
处理器可被配置为:训练词嵌入模型,以响应于化学物质的成分信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
处理器可被配置为:训练词嵌入模型,以输出化学物质的物理性质信息。
处理器可被配置为:将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
在一个总体方面,提供了另一种词嵌入设备,所述词嵌入设备包括:处理器,被配置为:将句分成多个词,确定所述多个词中的词是否表示化学物质,将确定的词划分成比确定的词小的多个词项,和将确定的词和所述多个词项中的一个或多个词项中的任何一个或任何组合顺序地输入到词嵌入矩阵,以输出上下文词,其中,词嵌入矩阵从基于化学物质的特性信息训练的词嵌入模型获取,并且词嵌入模型被配置为预测上下文词。
所述词嵌入设备可包括:非暂时性计算机可读存储介质,存储化学物质的结构信息、成分信息以及物理性质信息;和处理器,可被配置为:从非暂时性计算机可读存储介质检索化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合,和将化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合输入到词嵌入矩阵。
上下文词可表示具有与化学物质相似的特性的物质。
从下面的具体实施方式、附图以及权利要求,其它特征和方面将是清楚的。
附图说明
图1示出词嵌入模型的示例。
图2示出生成嵌入向量的处理的示例。
图3示出训练词嵌入模型的处理的示例。
图4和图5示出词嵌入设备的操作的示例。
图6示出对词嵌入矩阵执行后处理的处理的示例。
图7示出词嵌入方法的示例。
图8示出词搜索方法的示例。
图9示出电子装置的示例。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,可省略本领域已知的特征的描述。
在此描述的特征可以以不同的形式来实现,而不被解释为限于在此描述的示例。相反,在此描述的示例已被提供,以仅示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。
本公开中公开的示例的下面的结构或功能描述仅意在用于描述示例的目的,并且示例可以以各种形式实现。示例并不表示受到限制,而是意在各种修改、等同物和替换物也被覆盖在权利要求的范围内。
尽管使用术语“第一”或“第二”来解释各种组件,但是组件不受这些术语限制。这些术语应仅用于将一个组件与另一个组件区分开。例如,在根据本公开的构思的权利的范围内,“第一”组件可被称为“第二”组件,或者类似地,“第二”组件可被称为“第一”组件。
将理解,当组件被称为“连接到”另一组件时,该组件可直接连接或直接结合到另一组件,或者可存在中间组件。
除非上下文另外清楚地指示,否则如在此使用的,单数形式也意在包括复数形式。还应理解,当术语“包括”和/或“包含”在本说明书中使用时,说明存在陈述的特征、整体、步骤、操作、元件、组件和/或它们的组,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。
在下文中,将参照附图详细描述示例,并且在附图中相同的参考标号始终表示相同的元件。
图1示出词嵌入(word embedding)模型100的示例。
参照图1,词嵌入模型100包括输入层110、隐藏层120以及输出层130。
词嵌入模型100是用于以向量的形式表达词的模型,并且可以是基于Word2Vec的神经网络,即使不存在领域知识,该神经网络也以无监督的形式发现文本中的隐藏知识。Word2Vec可以是基于相关词出现在相同句中的高可能性根据相关词周围出现的词来获得词的向量表示或嵌入向量的方案。例如,当使用词作为输入来预测词周围出现的词的词嵌入模型100被训练时,词嵌入模型100的隐藏表示可被获取为词的嵌入向量。如上所述,词嵌入模型100可被称为用于将词转换为向量的Word2Vec,并且特别地,也被称为“跳过语法模型(skip-gram model)”。
词嵌入模型100被训练,使得响应于句中的第t词被输入到输入层110,第t词的右侧和左侧中的每侧中的“n”个词(例如,图1中的两个词)从输出层130被输出,并且第t词的嵌入向量在训练的词嵌入模型100的隐藏层120中被获得。由于相似词周围出现的词彼此相似,因此相似的嵌入向量可被获得。此外,嵌入向量可包括相应词的语义信息。此外,w(t)表示作为表示第t词的词标识(ID)的独热(one-hot)向量。
输入到输入层110的第t词被称为“目标词”,并且从输出层130输出的第t词的右侧和左侧中的每侧中的“n”个词被称为“上下文词”。此外,隐藏层120包括至少一个层,并且被称为“投影层”。
例如,当目标词是表示化学物质的词时,词嵌入模型100可基于化学物质的特性来训练,以确定嵌入向量,使得化学物质的特性被反映,这将在下面进一步描述。
在一个示例中,词嵌入模型100可被实现为包括二维卷积神经网络(CNN)和预训练的空间金字塔池化网络的人工神经网络。在一个示例中,CNN可以是深度神经网络(DNN)。在一个示例中,DNN可包括区域生成网络(RPN)、分类网络、强化学习网络、全连接网络(FCN)、深度卷积网络(DCN)、长短期记忆(LSTM)网络以及门控循环单元(GRU)。在一个示例中,CNN包括多个层,每个层包括多个节点。此外,CNN包括将包括在多个层中的每个层中的多个节点连接到包括在CNN的另一层中的节点的连接权重。
在一个示例中,CNN可接收目标词。在这样的示例中,对目标词与核执行卷积运算,并且作为结果,特征图被输出。输出特征图作为输入特征图与核再次被执行卷积运算,并且新的特征图被输出。当卷积运算被这样重复执行时,关于目标词的特征的识别结果可通过CNN的输出层最终被输出。
图2示出生成嵌入向量的处理的示例。
图2示出可用于确定嵌入向量250的各种元素。
当普通词与化学物质不相关时,文献中示出的上下文信息210可用于确定嵌入向量250。例如,嵌入向量250可使用基于目标词和上下文词训练的词嵌入模型来确定。
例如,当词表示化学物质时,嵌入向量250可基于化学物质的特性来确定。在这个示例中,化学物质的特性包括成分信息220、结构信息230以及物理性质信息240。成分信息220被包含在化学物质词中,因此词汇信息被编码并用作成分信息220。结构信息230指示化学物质的化学结构或分子结构,并且可基于指纹、简化分子线性输入规范(SMILES)、图形以及图像中的任何一个的格式来确定。物理性质信息240包括关于化学物质的质量、体积、颜色、熔点以及沸点中的任何一个或任何组合的信息。可通过反映以上描述的上下文信息210、成分信息220、结构信息230以及物理性质信息240中的任何一个或任何组合来确定图2的嵌入向量250。此外,具有相似特性的上下文词或化学物质词的物理性质也彼此相似,因此可获得相似的嵌入向量,并且可基于嵌入向量之间的余弦相似度来检索具有相似特性的化学物质。当嵌入向量在二维(2D)平面中表示时,具有相似特性的化学物质词的嵌入向量可彼此临近地定位。
图3示出训练词嵌入模型的处理的示例。
图3示出用于确定表示化学物质的词的嵌入向量的词嵌入模型。出现在文献中的词可以是例如与化学物质无关的普通词,或者是表示化学物质的词。在一个示例中,可由化学实体识别器来确定词是否是表示化学物质的词。例如,当将被建模的词表示化学物质时,嵌入向量可通过以下将描述的操作来获取。
如上所述,成分信息被包含在表示化学物质的词中。当表示化学物质的词从文献提取时,成分信息可通过执行词典级编码(lexicon-level encoding)来获取。获取的成分信息被输入到输入层310。
此外,通过化学结构编码确定的化学物质的结构信息可从数据库(DB)获取。获取的结构信息可被输入到输入层310。
对于表示化学物质的词,化学物质的成分信息和/或结构信息可被输入到词嵌入模型的输入层310。指示词的词ID可不被输入到输入层310。
此外,化学物质的物理性质信息可从DB获取。词嵌入模型可被训练,使得获取的物理性质信息可从输出层330输出。
在一个示例中,词嵌入模型可被训练为:响应于化学物质的成分信息和/或结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。在另一示例中,词嵌入模型可被训练为:响应于化学物质的成分信息和/或结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词和化学物质的物理性质信息。词嵌入模型可实现对化学物质的物理性质信息以及上下文词的预测,并且也可通过多任务学习来训练。
如上所述,可使用作为化学物质的固有特性的成分信息和结构信息作为词嵌入模型的训练输入数据,并且使用物理性质信息作为训练输出数据来执行训练,因此可获取反映化学物质的成分信息、结构信息以及物理性质信息中的任何一个或任何组合的嵌入向量。
图4和图5示出词嵌入设备的操作的示例。
图4是示出词嵌入设备的操作的示例的示图。词级分词器(word-leveltokenizer)410将出现在文献中的句分成词。化学实体识别器420确定具有将要生成的嵌入向量的词是否表示化学物质。词典级分词器430将词分成比词小的词项。例如,词典级分词器430可以以字母为基础或以元素为基础来分词。在一个示例中,词“CuGaTe2”可被分成字母“C”、“u”、“G”、“a”、“T”、“e”以及“2”,或者被分成元素“Cu”、“Ga”、“Te”以及“2”。字母或元素可被顺序地输入到词嵌入模型440。词嵌入模型440是将被最终训练的模型,并且DB 450存储化学物质的结构信息和物理性质信息。根据情况,DB 450可位于词嵌入设备外部,并且可经由有线网络和/或无线网络连接到词嵌入设备,或者可包括在词嵌入设备中。模型后处理器460对训练的词嵌入模型440进行后修改。由于针对与化学物质不相关的普通词的每个词ID获取嵌入向量,但是表示化学物质的词的词ID在训练中不被使用,所以可执行后处理处理。以下将参照图6进一步描述后处理处理。
图5是示出词嵌入设备的操作的示例的示图。尽管在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或者省略一些操作,但是图5中的操作可以以如图所示的顺序和方式来执行。图5中示出的许多操作可并行地或同时地执行。图5的一个或多个块和块的组合可由执行指定功能的基于专用硬件的计算机和装置(诸如,处理器)或者专用硬件和计算机指令的组合来实现。除了以下图5的描述之外,图1至图4的描述也适用于图5并且通过引用包含于此。因此,这里可不重复以上描述。
在操作510中,词嵌入设备从文献提取具有将要生成的嵌入向量的目标词和上下文词。在操作520中,词嵌入设备确定目标词是否表示化学物质。在一个示例中,当目标词是与化学物质不相关的普通词时,可执行操作550。在另一示例中,当目标词表示化学物质时,可执行操作530。在操作530中,词嵌入设备通过将目标词分成词项来获取化学物质的成分信息。在操作540中,词嵌入设备从DB获取化学物质的结构信息和物理性质信息。在操作550中,词嵌入设备提取目标词和/或上下文词的词ID。
在操作560中,词嵌入识别基于成分信息、结构信息、物理性质信息以及目标词和/或上下文词的词ID中的任何一个或任何组合来确定训练数据。可将成分信息、结构信息以及目标词的词ID确定为训练输入数据,并且将物理性质信息和上下文词的词ID确定为训练输出数据。在操作570中,词嵌入设备基于确定的训练数据来训练词嵌入模型。在操作580中,词嵌入设备确定文献中是否存在下一句。在一个示例中,当文献中存在下一句时,可对下一句执行操作510。在另一示例中,当文献中不存在下一句时,可执行操作590。在操作590中,词嵌入设备对词嵌入模型执行后处理。以下将参照图6描述后处理的示例。
图6示出对词嵌入矩阵执行后处理的示例。
图6示出m×n词嵌入矩阵600。在词嵌入矩阵600中,一个轴表示“m”个词,另一个轴表示向量的“n”维。词嵌入矩阵600的每行表示一个词的嵌入向量,并且可对应于相应词的词ID。针对每个词ID确定n维嵌入向量。由于在训练期间表示化学物质的词的词ID没有被输入到词嵌入模型,因此仅通过训练词嵌入模型,嵌入向量没有被输入到与词ID对应的行。在图6的词嵌入矩阵600中,白色部分指示没有输入嵌入向量的行。
因此,通过后处理,在训练期间获取的化学物质词的嵌入向量可被输入到词嵌入矩阵600中的与化学物质词对应的部分。通过执行以上后处理处理,可完成没有空白部分的词嵌入矩阵600。
图7示出词嵌入方法的示例。尽管在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或者省略一些操作,但是图7中的操作可以以如图所示的顺序和方式来执行。图7中示出的许多操作可并行地或同时地执行。图7的一个或多个块和块的组合可由执行指定功能的基于专用硬件的计算机和装置(诸如,处理器)或者专用硬件和计算机指令的组合来实现。除了以下图7的描述之外,图1至图6的描述也适用于图7并且通过引用包含于此。因此,这里可不重复以上描述。
图7的词嵌入方法由例如词嵌入设备的处理器来执行。
在操作710中,词嵌入设备基于化学物质的特性信息来训练词嵌入模型。词嵌入模型预测输入词的上下文词。
词嵌入设备基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。在一个示例中,词嵌入设备可训练词嵌入模型,使得响应于化学物质的结构信息被输入到词嵌入模型,表示化学物质的词的上下文词可从词嵌入模型被输出。在另一示例中,词嵌入设备可训练词嵌入模型,使得响应于化学物质的成分信息被输入到词嵌入模型,表示化学物质的词的上下文词可从词嵌入模型被输出。在另一示例中,词嵌入设备可训练词嵌入模型,使得化学物质的物理性质信息可从词嵌入模型被输出。
在操作720中,词嵌入设备从词嵌入模型获取表示化学物质的词的嵌入向量。
此外,词嵌入设备将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
在一个示例中,在操作710之前,词嵌入设备可确定具有将要生成的嵌入向量的词是否表示化学物质。
图8示出词搜索方法的示例。尽管在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或者省略一些操作,但是图8中的操作可以以如图所示的顺序和方式来执行。图8中示出的许多操作可并行地或同时地执行。图8的一个或多个块和块的组合可由执行指定功能的基于专用硬件的计算机和装置(诸如,处理器)或者专用硬件和计算机指令的组合来实现。除了以下图8的描述之外,图1至图7的描述也适用于图8并且通过引用包含于此。因此,这里可不重复以上描述。
图8的词搜索方法由例如词搜索设备的处理器来执行。
在操作810中,词搜索设备接收将被搜索的化学物质的特性信息或表示化学物质的词。化学物质的特性信息可包括化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合。
在操作820中,词搜索设备基于词嵌入矩阵来输出表示具有与化学物质的特性相似的特性的物质的词。可从基于多个化学物质的特性信息训练的词嵌入模型获取词嵌入矩阵。词嵌入模型可预测输入词的上下文词。
图9示出电子装置900的示例。
参照图9,电子装置900包括存储器910、处理器920以及输入/输出接口930。存储器910、处理器920以及输入/输出接口930经由总线940彼此通信。
在一个示例中,电子装置900可以是例如词嵌入设备或词搜索设备。在一个示例中,电子装置900可被实现为支持词嵌入或词搜索的各种装置(例如,智能电话、移动电话、可穿戴智能装置(诸如,手环、手表、一副眼镜、眼镜式装置、手镯、脚镯、腰带、项链、耳环、发带、头盔、嵌入衣服中的装置或眼镜显示器(EGD))、计算装置(例如,服务器、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本、超级移动PC(UMPC)、平板个人计算机(tablet)、平板手机、移动互联网装置(MID)、个人数字助理(PAD)、企业数字助理(EDA)、便携式膝上型PC)、电子产品(例如,机器人、数码相机、数字摄像机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持式电子书、全球定位系统(GPS)导航仪、个人导航装置、便携式导航装置(PND)、手持游戏机、电子书、电视(TV)、高清电视(HDTV)、智能电视、智能家用电器、智能家居装置或用于门控的安全装置、行走辅助装置、智能扬声器、机器人、各种物联网(IoT)装置)、或自助服务机),并且可由安装在用户装置上的应用、中间件、或操作系统,或与相应的应用交互操作的服务器的程序来执行。
存储器910包括计算机可读指令。处理器920通过执行存储在存储器910中的指令来执行上述操作。存储器910可包括例如易失性存储器或非易失性存储器。存储器910包括大容量存储介质(诸如,硬盘)以存储各种数据。以下提供关于存储器910的进一步细节。
处理器920是例如被配置为执行指令或程序,或者控制电子装置900的设备。处理器920包括例如中央处理器(CPU)、处理器核、多核处理器、可重构处理器、多处理器、专用集成电路(ASIC)以及现场可编程门阵列(FPGA)、图形处理器(GPU)或任何其它类型的多处理器或单处理器配置。电子装置900经由输入/输出接口930连接到外部装置,并且交换数据。以下提供关于处理器920的进一步细节。
在一个示例中,电子装置900通过输入/输出接口930与用户进行交互。在一个示例中,电子装置900在输入/输出接口930上显示输入词的上下文词、化学物质的物理性质信息、化学物质的结构信息以及表示化学物质的词。
在一个示例中,输入/输出接口930可以是从用户接收输入或提供输出的显示器。在一个示例中,输入/输出接口930可用作输入装置,并且通过传统的输入方法(例如,键盘和鼠标)和新的输入方法(例如,触摸输入、语音输入以及图像输入)从用户接收输入。因此,输入/输出接口930可包括例如键盘、鼠标、触摸屏、麦克风以及可从用户检测输入并将检测的输入发送到数据处理设备的其它装置。
在一个示例中,输入/输出接口930可用作输出装置,并且通过视觉、听觉或触觉通道向用户提供电子装置900的输出。输入/输出接口930可包括例如显示器、触摸屏、扬声器、振动发生器和可向用户提供输出的其他装置。
然而,输入/输出接口930不限于以上描述的示例,并且在不脱离描述的说明性示例的精神和范围的情况下,可使用可操作地连接到电子装置900的任何其它显示器(诸如,计算机监视器和眼镜显示器(EGD))。在一个示例中,输入/输出接口930是包括提供渲染用户界面、渲染显示和/或接收用户输入的能力的一个或多个硬件组件的物理结构。
例如,化学物质“LiMn2O2”和“LiNi0.5Mn1.5O4”两者都包含锂离子,并且具有相似的结构。通过上述方法确定的“LiMn2O2”和“LiNi0.5Mn1.5O4”的嵌入向量可反映相似的特性,因此可使用嵌入向量容易地检索“LiNi0.5Mn1.5O4”作为与“LiMn2O2”相似的化学物质。因此,词嵌入设备和词搜索设备可用于材料领域的知识库构建、通过文本分析的推理和知识发现。
电子装置900可处理以上描述的操作中的一个或多个操作。
词嵌入设备、词级分词器410、化学实体识别器420、词典级分词器430、词嵌入模型440、对训练的词嵌入模型440进行后修改的模型后处理器460、以及其它设备、单元、模块、装置和其它组件由硬件组件来实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其它电子组件。在其它示例中,执行在本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如,通过一个或多个处理器或计算机)来实现。处理器或计算机可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用在本申请中描述的示例的描述中,但是在其它示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或两者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现,并且一个或多个其它硬件组件可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
执行在本申请中描述的操作的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,计算硬件被实现为如上所述地执行指令或软件,以执行在本申请中描述的由所述方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其它操作可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置处理器或计算机如机器或专用计算机那样进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括存储词嵌入方法的小应用程序、动态链接库(DLL)、中间件、固件、装置驱动程序、应用程序中的至少一个。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程人员可基于附图中示出的框图和流程图以及说明书中的相应描述,容易地编写指令或软件,附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或者极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其它装置,其中,任何其它装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机,使得处理器和计算机可执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。
虽然本公开包括特定的示例,但是在理解本申请的公开之后将清楚,在不脱离权利要求及它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例将被认为仅是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其它示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合,和/或由其它组件或它们的等同物替换或补充,则可实现合适的结果。因此,公开的范围不是由具体实施方式限定,而是由权利要求及它们的等同物限定,并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims (20)

1.一种词嵌入方法,包括:
基于化学物质的特性信息来训练词嵌入模型;和
从词嵌入模型获取表示化学物质的词的嵌入向量,
其中,词嵌入模型被配置为预测输入词的上下文词。
2.根据权利要求1所述的词嵌入方法,其中,训练词嵌入模型的步骤包括:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
3.根据权利要求1所述的词嵌入方法,其中,训练词嵌入模型的步骤包括:训练词嵌入模型,使得响应于化学物质的结构信息被输入到词嵌入模型,表示化学物质的词的上下文词从词嵌入模型被输出。
4.根据权利要求3所述的词嵌入方法,其中,基于指纹、简化分子线性输入规范、图形和图像中的一个的格式来确定化学物质的结构信息。
5.根据权利要求1所述的词嵌入方法,其中,训练词嵌入模型的步骤包括:训练词嵌入模型,使得响应于化学物质的成分信息被输入到词嵌入模型,表示化学物质的词的上下文词从词嵌入模型被输出。
6.根据权利要求5所述的词嵌入方法,其中,化学物质的成分信息从表示化学物质的词获取。
7.根据权利要求5所述的词嵌入方法,其中,将表示化学物质的词分成字母或元素,并且将字母或元素顺序地输入到词嵌入模型。
8.根据权利要求1所述的词嵌入方法,其中,训练词嵌入模型的步骤包括:训练词嵌入模型,使得化学物质的物理性质信息从词嵌入模型被输出。
9.根据权利要求8所述的词嵌入方法,其中,物理性质信息包括关于化学物质的质量、体积、颜色、熔点以及沸点中的任何一个或任何组合的信息。
10.根据权利要求1所述的词嵌入方法,还包括:
将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
11.根据权利要求1所述的词嵌入方法,还包括:
确定具有将要生成的嵌入向量的词是否表示化学物质。
12.一种存储指令的非暂时性计算机可读存储介质,所述指令在被处理器执行时,使得所述处理器执行权利要求1至权利要求11中的任意一项所述的词嵌入方法。
13.一种词搜索方法,包括:
接收将被搜索的化学物质的特性信息或表示所述化学物质的词;和
基于词嵌入矩阵输出表示具有与所述化学物质的特性相似的特性的物质的词,其中
词嵌入矩阵从基于多个化学物质的特性信息训练的词嵌入模型获取,并且
词嵌入模型被配置为预测输入词的上下文词。
14.根据权利要求13所述的词搜索方法,其中,所述化学物质的特性信息包括所述化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合。
15.一种词嵌入设备,包括:
处理器,被配置为:
基于化学物质的特性信息来训练词嵌入模型;和
从词嵌入模型获取表示化学物质的词的嵌入向量,和
词嵌入模型,被配置为预测输入词的上下文词。
16.根据权利要求15所述的词嵌入设备,其中,处理器还被配置为:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
17.根据权利要求15所述的词嵌入设备,其中,处理器还被配置为:训练词嵌入模型,使得响应于化学物质的结构信息被输入到词嵌入模型,表示化学物质的词的上下文词从词嵌入模型被输出。
18.根据权利要求15所述的词嵌入设备,其中,处理器还被配置为:训练词嵌入模型,使得响应于化学物质的成分信息被输入到词嵌入模型,表示化学物质的词的上下文词从词嵌入模型被输出。
19.根据权利要求15所述的词嵌入设备,其中,处理器还被配置为:训练词嵌入模型,使得化学物质的物理性质信息从词嵌入模型被输出。
20.根据权利要求15所述的词嵌入设备,其中,处理器还被配置为:将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
CN202010310047.3A 2019-10-14 2020-04-20 词嵌入方法和设备以及词搜索方法 Pending CN112733536A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190127032A KR20210044003A (ko) 2019-10-14 2019-10-14 단어 임베딩 방법 및 장치와 단어 검색 방법
KR10-2019-0127032 2019-10-14

Publications (1)

Publication Number Publication Date
CN112733536A true CN112733536A (zh) 2021-04-30

Family

ID=71409243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010310047.3A Pending CN112733536A (zh) 2019-10-14 2020-04-20 词嵌入方法和设备以及词搜索方法

Country Status (4)

Country Link
US (1) US11443118B2 (zh)
EP (1) EP3809415A1 (zh)
KR (1) KR20210044003A (zh)
CN (1) CN112733536A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580965B1 (en) * 2020-07-24 2023-02-14 Amazon Technologies, Inc. Multimodal based punctuation and/or casing prediction
KR102457159B1 (ko) * 2021-01-28 2022-10-20 전남대학교 산학협력단 딥러닝 기반 화합물 의약 효과 예측 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5854251B2 (ja) 2015-07-08 2016-02-09 洋彰 宮崎 人工知能装置
KR101797365B1 (ko) 2016-06-15 2017-11-15 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법
CA3055172C (en) 2017-03-03 2022-03-01 Perkinelmer Informatics, Inc. Systems and methods for searching and indexing documents comprising chemical information
US10628525B2 (en) 2017-05-17 2020-04-21 International Business Machines Corporation Natural language processing of formatted documents
JP7287062B2 (ja) * 2019-03-29 2023-06-06 富士通株式会社 翻訳方法、翻訳プログラム及び学習方法

Also Published As

Publication number Publication date
EP3809415A1 (en) 2021-04-21
US11443118B2 (en) 2022-09-13
KR20210044003A (ko) 2021-04-22
US20210110116A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
US10474758B2 (en) Method and apparatus for machine translation using neural network and method of training the apparatus
JP7193252B2 (ja) 画像の領域のキャプション付加
CN112002309A (zh) 模型训练方法和设备
CN112905735A (zh) 用于自然语言处理的方法和设备
US20230162481A1 (en) Pre-training of computer vision foundational models
US20200192985A1 (en) Method and apparatus with machine translation
KR102635777B1 (ko) 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체
CN109388797B (zh) 用于确定句子的领域的方法和设备及训练方法和训练设备
US11574190B2 (en) Method and apparatus for determining output token
US12039277B2 (en) Method and device with natural language processing
US11144291B1 (en) Loop-oriented neural network compilation
CN111783457A (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
US20220108180A1 (en) Method and apparatus for compressing artificial neural network
CN116303459A (zh) 处理数据表的方法及系统
CN109858046A (zh) 利用辅助损失来学习神经网络中的长期依赖性
CN110825854A (zh) 响应推断方法和设备
CN112733536A (zh) 词嵌入方法和设备以及词搜索方法
EP3629248A1 (en) Operating method and training method of neural network and neural network thereof
Rodriguez Deep Learning Systems: Algorithms, Compilers, and Processors for Large-Scale Production
Kaddoura A Primer on Generative Adversarial Networks
US20240290065A1 (en) Method for multimodal embedding and system therefor
US20240177796A1 (en) Method and system for generating a plurality of antibody sequences
US20240176806A1 (en) Method and apparatus with entity linking
CN118535761A (zh) 一种基于多模态跨领域的图文互搜方法及装置
Rodriguez Models and Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination