CN111860507B - 基于对抗学习的化合物图像分子结构式提取方法 - Google Patents
基于对抗学习的化合物图像分子结构式提取方法 Download PDFInfo
- Publication number
- CN111860507B CN111860507B CN202010728797.2A CN202010728797A CN111860507B CN 111860507 B CN111860507 B CN 111860507B CN 202010728797 A CN202010728797 A CN 202010728797A CN 111860507 B CN111860507 B CN 111860507B
- Authority
- CN
- China
- Prior art keywords
- smiles
- smiles code
- code
- compound
- compound image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 89
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明为基于对抗学习的化合物图像分子结构式提取方法,属于深度学习、图像识别和化合物分子式提取领域,包含以下步骤:S1:构建由化合物图像和SMILES码组成的数据对的数据集;S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;S3:对对抗网络进行交替训练,并进行测试;S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码。本发明提高了化合物图像特征提取的自适应性和泛化性能,并融入了对化合物生成规则的判定,提高了分子结构式提取的识别率、精度和鲁棒性。
Description
技术领域
本发明涉及一种基于对抗学习的化合物图像分子结构式提取方法,属于深度学习、图像识别和化合物分子式提取,尤其适用于化合物图像分子结构式提取。
背景技术
在药物研发工作中经常需要阅读大量的文档,例如各种期刊杂志发表的文章、专利等。这些文档包含了很多化合物的结构信息,并且通常以图片的形式进行描述。虽然这种图形化的化学结构方便了大家浏览,但是却不能对其直接进行编辑。当然,我们可以依照图片中的化学结构在化学编辑器中进行绘制,但这种人工提取的方式太费时费力,而且还容易出错,特别是化学结构数量多难以实现快速处理。在信息化快速发展的今天,亟需可以帮助我们从图片中自动提取化学结构的工具,类似于光学字符识别技术(OCR),这些工具就是利用OCR技术识别图片中的文字,所以不管是各种类型的图片、PDF、扫描版的文档等,都可以通过OCR处理实现电子化,极大地节省了用户的时间。
当前,大多数关于分子数据的出版物都没有提供分子结构的计算机可读格式,如简化分子线性输入规范(Simplified Molecular Input Line Entry System,SMILES)、Connection table等。而现有的提取方法依赖于人工定制的规则和人工设计的识别特征,这些识别规则和特征在常规简单化合物结构提取时可以保持较高的识别率,但在实际应用场景中识别率和准确性都比较低,例如:所处理的图像中化学结构样式复杂、出版物存在不同的风格、存在各类噪声、较低的分辨率不能适应识别需求等各类问题。人工设计的规则和特征难以获取较高的自适应性和泛化性能力,同时各种规则和特征也存在相互依赖关系,如化合物分子式切分、化学键与化学符号特征相互依赖,化学键分割效果不好通常容易导致漏识别或者错误识别。
发明内容
有鉴于此,本发明提供一种基于对抗学习的化合物图像分子结构式提取方法,能够提高化合物图像特征提取的自适应性和泛化性能,并能够融入对化合物生成规则的判定,提高分子结构式提取的识别率、精度和鲁棒性。
为达到上述目的,本发明提供如下技术方案:
基于对抗学习的化合物图像分子结构式提取方法,包含以下步骤:
S1:输入化合物分子式SMILES码数据库,利用化合物图像生成工具生成其对应的化合物图像,构建由化合物图像和SMILES码组成的数据对的数据集;
S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;
S3:将数据集按一定比例分为训练集和测试集,利用训练集数据对对抗网络进行交替训练,并利用测试集数据进行测试;
S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码。
进一步,所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成,具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、随机噪声生成器生成噪声,并与图像特征进行concat连接作为SMILES码解码器的输入向量;(3)、SMILES码解码器对输入向量进行解码操作,生成SMILES码。
进一步,所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成,具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量,该词向量为文本特征;(3)、将图像特征和文本特征输入到全连接层后得到整体特征;(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。
更进一步,步骤(4)所述的三个分类器的构成和分类结果分别为:(一)、由softmax构成的分类器,判定生成的SMILES码是否对应当前化合物图像;(二)、由softmax构成的分类器,判定生成的SMILES码是否与训练集数据对中的SMILES码一致;(三)、由分类树构成的分类器,判定生成的SMILES码是否符合化合物生成规则,即是否为真的SMILES码。
进一步,所述的化合物图像特征提取网络为深度卷积神经网络(CNN网络);所述的SMILES码解码器和SMILES码编码器分别为多级串联的双向长短期记忆人工神经网络(LTSM网络)。
进一步,所述的步骤S3具体为:(1)、人为的将数据集按一定比例分为训练集和测试集;(2)、构建SMILES码判定器的损失函数,并采用训练集进行训练;(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试,使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确,同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布,从而使得SMILES码判定器无法判定对错。
更进一步,所述的SMILES码判定器的损失函数LD为:
LD=log(Sr)+α·log(Sw)+β·log(1-Sf) ①
其中,log(Sr)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度,log(Sw)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度,log(1-Sf)为SMILES码判定器生成的SMILES码的化学生成规则的相似度,α和β为人为设定的0~1范围内的超参数;
所述的交替训练损失函数L为;
L=ES~P[log(D(S))]+Ez~N[log(1-D(G(I,z)))] ②
其中,S表示SMILES码,S~P表示SMILES码对应的化合物图像分布,z~N表示噪声生成器的正态分布,E[·]为期望,D(S)为SMILES码在SMILES码判定器中的判定概率,I为化合物图像,D(G(I,z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。
进一步,化合物分子结构图像都需要进行预处理,具体包含:灰度化处理,以及采用固定均值进行归一化处理,缩放图像大小至固定大小等。
本发明的有益效果在于:本发明提供了一种基于对抗学习的化合物图像分子结构式提取方法,通过端到端的深度卷积网络特征提取和训练方式,具有更高的自适应和泛化能力,利用对抗生成方式进行交替训练,提高了分子结构式提取的识别率,在对抗训练中融入多种判定形式以及对化合物生成规则的判定,提高了分子结构式提取的精度和鲁棒性。
附图说明
为了使本发明的目的、技术方案更加清晰明白,本发明提供如下附图进行说明:
图1为基于对抗学习的化合物图像分子结构式提取方法流程图;
图2为本发明实施例的SMILES码生成器构架图;
图3为本发明实施例的SMILES码判定器结构图。
具体实施方式
为使本发明的目的和技术方案更加清晰明白,下面结合附图及实施例对本发明进行详细的描述。
实施例:
针对现有的期刊数据库进行化合物图像分子结构式提取,本实施例提供一种基于对抗学习的化合物图像分子结构式提取方法。
结合图1,基于对抗学习的化合物图像分子结构式提取方法,包含以下步骤:
S1、构建数据集;
S101,利用化合物图像生成工具RDkit数据库中自带的30万种化合物的分子式SMILES码作为输入的SMILES码数据库;
S102,将数据库中的所有SMILES码,利用RDkit生成2D的化合物结构图像,并进行预处理;
S103,将30万条SMILES码和化合物图像一一对应,组成的<化合物图像,SMILES码>数据对作为数据集。
进一步,所有的化合物分子结构图像都需要进行预处理,具体包含:灰度化处理,以及采用固定均值进行归一化处理,缩放图像大小至固定的300*300大小等。
S2、搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;
S201,建立化合物图像特征提取的CNN网络,具体为:采用传统CNN模型(VGG16、ResNet-50等)中的全连接层部分,并利用大规模图像数据ImageNet进行权重初始化,经过卷积操作和多级池化模块等多种操作,通过一个全连接层得到一个低维度的特征向量,最终得到输入化合物图像I的化合物图像特征向量h,其公式表达式如下:
h=f(I) (2-1)
S202,建立SMILES码解码器和SMILES码编码器的多级串联的双向LTSM网络,并进行权重初始化,SMILES码编码器负责将输入的SMILES码S进行字符串解析成词向量,而SMILES码解码器负责将输入的图像特征向量h和词向量转换为SMILES码S,其公式表达式如下:
S203,结合图2所示,SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成,具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、随机噪声生成器生成服从正态分布的噪声z~N(0,1),并与图像特征进行concat连接作为SMILES码解码器的输入向量;(3)、SMILES码解码器对输入向量进行解码操作,生成SMILES码,其公式表达式如下:
S204,结合图3所示,所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成,具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量,该词向量为文本特征;(3)、将图像特征和文本特征输入到全连接层后得到整体特征;(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。
其中,三个分类器的构成和分类结果分别为:(一)、由softmax构成的匹配程度分类器,判定生成的SMILES码是否对应当前化合物图像;(二)、由softmax构成的识别结果分类器,判定生成的SMILES码是否与训练集数据对中的SMILES码一致;(三)、由分类树构成的化合物SMILES码真假分类器,判定生成的SMILES码是否符合化合物生成规则,即是否为真的SMILES码。
S3、将数据集按一定比例分为训练集和测试集,利用训练集数据对对抗网络进行交替训练,并利用测试集数据进行测试;
具体为:(1)、人为的将数据集按8∶2的比例分为训练集和测试集;(2)、构建SMILES码判定器的损失函数,并采用训练集进行训练,优化SMILES码判定器的参数;(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试,进一步调整SMILES码生成器和SMILES码判定器的参数,使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确,同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布,从而使得SMILES码判定器无法判定对错。
更进一步,所述的SMILES码判定器的损失函数LD为:
LD=log(Sr)+α·log(Sw)+β·log(1-Sf) (3-1)
其中,log(Sr)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度,log(Sw)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度,log(1-Sf)为SMILES码判定器生成的SMILES码的化学生成规则的相似度,α和β为超参数,本实施例中设定为1;
所述的交替训练损失函数L为;
L=ES~P[log(D(S))]+Ez~N[log(1-D(G(I,z)))] (3-2)
其中,S~P表示SMILES码对应的化合物图像分布,z~N表示噪声生成器的正态分布,E[·]为期望,D(S)为SMILES码在SMILES码判定器中的判定概率,D(G(I,z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。
S4:将期刊数据库中需要提取分子结构式的化合物图像输入到训练好的SMILES码生成器中,生成SMILES码。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (6)
1.基于对抗学习的化合物图像分子结构式提取方法,其特征在于,包含以下步骤:
S1:输入化合物分子式SMILES码数据库,利用化合物图像生成工具生成其对应的化合物图像,构建由化合物图像和SMILES码组成的数据对的数据集;
S2:搭建由SMILES码生成器和SMILES码判定器构成的对抗网络,并进行网络权重初始化;
S3:将数据集按一定比例分为训练集和测试集,利用训练集数据对对抗网络进行交替训练,并利用测试集数据进行测试;
S4:将需要提取分子结构式的化合物图像输入到SMILES码生成器,生成SMILES码;
所述的SMILES码生成器由化合物图像特征提取网络、随机噪声生成器、SMILES码解码器构成;所述的SMILES码判定器由化合物图像特征提取网络、SMILES码编码器、全连接层和三个分类器构成;所述的化合物图像特征提取网络为CNN网络;所述的SMILES码解码器和SMILES码编码器分别为多级串联的双向LSTM 网络。
2.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码生成器具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、随机噪声生成器生成噪声,并与图像特征进行concat连接作为SMILES码解码器的输入向量;(3)、SMILES码解码器对输入向量进行解码操作,生成SMILES码。
3.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码判定器具体工作原理为:(1)、化合物图像特征提取网络对化合物图像的图像特征进行提取;(2)、SMILES码编码器将输入的化合物SMILES码进行字符串解析成词向量,该词向量为文本特征;(3)、将图像特征和文本特征输入到全连接层后得到整体特征;(4)将对应的整体特征和数据对分别输入到三个并联的分类器中进行判定。
4.根据权利要求3所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,步骤(4)所述的三个并联的分类器的构成和分类结果分别为:(一)、由softmax构成的分类器,判定生成的SMILES码是否对应当前化合物图像;(二)、由softmax构成的分类器,判定生成的SMILES码是否与训练集数据对中的SMILES码一致;(三)、由分类树构成的分类器,判定生成的SMILES码是否符合化合物生成规则,即是否为真的SMILES码。
5.根据权利要求1所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的步骤S3具体为:(1)、人为的将数据集按一定比例分为训练集和测试集;(2)、构建SMILES码判定器的损失函数,并采用训练集进行训练;(3)、构建交替训练损失函数并分别对SMILES码生成器和SMILES码判定器进行训练和测试,使SMILES码判定器对于SMILES码生成器生成的SMILES码识别越来越精确,同时也使得SMILES码生成器生成的SMILES码越来越靠近真实分布,从而使得SMILES码判定器无法判定对错。
6.根据权利要求5所述的基于对抗学习的化合物图像分子结构式提取方法,其特征在于,所述的SMILES码判定器的损失函数LD为:
LD=log(Sr)+α·log(Sw)+β·log(1-Sf) ①
其中,log(Sr)为SMILES码判定器生成的SMILES码和数据对化合物图像的相似度,log(Sw)为SMILES码判定器生成的SMILES码与数据对SMILES码的相似度,log(1-Sf)为SMILES码判定器生成的SMILES码的化学生成规则的相似度,α和β为人为设定的0~1范围内的超参数;
所述的交替训练损失函数L为;
L=ES~P[log(D(S))]+Ez~N[log(1-D(G(I,z)))] ②
其中,S表示SMILES码,S~P表示SMILES码对应的化合物图像分布,z~N表示噪声生成器的正态分布,E[·]为期望,D(S)为SMILES码在SMILES码判定器中的判定概率,I为化合物图像,D(G(I,z))为SMILES码生成器生成的SMILES码在SMILES码判定器中的判定概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728797.2A CN111860507B (zh) | 2020-07-20 | 2020-07-20 | 基于对抗学习的化合物图像分子结构式提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728797.2A CN111860507B (zh) | 2020-07-20 | 2020-07-20 | 基于对抗学习的化合物图像分子结构式提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860507A CN111860507A (zh) | 2020-10-30 |
CN111860507B true CN111860507B (zh) | 2022-09-20 |
Family
ID=72947100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010728797.2A Expired - Fee Related CN111860507B (zh) | 2020-07-20 | 2020-07-20 | 基于对抗学习的化合物图像分子结构式提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860507B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4364110A1 (en) * | 2021-06-28 | 2024-05-08 | Limited Liability Company Syntelly | Method and system for recognizing chemical information from document images |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777986A (zh) * | 2016-12-19 | 2017-05-31 | 南京邮电大学 | 药物筛选中基于深度哈希的配体分子指纹生成方法 |
CN106874688A (zh) * | 2017-03-01 | 2017-06-20 | 中国药科大学 | 基于卷积神经网络的智能化先导化合物发现方法 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
EP3671553A1 (en) * | 2018-12-19 | 2020-06-24 | Industry Academy Cooperation Foundation Of Sejong University | Method of identification and analysis for materials |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11593660B2 (en) * | 2018-09-18 | 2023-02-28 | Insilico Medicine Ip Limited | Subset conditioning using variational autoencoder with a learnable tensor train induced prior |
-
2020
- 2020-07-20 CN CN202010728797.2A patent/CN111860507B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777986A (zh) * | 2016-12-19 | 2017-05-31 | 南京邮电大学 | 药物筛选中基于深度哈希的配体分子指纹生成方法 |
CN106874688A (zh) * | 2017-03-01 | 2017-06-20 | 中国药科大学 | 基于卷积神经网络的智能化先导化合物发现方法 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
EP3671553A1 (en) * | 2018-12-19 | 2020-06-24 | Industry Academy Cooperation Foundation Of Sejong University | Method of identification and analysis for materials |
CN110751698A (zh) * | 2019-09-27 | 2020-02-04 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
Non-Patent Citations (4)
Title |
---|
Crystalgan: learning to discover crystallographic structures with generative adversarial networks;Nouira A 等;《arXiv preprint arXiv:1810.11203》;20190525;1-2 * |
基于半监督深度生成对抗网络的图像识别方法;曾琦 等;《测控技术》;20191010;第38卷(第8期);37-42 * |
基于双路注意力机制的化学结构图像识别;季秀怡等;《计算机工程》;20191118(第09期);213-220 * |
自动提取化学分子结构静态图像的交点信息;管燕 等;《计算机与应用化学》;20120428;第29卷(第4期);499-502 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860507A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113220919B (zh) | 一种大坝缺陷图像文本跨模态检索方法及模型 | |
CN112801010B (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN110781672A (zh) | 基于机器智能的题库生产方法及系统 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN114706559A (zh) | 一种基于需求识别的软件规模度量方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116644339B (zh) | 一种信息归类方法及系统 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN111860507B (zh) | 基于对抗学习的化合物图像分子结构式提取方法 | |
CN113704473B (zh) | 基于长文本特征提取优化的媒体假新闻检测方法及系统 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN118093689A (zh) | 基于rpa多模态文档解析与结构化处理系统 | |
Awal et al. | Improving online handwritten mathematical expressions recognition with contextual modeling | |
Wang et al. | Robust recognition of Chinese text from cellphone-acquired low-quality identity card images using convolutional recurrent neural network. | |
CN118467768B (zh) | 基于大模型高级语义图嵌入的快速图像检索方法及系统 | |
CN118279925B (zh) | 一种融合局部和全局语义的图像文本匹配算法 | |
CN114138995B (zh) | 基于对抗学习的小样本跨模态检索方法 | |
CN118095254A (zh) | 一种多特征融合的文本相似度判定方法 | |
Liu et al. | Research on multiple hybrid characters based on ctc algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220920 |