CN115114970A

CN115114970A - 基于smiles的机器学习方法及系统

Info

Publication number: CN115114970A
Application number: CN202110290375.6A
Authority: CN
Inventors: 温晓东; 谭胖; 刘秀磊; 刘晓彤
Original assignee: Shanxi Institute of Coal Chemistry of CAS
Current assignee: Shanxi Institute of Coal Chemistry of CAS
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-09-27

Abstract

本发明提出一种基于SMILES的机器学习方法，包括：将SMILES字符串转化为多个BASE64字符；通过One‑Hot编码获取该BASE64字符的向量矩阵；将该向量矩阵作为训练集，对机器学习模型训练以进行化学任务。以及一种基于SMILES的机器学习系统，和一种数据处理装置。采用了本方法预处理后得到的字符串相较于原SMILES包含了更多的信息，其不仅包含字符信息还包含字符之间的隐含信息。将本方法应用到基于SMILES的新型分子设计、分子属性预测等化学任务中时，可以提取出更多的分子特征，提高了模型重构分子及分子属性预测的精度。

Description

基于SMILES的机器学习方法及系统

技术领域

本发明属于机器学习技术领域，具体涉及一种基于SMILES的机器学习方法和系统。

背景技术

简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification，SMILES)字符串被广泛应用于分子描述领域，由DavidWeininger创建于1986年，其利用单行文本描述分子结构，属于典型的“线性符号”。得益于简单的语法和较短的文本，SMILES是如今在分子描述领域采用最广泛的字符串符号。SMILES根据特定的规则及化学符号将化学结构转化成字符串，采用简化的手性规范(@或@@)区分分子立体结构，符号“@”表示以下原子按逆时针列出，符号“@@”表示以下原子按顺时针列出。除此之外，SMILES还可以表示分支、循环等结构。表1展示了5种不同的分子对应的SMILES。

分子	SMILES字符串
		乙烷	CC
二氧化碳	O＝C＝O
		乙酸	CC(＝O)O
苯	c1ccccc1
		苯酚	Oc1ccccc1

表1

当利用SMILES数据进行某些化学任务时，如新型分子设计以及分子属性预测等，需要将SMILES数据通过某些编码方式(如One-hot编码)转换为向量的形式，以输入机器学习模型进行训练。

中国国家发明“一种基于SMILES的定量构效方法和装置”(申请公布号：CN111312340A，申请日：2020年6月19日)，提出了一种基于SMILES的属性预测模型，通过将SMILES字符串转化为相应的One-Hot数字编码，并采用Embedding层对One-Hot数字编码进行处理。

中国国家发明“基于双向长短记忆模型的药物小分子活性预测的方法和系统”(申请公布号：CN111640471A，申请日：2020年9月8日)，提出一种基于双向长短记忆模型的药物小分子活性预测的方法，利用SMILES数据训练模型，预处理过程中对所有分子的SMILES表达式做标准化处理，然后对预处理的数据集进行One-hot编码。

传统的One-hot编码SMILES的过程如图1所示。图1中可以看出，首先将分子结构转换为SMILES，然后遍历全部SMILES，将不同的字符组合成不重复字符集(Charset)。随后遍历每一个SMILES，对于每一个字符，建立一个长度与Charset长度相同且值全为0的数组，并找到该字符在Charset中的位置，将数组中对应位置的值置为1，每一个SMILES由多个(SMILES长度)这种类型的数组集合表示。可以很明显的看出，One-hot编码方法在编码SMILES的过程中只能提取到字符信息，无法对字符之间的隐含语义进行处理，One-hot矩阵只包含每一个字符的信息，不包含字符之间的信息。这就限制了基于SMILES的机器学习任务的性能。

发明内容

为解决上述问题，本发明通过BASE64编码技术对化学分子对应的SMILES进行预处理，以提取出SMILES字符间的隐含语义，提升基于SMILES的机器学习任务的性能，本发明的机器学习方法具体包括：将SMILES字符串转化为多个BASE64字符；通过One-Hot编码获取该BASE64字符的向量矩阵；将该向量矩阵作为训练集，对机器学习模型训练以进行化学任务。

本发明所述的机器学习方法，其中获得该BASE64字符的步骤包括：将该SMILES字符串的每个字符转化为以ASCII二进制编码表示的第一字节；将所有该第一字节转化为以BASE64二进制编码表示的第二字节；将该第二字节生成对应的十进制BASE64编码索引，并获得对应的BASE64字符。

本发明所述的机器学习方法，其中获取该第二字节的步骤包括：以由前至后的顺序选取3个相邻的第一字节，依次进行首尾连接得到24位字节，将该24位字节平均划分为4个6位字节，并在每个6位字节的头部增加2位的0以获得该第二字节；遍历所有该第一字节；当剩余的第一字节不足3个时，将剩余的第一字节依次进行首尾连接并以0补满24位得到该24位字节。

本发明所述的机器学习方法，其中该化学任务包括：基于SMILES的新型分子设计任务，和基于SMILES的分子属性预测任务。

本发明还提出一种基于SMILES的机器学习系统，包括：预处理模块，用于将SMILES字符串转化为多个BASE64字符；数据提取模块，用于通过One-Hot编码获取该BASE64字符的向量矩阵；模型训练模块，用于将该向量矩阵作为训练集，对机器学习模型训练以进行化学任务。

本发明所述的机器学习系统，其中该预处理模块包括：第一转化模块，用于将该SMILES字符串的每个字符转化为以ASCII二进制编码表示的第一字节；第二转化模块，用于将所有该第一字节转化为以BASE64二进制编码表示的第二字节；第三转化模块，用于将该第二字节生成对应的十进制BASE64编码索引，并获得对应的BASE64字符。

本发明所述的机器学习系统，其中该第二转化模块具体包括：划分模块，用于划分该第一字节以获取该第二字节，其中，以由前至后的顺序选取3个相邻的第一字节，依次进行首尾连接得到24位字节，将该24位字节平均划分为4个6位字节，并在每个6位字节的头部增加2位的0以获得该第二字节；遍历模块，用于调用该划分模块遍历所有该第一字节，并当剩余的第一字节不足3个时，将剩余的第一字节依次进行首尾连接并以0补满24位得到该24位字节。

本发明所述的机器学习系统，其中该化学任务包括：基于SMILES的新型分子设计任务，和基于SMILES的分子属性预测任务。

本发明还提出一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如前所述的基于SMILES的机器学习方法。

本发明还提出一种数据处理装置，包括如前所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，执行基于SMILES的机器学习以进行化学任务。

附图说明

图1是现有技术的One-hot编码SMILES过程示意图。

图2是本发明的基于SMILES的机器学习方法流程图。

图3是本发明的基于SMILES的机器学习方法效果示意图。

图4是本发明的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

本发明设计了基于BASE64编码技术的SMILES预处理方法。该方法可以在One-hot编码SMILES之前对SMILES进行预处理，提取出SMILES字符间的隐含语义，以提高SMILES的机器学习任务的性能。

BASE64是网络上最常见、也是最基本的用于传输8bit字节代码的二进制编码方式，用来将非ASCII字符的数据转换成ASCII字符的一种方法。它用64个可打印字符(包括a-z、A-Z、0-9、/、+)来表示二进制数据0-63(如表2所示)。

索引	对应字符	索引	对应字符	索引	对应字符	索引	对应字符
								0	A	16	Q	32	g	48	w
1	B	17	R	33	h	49	x
								2	C	18	S	34	i	50	y
3	D	19	T	35	j	51	z
								4	E	20	U	36	k	52	0
5	F	21	V	37	l	53	1
								6	G	22	W	38	m	54	2
7	H	23	X	39	n	55	3
								8	I	24	Y	40	o	56	4
9	J	25	Z	41	p	57	5
								10	K	26	a	42	q	58	6
11	L	27	b	43	r	59	7
								12	M	28	c	44	s	60	8
13	N	29	d	45	t	61	9
								14	O	30	e	46	u	62	+
15	P	31	f	47	v	63	/

表2

BASE64编码工作方式是将三个8位字节转化为四个6位字节的数据编码过程，之后在6位的前面补两个0，形成8位一个字节的形式。三个字节有24位，刚好对应于四个以6为单位的BASE64单元，三个传统字节可以由四个BASE64字符值来表示，保证有效位数是相同的，所以BASE64编码后的字符串一定能被4整除。BASE64在数据编码转换过程中，将3字节的输入数据，先后放入一个24位的缓冲区中，先来的字节占高位。数据不足3字节的话，缓冲区中剩下的位用0补足。然后每次取出6个位，计算二进制所对应的索引值，对照BASE64编码表的字符作为加密后的编码输出。反复执行上述操作，直到全部输入数据转换完成，所以实际加密后的数据量是加密前数据量的三分之四。

图2是本发明的基于SMILES的机器学习方法流程图。如图2所示，本发明的机器学习方法具体包括：

步骤S1、将目标分子的SMILES字符串转化为多个BASE64字符；

步骤S11、将目标分子的SMILES字符串中每个字符转化为以ASCII二进制编码表示的8位字节，例如“C”转化为“01000011”；

步骤S12、将得到的所有ASCII编码8位字节转化为以BASE64二进制编码表示的8位字节；

其中，按照ASCII编码8位字节由前至后的顺序，每次选取3个相邻的ASCII编码8位字节放入一个24位的缓冲区中，并保持字节顺序，然后分4次、每次由前至后从缓冲区中取出6个位，在这6个位前补两个0，形成一个8位字节，这个8位字节就是以BASE64二进制编码表示的8位字节；遍历所有ASCII编码8位字节，以得到所有ASCII编码8位字节对应的BASE64编码8位字节；如果剩余的ASCII编码8位字节不足3个时，将剩余的ASCII编码8位字节放入缓冲区，并以0补足24位缓冲区中剩下的位；

步骤S13、将BASE64编码8位字节转化为对应的十进制BASE64编码索引，并对照BASE64编码表的字符获得对应的BASE64字符；

步骤S2、通过One-Hot编码获取BASE64字符的向量矩阵；该步骤中，One-Hot编码BASE64字符的过程与One-hot编码SMILES过程一致，此处不再赘述；

步骤S3、将One-Hot编码BASE64字符获得向量矩阵作为训练集，对机器学习模型训练以进行化学任务，例如，进行基于目标分子SMILES数据的新型分子设计任务，或基于目标分子SMILES数据的分子属性预测任务等。

下面通过BASE64编码一个较短字符串的流程展示本发明的具体实施方法，表3是BASE64编码字符串“CCc”的对应转化过程：

表3

从表3中可以看出，首先将“CCc”转为ASCII编码，然后转化为二进制表示，再每6个为一组，(在前面加上2位的0)形成BASE64二进制，再将BASE64二进制转化为十进制索引，最后按照索引从BASE64编码表中找到对应字符。这里可以很明显的看出，字符“0N”包含了字符“CCc”中第二个“C”的信息以及其与周围字符(第一个“C”和第三个“c”)之间的隐含信息。

在具体的化学任务中，例如在基于变分自编码器(Variational Auto-Encoder，VAE)模型的新型分子设计任务中，利用BASE64方法在one-hot编码SMILES之前，对SMILES进行预处理，提取出SMILES字符间的隐含信息，然后再对BASE64编码后的字符串进行one-hot编码，之后将one-hot编码后的矩阵输入VAE模型进行分子重构，结果如表4所示：

方法	重构精度	非填充字符的重构精度
			现有技术的方法	98.14％	95.08％
本发明的方法	98.53％	96.33％

表4

表4中可以看到，经过BASE64编码的方法对于VAE的性能有所提升，模型验证集重构精度从98.14％提升到了98.53％，非填充字符的重构精度从95.08％提升到了96.33％。这表明BASE64编码方法有效提取出了SMILES字符间的隐含语义。

此外，为了排除填充字符对重构精度的影响，在具体化学任务中选取固定长度的SMILES进行实验，对数据集中的SMILES长度进行统计，发现长度在40到50之间的SMILES数量最多。因此，选取长度分别为42、44、46、48、50的SMILES，然后采用本方法进行提取字符间信息，再进行分子重构实验。得到的结果如图3所示。图3中可以看出，使用了BASE64方法的模型在重构率上都有了明显提高。这充分表明了基于SMILES的机器学习方法中通过BASE64编码技术对SMILES字符进行预处理能够有效提取出SMILES字符间信息。

本发明的基于SMILES的机器学习方法不仅可以应用到上述的新型分子设计领域，还能应用到分子属性预测领域，例如首先利用BASE64编码方法提取SMILES字符间信息，然后利用One-hot编码将字符串转化为向量数据，随后构建一个机器学习回归模型，将向量数据输入机器学习模型训练出分子属性预测模型。

图4是本发明的数据处理装置示意图。如图4所示，本发明实施例还提供一种计算机可读存储介质，以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被数据处理装置的处理器执行时，实现上述基于SMILES的机器学习方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

采用了本方法预处理后得到的字符串相较于原SMILES包含了更多的信息，其不仅包含字符信息还包含字符之间的隐含信息。将本方法应用到基于SMILES的新型分子设计、分子属性预测等化学任务中时，可以提取出更多的分子特征，提高了模型重构分子及分子属性预测的精度。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于SMILES的机器学习方法，其特征在于，包括：

将SMILES字符串转化为多个BASE64字符；

通过One-Hot编码获取该BASE64字符的向量矩阵；

将该向量矩阵作为训练集，对机器学习模型训练以进行化学任务。

2.如权利要求1所述的机器学习方法，其特征在于，获得该BASE64字符的步骤包括：

将该SMILES字符串的每个字符转化为以ASCII二进制编码表示的第一字节；

将所有该第一字节转化为以BASE64二进制编码表示的第二字节；

将该第二字节生成对应的十进制BASE64编码索引，并获得对应的BASE64字符。

3.如权利要求2所述的机器学习方法，其特征在于，获取该第二字节的步骤包括：

以由前至后的顺序选取3个相邻的第一字节，依次进行首尾连接得到24位字节，将该24位字节平均划分为4个6位字节，并在每个6位字节的头部增加2位的0以获得该第二字节；

遍历所有该第一字节；当剩余的第一字节不足3个时，将剩余的第一字节依次进行首尾连接并以0补满24位得到该24位字节。

4.如权利要求1所述的机器学习方法，其特征在于，该化学任务包括：

基于SMILES的新型分子设计任务，和基于SMILES的分子属性预测任务。

5.一种基于SMILES的机器学习系统，其特征在于，包括：

预处理模块，用于将SMILES字符串转化为多个BASE64字符；

数据提取模块，用于通过One-Hot编码获取该BASE64字符的向量矩阵；

模型训练模块，用于将该向量矩阵作为训练集，对机器学习模型训练以进行化学任务。

6.如权利要求5所述的机器学习系统，其特征在于，该预处理模块包括：

第一转化模块，用于将该SMILES字符串的每个字符转化为以ASCII二进制编码表示的第一字节；

第二转化模块，用于将所有该第一字节转化为以BASE64二进制编码表示的第二字节；

第三转化模块，用于将该第二字节生成对应的十进制BASE64编码索引，并获得对应的BASE64字符。

7.如权利要求6所述的机器学习系统，其特征在于，该第二转化模块具体包括：

划分模块，用于划分该第一字节以获取该第二字节，其中，以由前至后的顺序选取3个相邻的第一字节，依次进行首尾连接得到24位字节，将该24位字节平均划分为4个6位字节，并在每个6位字节的头部增加2位的0以获得该第二字节；

遍历模块，用于调用该划分模块遍历所有该第一字节，并当剩余的第一字节不足3个时，将剩余的第一字节依次进行首尾连接并以0补满24位得到该24位字节。

8.如权利要求5所述的机器学习系统，其特征在于，该化学任务包括：

9.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如权利要求1～4任一项所述的基于SMILES的机器学习方法。

10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，执行基于SMILES的机器学习以进行化学任务。