CN110648763A

CN110648763A - 利用人工智能进行光谱分析以进行肿瘤评估的方法及设备

Info

Publication number: CN110648763A
Application number: CN201910934131.XA
Authority: CN
Inventors: 张胜甲; 刘承惠; 吴斌麟
Original assignee: Jiangsu Raman Medical Equipment Co Ltd
Current assignee: Jiangsu Raman Medical Equipment Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-03

Abstract

本发明提供了一种利用人工智能进行光谱测量以进行肿瘤评估的方法及设备。对预先准备的人体组织进行光谱分析以获取所述预先准备的人体组织的光谱数据；对获取的所述预先准备的光谱数据进行处理以得到光谱的量化特征；基于处理后得到的光谱数据的量化特征，利用监督式机器学习方法，训练一个分类器；针对待评估的人体组织，采用第一步骤中使用光谱测量来获取所述待评估的人体组织的光谱数据；采用第二步骤中的处理方法，对所述待评估的人体组织的光谱数据进行处理以得到其量化特征；采用第三步骤训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态和级别。

Description

利用人工智能进行光谱分析以进行肿瘤评估的方法及设备

技术领域

本发明涉及人工智能领域，具体涉及一种利用人工智能进行光谱分析以进行肿瘤评估的方法及设备。

背景技术

一直以来，无论哪种肿瘤，一直期待强调及早发现的重要性。一般，都是采用影像学检查对于肿瘤进行评估和筛选。对于肿瘤患者来说，影像是肿瘤评估的关键。具体地，一般通过将形态影像学和功能影像学的结合，包括PET/CT、功能MRI、功能CT等，由此进行肿瘤评估。

但是，因为光谱的数据复杂，信息丰富，而且光谱测量速度快，仪器价格相对便宜，所以采用光谱分析技术，综合考虑所有的数据，辨认其中的重要的特征信息，具有其独特的优势，但是对样品作出判别是非常困难的事情。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供利用人工智能进行光谱分析以进行肿瘤评估的方法。

根据本发明，提供了一种利用人工智能进行光谱分析以进行肿瘤评估的方法，包括：

第一步骤：对预先准备的人体组织进行光谱测量以获取所述预先准备的人体组织的光谱数据；

第二步骤：对获取的所述预先准备的光谱数据进行处理以获得其量化特征；

第三步骤：基于处理后得到的光谱数据的量化特征，利用监督式机器学习方法，训练一个分类器；

第四步骤：针对待评估的人体组织，采用第一步骤中使用光谱测量来获取所述待评估的人体组织的光谱数据；

第五步骤：采用第二步骤中的处理方法，对所述待评估的人体组织的光谱数据进行处理以获得量化特征；

第六步骤：采用第三步骤训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态。

优选地，所述利用人工智能进行光谱分析以进行肿瘤评估的方法还包括：在判断所述待评估的人体组织存在肿瘤时，采用第三步骤训练好的分类器评估所述待评估的人体组织的肿瘤级别。

优选地，所述处理后得到的光谱数据的特征包括下述特征中的一种或多种：第一种特征是一系列人体组织内部关键分子的指纹峰的峰值；第二种特征是采用所述峰值选择性地算得的一系列比值；第三种特征是用多重变量分析的方法对光谱进行线性分解而得到一系列的分量谱的叠加系数。

优选地，对光谱进行线性分解包括：

先用历史数据作为标记好的训练范例，分解出基本成分谱；

将所有的光谱数据都存在一个矩阵X里，其中X为m行n列，行数m为频率或波长数据，列数n为光谱数目，X矩阵里的每一列为一个真实谱；

利用线性分解法将X分解为两个矩阵的乘积，X＝WH，其中W为m行r列的矩阵，H为r行n列的矩阵，W矩阵的每列代表基本成分谱，X矩阵里的每一个真实谱被分解成一系列基本成分谱的线性叠加，H矩阵的每列为一个真实谱分解后的叠加系数；

从一系列的叠加系数里选取一部分作为最优的成分组成分类特征。

优选地，第六步骤包括：对光谱数据x’进行投影并分解为从历史数据里算得的基本成分谱的线性叠加，其数学式子为：h’＝pinv(W)x’，其中pinv(W)为矩阵W的赝逆，其式子为：pinv(W)＝(W^TW)^-1W^T，其中^T表示转置，^-1表示矩阵的逆；h’里包含了把真实谱分解为基本成分谱所得的一系列线性叠加系数；从h’里选取同样的最优成分；基于选取的最优成分，利用训练好的分类器来评估此所述待评估的人体组织的肿瘤状态和其级别。

优选地，多重变量分析方法采用主成分分析方法、偏最小二乘法方法或者非负矩阵分解方法。

优选地，对获取的所述预先准备的光谱数据进行处理包括光谱预处理。

优选地，光谱预处理包括光滑处理、去背底处理、归一化处理中的一种或多种。

优选地，所述分类器是支持向量机、判别分析或者K-近邻算法的分类器。

另一方面，本发明还提供了一种利用人工智能进行光谱分析以进行肿瘤评估的设备，包括：

第一单元，用于对预先准备的人体组织进行光谱测量以获取所述预先准备的人体组织的光谱数据；

第二单元，用于对获取的所述预先准备的光谱数据进行处理以获得其量化特征；

第三单元，用于基于处理后得到的光谱数据的量化特征，利用监督式机器学习方法，训练一个分类器；

第四单元，用于针对待评估的人体组织，采用第一单元中使用光谱测量来获取所述待评估的人体组织的光谱数据；

第五单元，用于采用第二单元中的处理方法，对所述待评估的人体组织的光谱数据进行处理以获得其量化特征；

第六单元，用于采用第三单元训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态和其级别。

本发明采用样品的光谱数据对样品进行定量的分析和分类，根据产生的结果，可以给出一个样品离分类边界的距离，以供医生作参考。本发明用机器学习的方法寻找大数据里的特征信息，由人工智能来判断样品；相对传统的肿瘤评估方法，这样可以建立统一的定量的标准，增加客观性，而且速度快。本发明的方法操作灵活，本发明可以很容易结合多种不同的特征，综合起来，定量的作出判别。通过人工智能参测到的特征信息，本发明还可以对样品在分子水平上的性质提供关键信息。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的利用人工智能进行光谱分析以进行肿瘤评估的方法的总体流程图。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

如图1所示，根据本发明优选实施例的利用人工智能进行光谱分析以进行肿瘤评估的方法包括：

第一步骤S1：对预先准备的人体组织进行光谱测量以获取所述预先准备的人体组织的光谱数据；

其中，光谱数据可以是拉曼光谱数据和/或荧光光谱数据。

其中，人体组织可以是体内人体组织和/或体外人体组织。

而且，预先准备的人体组织的数量足以用作训练分类器。

第二步骤S2：对获取的所述预先准备的光谱数据进行处理以获得量化特征；

第三步骤S3：基于处理后得到的光谱数据的量化特征，利用监督式机器学习方法，训练一个分类器；

第四步骤S4：针对待评估的人体组织，采用第一步骤中使用光谱测量来获取所述待评估的人体组织的光谱数据；

第五步骤S5：采用第二步骤中的处理方法，对所述待评估的人体组织的光谱数据进行处理以得到量化特征；

第六步骤S6：采用第三步骤训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态。

优选地，在判断所述待评估的人体组织存在肿瘤时，执行第七步骤S7：采用第三步骤训练好的分类器评估所述待评估的人体组织的肿瘤级别。

在另一优选实施例中，本发明还提供了一种利用人工智能进行光谱分析以进行肿瘤评估的设备，包括：

第二单元，用于对获取的所述预先准备的光谱数据进行处理以获得量化特征；

第五单元，用于采用第二单元中的处理方法，对所述待评估的人体组织的光谱数据进行处理以获得量化特征；

第六单元，用于采用第三单元训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态。

第七单元，用于采用第三步骤训练好的分类器评估所述待评估的人体组织的肿瘤级别。

<具体示例>

对获取的所述预先准备的光谱数据进行处理包括光谱预处理；例如，光谱预处理包括光滑(去噪音)处理、去背底(对于拉曼光谱)处理、归一化处理等。

此后，根据光谱的数据建立一系列的特征用来分类。本发明采用的特征可以是下面这些特征中的一种或者几种的集合。第一种特征是一系列组织内部关键分子的指纹峰的峰值；第二种特征是用上述峰值选择性地算得一系列比值；第三种特征是用多重变量分析的方法对光谱进行线性分解，从而得到一些列的分量谱及其叠加系数(相对含量)，而这些相对含量将作为分类使用的特征。

本发明使用的多重变量分析方法可采用主成分分析(principal componentanalysis，PCA)，偏最小二乘法(partial least squares，PLS)，非负矩阵分解(nonnegative matrix factorization，NMF)等方法。分类器可以选用支持向量机(supportvector machine，SVM)，判别分析(discriminant analysis，DA)，或者K-近邻算法(k-nearest neighbor，KNN)的分类器。

对光谱进行线性分解包括：

先用大量的历史数据作为标记好的训练范例，分解出基本成分谱；

然后，在已知标记的情况下对这些训练范例进行分类，训练好一个分类器。当需要对一个新的谱x’进行分类时，把光谱数据x’投影到从历史数据里算得的基本成分谱而分解成基本成分谱的线性叠加，其数学式子为：h’＝pinv(W)x’，其中pinv(W)为矩阵W的赝逆，其式子为：pinv(W)＝(W^TW)^-1W^T，其中^T表示转置，^-1表示矩阵的逆；h’里包含了把真实谱分解为基本成分谱所得的一系列线性叠加系数；从h’里选取同样的最优成分；用训练好的分类器来判断这个新的光谱来源的性质，即组织的类别，如是否恶性肿瘤，和具体的肿瘤级别。

也就是说，在这种情况下，第六步骤包括：对光谱数据x’进行投影并分解为从历史数据里算得的基本成分谱的线性叠加，其数学式子为：h’＝pinv(W)x’，其中pinv(W)为矩阵W的赝逆，其式子为：pinv(W)＝(W^TW)^-1W^T，其中^T表示转置，^-1表示矩阵的逆；h’里包含了把真实谱分解为基本成分谱所得的一系列线性叠加系数；从h’里选取同样的最优成分；基于选取的最优成分，利用训练好的分类器来评估此所述待评估的人体组织的肿瘤状态。

在使用PLS时，对原始数据的预处理还包含中心化(mean centering)，也就是对所有样品光谱计算出一个平均谱，然后从每个谱里扣除这个平均谱。

对于荧光谱，上述的分析过程基本相同。在对荧光谱预处理时，不需要扣除背底。

主成分分析(principal component analysis，PCA)

PCA利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分(Principal Components，PCs)。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向。主成分不相关也就是互相正交。沿着第一个主成分的方向，数据的方差最大。然后依次递减。在作PCA的时候，可以对数据X的协方差矩阵解本征值方程。具体地，首先对数据X中心化，表示为X₀，协方差矩阵为X₀X₀ ^T。求得的本征向量就是代表主成分的方向，也被叫做负荷向量(PC loadings)，存为矩阵W里的列。然后把原始数据X投影到主成分上，得到主成分分数(PCscores)，也就是一组线性叠加系数，存在H矩阵里。H＝pinv(W)X＝W^TX。因为本征向量是正交归一的，所以pinv(W)＝W^T。W矩阵也可以只保留一部分主成分，算出分数，用来分类。在实际操作中，求本征向量可以通过对X₀进行奇异值分解得到。X₀＝WΣV^T。其中W和V为左右奇异向量，而Σ是一个对角矩阵，包含了一系列的奇异值。W就是对X主成分分析的本征向量。

偏二乘法(partial least squares，PLS)

偏最小二乘法和主成分分析很相似。不同的是PLS涉及两个矩阵X和Y。假设X和Y是中心化后的矩阵。PLS将将X矩阵作为预测元变量，而Y为响应变量。把响应变量Y设置为原始数据的类别标记。PLS将X和Y矩阵之间的关系表示为。

X＝TP^T+E

Y＝UQ^T+F

其中T和U为X分数和Y分数矩阵，P和Q为正交载荷矢量，E和F为误差项。PLS寻找和Y相关的X的分量，也就是寻找一对线性变化使得X和Y在变换之后的协方差最大。具体的计算可以通过下面的伪代码实现。

1)初始化矩阵u

2)w＝X^Tu(u^Tu)-1

3)t＝Xw

4)c＝Y^Tt(t^Tt)^-1

5)||c||->1

6)u＝Yc

7)重复步骤2-6直到满足收敛的条件。

PLS拟合出来的分数矩阵T包含了每个光谱的一组分数。一个或多个分数可以作为分类特征用来训练分类器。训练好之后，可以对新数据进行分类。而当对新的数据分类时，先将新的谱做预处理，包括中心化，然后把新的数据投影到PLS的载荷矢量P上，得到新数据的分数。然后用训练好的分类器对新数据分类。

偏最小二乘判别分析(PLS-DA)

另外一种特殊的PLS方法称为偏最小二乘判别分析(PLS-DA)。此时PLS-DA就是一种监督化的分析。如果用PLS-DA的分析方法，首先用历史数据做PLS-DA。当有新的数据时，将新数据做完预处理后，求得新的y来判断新数据的属性。具体操作可以通过如下步骤完成。假设，X和Y都是中心化的矩阵。

Y＝XB+F

X＝TP^T+E

Y＝TQ^T+F

定义一个比重函数W，使得

T＝XW(P^TW)^-1,

于是，

Y＝XW(P^TW)^-1Q^T+F。

所以，拟合得到的矩阵B为

B＝W(P^TW)^-1Q^T。

对于一个新的光谱数据x’，其对应的y值可以通过下面的计算来估计

y’＝x’B＝x’W(P^TW)^-1Q^T。

y’给出的就是这个新数据对应的样品的种类。

上述步骤里的W，T，P，Q可以通过下面伪代码得到。

1)设定一个P值，初始化误差矩阵E和F为E₀＝X，F₀＝Y。

2)for p＝1到P，do

3)计算PLS比重矢量W

W_p＝E₀ ^TF₀；

4)计算并归一分数矢量

T_p＝E₀W_p(W_p ^TE₀ ^TE₀W_p)^-1/2；

5)计算X载荷矢量

P_p＝E₀ ^TT_p；

6)计算Y载荷矢量

Q_p＝F₀ ^TT_p；

7)更新X误差矩阵

E₀＝E₀-T_pP_p ^T；

8)更新Y误差矩阵

F₀＝F₀-T_pQ_p ^T；

9)end for

10)得到W，T，P，Q矩阵

非负矩阵分解(nonnegative matrix factorization，NMF)

NMF是另一种对矩阵(信号)进行分解的方法：X＝WH。和PCA，PLS不同的是，NMF在拟合的时候，在要求误差小的同时，只要求信号本身为非负，而分解出来的矩阵W和H也都是非负。因为采用的光信号，物质的含量，都应该是非负的。所以NMF有时可以得到样品中特定化学成分的真实光谱，以及其相对含量。这是NMF的优势。

支持向量机(support vector machine，SVM)

不管对于上面哪种方法得到需要分类的特征，都可以用SVM来分类。可以把一种特征，或者多种特征综合起来进行分类。SVM的基本思想是寻找一个超平面以最大距离隔开两组不同的数据，或者说寻找两组数据之间的最佳边界。之所以称为超平面是因为，这个数据可以是一维，二维或多维。一维的超平面就是一根线。而这个最远的超平面是以平面到所谓的支持向量的距离来衡量的。而支持向量其实就是两组数据之间最近的数据点。实际上，这是理想情况。因为真实的两组数据可能有重叠的部分。此时，称这个两组数据之间的间隔为软间隔。在拟合的时候，需要加入一个损失函数来考虑误判的数据。另外在寻找最大间隔的时候，可以采用不同的核函数而产生不同的间隔计算方法和边界的形状。这个核函数可以是线性的，也可以是多项式，或者高斯径向基函数等等。

<技术效果>

本发明的优点至少包括：

1.本发明采用的是用样品的光谱数据对样品进行定量的分析和分类，根据产生的结果，甚至可以给出一个样品离分类边界的距离给医生作参考。

2.如背景技术中所述，因为光谱的数据复杂，信息丰富，所以综合考虑所有的数据，辨认其中的重要的特征信息，对样品作出判别是非常困难的事情。本发明用机器学习的方法寻找大数据里的特征信息，由人工智能来判断样品。相对传统的肿瘤评估方法，这样可以建立统一的定量的标准，增加客观性，而且速度快。

3.本发明的方法操作灵活，本发明可以很容易结合多种不同的特征，综合起来，定量的作出判别。

4.通过人工智能参测到的特征信息，本发明还可以对样品在分子水平上的性质提供关键信息。

需要说明的是，除非特别指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于包括：

第二步骤：对获取的所述预先准备的光谱数据进行处理以得到光谱的量化特征；

第五步骤：采用第二步骤中的处理方法，对所述待评估的人体组织的光谱数据进行处理以得到其量化特征；

第六步骤：采用第三步骤训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态和级别。

2.根据权利要求1所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于还包括：在判断所述待评估的人体组织存在肿瘤时，采用第三步骤训练好的分类器评估所述待评估的人体组织的肿瘤级别。

3.根据权利要求1或2所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，所述处理后得到的光谱数据的量化特征包括下述特征中的一种或多种：第一种特征是一系列人体组织内部关键分子的指纹峰的峰值；第二种特征是采用所述峰值选择性地算得的一系列比值；第三种特征是用多重变量分析的方法对光谱进行线性分解而得到一系列的分量谱的叠加系数。

4.根据权利要求3所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，对光谱进行线性分解包括：

先用历史数据作为标记好的训练范例，分解出基本成分谱；

5.根据权利要求4所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，第六步骤包括：对光谱数据x’进行投影并分解为从历史数据里算得的基本成分谱的线性叠加，其数学式子为：h’＝pinv(W)x’，其中pinv(W)为矩阵W的赝逆，其式子为：pinv(W)＝(W^TW)^-1W^T，其中^T表示转置，^-1表示矩阵的逆；h’里包含了把真实谱分解为基本成分谱所得的一系列线性叠加系数；从h’里选取同样的最优成分；基于选取的最优成分，利用训练好的分类器来评估此所述待评估的人体组织的肿瘤状态及其级别。

6.根据权利要求3所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，多重变量分析方法采用主成分分析方法、偏最小二乘法方法或者非负矩阵分解方法。

7.根据权利要求1或2所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，对获取的所述预先准备的光谱数据进行处理包括光谱预处理。

8.根据权利要求7所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，光谱预处理包括光滑处理、去背底处理、归一化处理中的一种或多种。

9.根据权利要求1或2所述的利用人工智能进行光谱分析以进行肿瘤评估的方法，其特征在于，所述分类器是支持向量机、判别分析或者K-近邻算法的分类器。

10.一种利用人工智能进行光谱分析以进行肿瘤评估的设备，其特征在于包括：

第五单元，用于采用第二单元中的处理方法，对所述待评估的人体组织的光谱数据进行处理；

第六单元，用于采用第三单元训练好的分类器对处理后的所述待评估的人体组织的光谱数据进行分类，从而评估此所述待评估的人体组织的肿瘤状态及级别。