CN110211697A

CN110211697A - 基于svm模型的消化内科电子数据分析方法

Info

Publication number: CN110211697A
Application number: CN201910454835.7A
Authority: CN
Inventors: 王亚雷; 丁帅; 冯慧; 李霄剑; 赵媛媛; 胡世康
Original assignee: Hefei University of Technology; First Affiliated Hospital of Anhui Medical University
Current assignee: Hefei University of Technology; First Affiliated Hospital of Anhui Medical University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06
Anticipated expiration: 2039-05-29
Also published as: CN110211697B

Abstract

本发明实施例公开一种基于SVM模型的消化内科电子数据分析方法，包括：获取非齐次泊松过程NHPP类疾病分析可靠性增长模型，训练支持向量机SVM模型，以模型准确率为评估指标，将疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型进行肠癌判断。本发明实施例能够对消化内科电子数据进行分析，得到更精确的肠癌判断结果。

Description

基于SVM模型的消化内科电子数据分析方法

技术领域

本发明涉及数据分析领域，尤其涉及一种基于SVM模型的消化内科电子数据分析方法。

背景技术

医疗数据包括医学检查结果、化验单等，临床医生可以参考这些医疗数据来提高工作效率，是现代医疗的重要基础。

消化内科电子数据是常见的医疗数据之一，但是，消化内科电子数据项目繁多数据庞杂，如何对消化内科电子数据进行准确处理是当前需要解决的技术问题。

发明内容

本发明实施例提供一种基于SVM模型的消化内科电子数据分析方法，能够对消化内科电子数据进行分析，得到分析结果。

本发明实施例采用如下技术方案：

一种基于SVM模型的消化内科电子数据分析方法，包括：

获取非齐次泊松过程NHPP类疾病分析可靠性增长模型；

训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断。

基于上述技术方案的基于SVM模型的消化内科电子数据分析方法，获取非齐次泊松过程NHPP类疾病分析可靠性增长模型，训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断，从而能够对消化内科电子数据进行分析，得到更精确的判断结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例示出的基于SVM模型的消化内科电子数据分析方法的流程图。

图2为本发明实施例示出的特征提取示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，本发明实施例提供一种消化内科电子数据分析方法，包括：

11、获取非齐次泊松过程NHPP类疾病分析可靠性增长模型。

12、训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断。

本实发明施例，该模型既考虑了疾病分析过程中相同错诊情况可能重复出现，又考虑了错诊重复概率和错诊总数都可能随时间发生变化，使模型更符合实际情况。

本发明实施例的基于SVM模型的消化内科电子数据分析方法，获取非齐次泊松过程NHPP类疾病分析可靠性增长模型，训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断，从而能够对消化内科电子数据进行分析，得到更精确的判断结果。

在一个实施例中，获取非齐次泊松过程NHPP类疾病分析可靠性增长模型包括：

获取肠镜检查结果及病理检查结论，根据所述肠镜检查结果和所述病理检查结论，得出肠癌分析结果；

根据所述肠癌分析结果统计特征，构建非齐次泊松过程NHPP类疾病分析可靠性增长模型。

例如，得出肠癌每个月的分析错误率。

本实发明施例，整合肠镜检查报告和病理检查报告，形成样本数据集，对整合后的检查报告数据进行特征抽取和报告的数值化表示等处理；

在一个实施例中，取肠镜检查结果及病理检查结论，根据所述肠镜检查结果和所述病理检查结论，得出肠癌分析结果包括：

提取病患肠镜检查报告中的特征信息和病理检查报告中的诊断结果，将同一个病患的所取信息进行拼接整合；在对数据进行整合的过程中，以病理检查结果为准；其中，所述提取特征信息包括：文本型特征的提取、时间特征的提取和病人基本信息特征的提取；

将所述文本型特征集成起来构建特征空间，从病理诊断结果中提出相应疾病类别的描述词作为标签，构造输出空间，为特征空间各个特征的属性取值以及输出空间各种疾病的描述词设定数值编码规则，通过设定好的数值编码规则，对整合后的报告数据进行数值化表示，使其成为计算机和算法模型可识别和学习的数值型数据；

在对数据进行数值化表示后，以病理检查结论为最终结论，将肠镜检查结论和病理检查结论进行比较，以月或者日为时间划分维度，统计出肠癌每个月或者日的分析结果。

具体的，将肠镜检查报告(Colonoscopy report)与病理检查报告(Pathologicalreport)进行整合，即从同一个病患的肠镜检查报告和病理检查报告中提取特征信息，依据相应取特征信息字段(如住院号)进行报告拼接整合；肠镜检查报告包括患者个人信息、检查所见、肠镜分析结果、检查日期等多种类型的字段；而病理检查报告包括病理检查部位、病理检查所见和病理检查记录等信息。在医学领域，病理检查结果被视为“金标准”，即癌变的发生与否都可以通过进行病理检验而得到结果，可正确区分“有病”或“无病”。因此，我们在对数据进行整合的过程中，以病理检查结果为准，肠镜检查结果与病理检查结果不一致的将认为肠镜检查结果是错误的；其中，所述提取特征信息包括：文本型特征的提取、时间特征的提取和病人基本信息特征的提取；其中，所述文本型特征的提取：对肠镜检查文本数据所做的文本处理称为医疗语言处理，这一过程中主要完成对肠镜检查文本数据的分词、噪声消除，并提取特定病症的阳性描述作为特征信息；其中，所述时间特征的提取：考虑到疾病发病的季节性因素，即某些疾病的发病率通常会呈现季节性、周期性的变化规律，因而我们认为疾病的发作与季节之间存在某些内在的隐含联系。检查日期在检查报告中是区间编码划分的字符串型数据，包括年月日，从中抽取月或者日作为时间特征；其中，所述病人基本信息特征的提取：我们所做的处理主要是统一由于数据来源不同而产生表示不一致的问题，提取的特征包括性别、年龄、职业等。

检查报告特征提取前后对如图2所示。

对抽取的将所述文本型特征集成起来构建特征空间。同时，从病理检查报告中提出相应疾病类别的描述词作为标签(Label)，构造输出空间(Label Space)，为特征空间各个特征的属性取值以及输出空间设定数值编码规则，通过设定好的数值编码规则，对整合后的报告数据进行数值化表示，使其成为计算机和算法模型可识别和学习的数值型数据(Numerical Data)；

在对数据进行数值化表示后，以病理检查结论为最终结论，将肠镜检查结论和病理检查结论进行比较，以月为时间划分维度，统计出肠癌每个月的分析分析结果，便于后续肠癌可靠性增长模型的构建。

在一个实施例中，所述针对所述肠癌分析结果统计特征，构建非齐次泊松过程NHPP类疾病分析可靠性增长模型包括：

设置非齐次泊松过程NHPP；

构建NHPP类计算结果可靠性增长模型框架；

构建符合实际情况的NHPP类疾病分析可靠性增长模型；

对符合实际情况的NHPP类疾病分析可靠性增长模型中的参数估计。

本发明实施例提出了一种新的NHPP类分析可靠性增长模型。该模型既考虑了相同分析错误情况可能重复出现，又考虑了分析错误重复概率和错诊总数都可能随时间发生变化，提高了此类计算可靠性增长模型的预测和评估能力，使模型更符合实际情况。

非齐次泊松过程(non-homogeneous Poissonprocess，简称NHPP)是泊松过程的一个推广，下面我们将给出非齐次泊松过程的定义。在一个实施例中，所述设置非齐次泊松过程NHPP包括：设置一随机的计数过程{N(t)，t≥0}满足A1至A4：N代表一个计数过程，可以表示数量的多少，t表示时间；

A1：N(0)＝0；

A2：{N(t)，t≥0}是一个独立的增量过程；

A3：P{[N(t+Δt)-N(t)]＝1}＝λ(t)Δt+o(Δt)；

λ(t)表示非齐次泊松过程的强度函数，Δt表示一个时间间隔，o(Δt)表示Δt的高阶无穷小函数；

A4：P{N(t)-N(s)≥2}＝o(Δt)；

则称{N(t)，t≥0}为具有强度λ(t)的非齐次泊松过程，当λ(t)＝λ时，非齐次泊松过程就是普通的齐次泊松过程；

非齐次泊松过程的概率分布公式如下所示：

S表示下一个时间，与t含义相同；

N(t)：在[0,t]时间段内发现的累计错误分析次数；

m(t)：[0,t]时间段内累计错误分析次数的期望值，m(t)＝E[N(t)]；

x(t)：到时刻t为止，被检测到且属于重复错诊的错误分析次数；

a(t)：疾病错诊总数函数，表示到时刻t为止，病例中统计到的疾病分析错误次数总和；

a₀：统计开始时病例中存在的分析错误次数；

b：分析错误率，表示病例中每个错诊被统计到的概率；

p(t)：错诊重复率函数，表示在时刻t，每个被检测到的错误分析属于重复出现的概率；

R(x|t)：疾病可靠性函数，表示从时刻t开始到t+x时间段内，疾病分析的可靠性。

本发明实施例建立的可靠性增长模型主要考虑以下两个问题：

(1)疾病分析过程会不断引入新的错诊案例，即疾病分析错误总数函数a(t)是随时间发生变化的；

(2)每个错诊案例不能保证不会重复出现，即存在错诊重复率大小的问题。同时随着时间的迁移，科室医疗设备越来越先进以及医生经验逐渐增长，错诊重复率函数也在随时间发生变化。

基于原始可靠性模型，为了构建NHPP类疾病分析可靠性增长模型框架，需要对经典的NHPP类模型进行修改和补充，形成了以下的假设条件：

在一个实施例中，所述构建NHPP类计算结果可靠性增长模型框架包括：

基于所述非齐次泊松过程的概率分布公式，设定：

B1：到时间t的累计错误分析次数N(t)服从均值函数为m(t)的泊松过程。任意时间间隔t到t+Δt内期望的错诊发生数与t时刻剩余的错诊数成比例。

B2：疾病错诊数量在不同环境、不同时刻是不相同的，疾病错误分析总数是随时间变化的。

B3：相同错诊情况在不同时间段都有可能发生，错诊重复率是时间的函数。

B4：病例中每个错误分析是相互独立的，每个分析错误导致的后果严重性不同；

由假设B1：有B5，B5：m(t+Δt)＝b(a(t)-x(t))Δt+o(Δt)(a(t)-x(t))表示到时刻t为止，被检测到且不属于重复错诊的分析错误次数

从而可以得到微分方程B6：

由假设B3有B7，B7：

由方程B6、方程B7可得B8，B8：

表示x(t)对t进行求导，后面也是同样含义；

方程B6、方程B7的初始条件为B9、B10，B9：m(0)＝0，B10：x(0)＝0；

由公式B8、公式B10可得B11，

B11：

从而由公式B6、公式B9可解得模型的累计分析错误均值函数为B12：

exp是指数的含义，t,u都是表示时间的不同符号，dt、du都是求积分；

由于到时刻t为止的累计错误分析次数N(t)服从均值m(t)的非齐次泊松分布，所以B13：

根据非齐次泊松分布的性质，可靠度函数为B14：

R(x|t)＝1-P{N(t+x)-N(t)＝0}＝1-exp[-(m(t+x)-m(t))]。

在一个实施例中，所述构建符合实际情况的NHPP类疾病分析可靠性增长模型包括：

分析错误总数函数用如下的函数来描述B15：a(t)＝a₀(1+αt)

其中，α<0，α的大小决定了错诊总数函数下降速度的大小；

错诊重复率函数p(t)应该满足如下条件：p(t)∈[0，1]且p(t)为递减函数，当t→∞时，p(t)→0。因此，可以选取如下的函数来定义错诊重复率函数B16：

其中k>0，k的大小决定了错诊重复率变化的快慢；

将公式B15、公式B16带入公式B11、公式B12，得：

B17：

B18：

得到累计分析错误次数的均值函数m(t)后，就可以采用参数估计法得到m(t)中的参数。

在一个实施例中，所述对符合实际情况的NHPP类疾病分析可靠性增长模型中的参数估计包括：

采用极大似然估计法对公式B18中的参数进行估计，由错诊均值函数m(t)可得似然函数如B19：

其中，(t_i，n_i)成对出现，n_i表示t_i时刻病例中统计到的所有错诊次数只和；t_i表示统计到错诊次数总和为n_i的时刻，L(parameters|(t_i，n_i))表示极大似然函数，后面的是求积符号，exp是表示指数运算；

对公式B19取自然对数可得B20：

ln表示对数运算，∑表示求和运算，！表示阶乘运算；

对上述公式B20微分便可求得各参数估计值。

支持向量机(Support Vector Machine，简称SVM)模型是一种二分类模型，在解决多分类问题时需要进行特定的推广。该模型在文本分类任务和高维数据中展现出卓越性能，并成为引领机器学习潮流的主流技术。其基本模型是在特定空间中具有最大间隔的线性分类器，核心是将原始训练集映射到高维特征空间，其中非线性分离特征被高维线性判别函数所取代，它是一种可以广泛应用于统计分类以及回归分析的监督学习方法。同时，它在求解小样本、非线性和高维模式识别方面表现出许多独特的优势，并且可以应用到其他机器学习问题中，如函数拟合等。支持向量机模型是基于统计学习理论的VC维理论和结构风险最小原理，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度，Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷方案，以获得最好的推广能力(或称泛化能力)。在SVM模型中，核函数直接决定了支持向量机与核方法的最终性能，但核函数的选择取决于具体问题，也可以使用多核学习即通过学习多个核函数获得的最佳组合作为最终核函数来改善模型的性能。

在一个实施例中，所述训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断包括：

使用线性可分支持向量机学习算法，即最大间隔法来训练支持向量机SVM模型以寻找最优的分隔超平面，算法描述如下：

输入：线性可分训练数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_n，y_n)}，其中，x_i∈χ＝Rⁿ，y_i∈γ＝{-1，+1}为第i个特征向量，也称为实例，y_i为x_i的类标记，当y_i＝+1时，称x_i为正例；当y_i＝-1时，称x_i为负例，(x_i，y_i)称为样本点；

输出：最大间隔分离超平面和分类决策函数；

(1)构造并求解约束最优化问题：

s.t y_i(w·x_i+b)-1≥0，i＝1，2，...，N B22

求得最优解w^*，b^*；min表示求最小值，w,b表示构成最大间隔分离超平面的两个参数，X_i表示训练数据集里的实例；

(2)由此得到分离超平面为：

w^*·x+b^*＝0 B23

分类决策函数为：

f(x)＝sign(w^*·x+b^*) B24

其中：||w||为w的L₂范数，(w,b)为给定的超平面；

通过使用上述算法训练支持向量机模型，寻找最优的分隔超平面，将特征空间划分为两部分，一部分是正类，一部分是负类，从而将数据集进行分类。

目前，已有很多研究将支持向量机(SVM)模型应用于临床，可以实现疾病的分类识别、预测疾病的发生概率。本发明实施例通过构建一种多粒度肠镜检查报告分析模型对该模型输入患者肠镜检查的文本描述数据，可以自动化生成分析结果。

在一个实施例中，得出超平面之后还包括：

对每个样本点(x_i，y_i)引进一个松弛变量ξ_i≥0，使得函数间隔加上松弛变量大于等于1，此时，约束条件变为：y_i(w·x_i+b)≥1-ξ_i。同时，对每一个松弛变量ξ_i，支付一个代价函数ξ_i，目标函数也由原来的变为：N取值范围为所有非负整数的集合；

其中，C>0称为惩罚参数，在不同问题背景下它的取值不同，C值大时对误分类的惩罚增大，C值小时对误分类的惩罚减小，改变后的目标函数包括使间隔尽量大和误分类点的数量尽量小两层含义，C属于调和二者关系的变量；

将C的取值问题与疾病可靠度问题相结合，C的取值即疾病可靠度函数在每一时间段的计算结果，目标函数变为：数据计算可靠度大时对疾病误分类的惩罚增大，可靠度小时对疾病的误分类惩罚减小，此时，将NHPP类疾病分析可靠性增长模型应用于基本SVM模型的优化方法中去，训练出符合要求的多粒度肠镜检查报告分析模型。

本发明实施例的基于SVM模型的消化内科电子数据分析方法，获取肠镜检查结果及病理检查结论，并将肠镜检查结果和病理检查结论进行比较，得出肠癌分析结果，针对肠癌分析结果统计特征，构建非齐次泊松过程NHPP类疾病分析可靠性增长模型，训练支持向量机SVM模型，以模型准确率为评估指标，将疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型进行肠癌判断，从而能够对消化内科电子数据进行分析，得到更精确的判断结果。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

Claims

1.一种基于SVM模型的消化内科电子数据分析方法，其特征在于，包括：

获取非齐次泊松过程NHPP类疾病分析可靠性增长模型；

2.根据权利要求1所述的方法，其特征在于，所述获取非齐次泊松过程NHPP类疾病分析可靠性增长模型包括：

3.根据权利要求2所述的方法，其特征在于，所述获取肠镜检查结果及病理检查结论，根据所述肠镜检查结果和所述病理检查结论，得出肠癌分析结果包括：

在对数据进行数值化表示后，以病理检查结论为最终结论，将肠镜检查结论和病理检查结论进行比较，以月或者日为时间划分维度，统计出肠癌每月或者日的分析结果。

4.根据权利要求3所述的方法，其特征在于，

所述文本型特征的提取包括：对肠镜检查文本数据所做的文本处理称为医疗语言处理，这一过程中主要完成对肠镜检查文本数据的分词、噪声消除，并提取特定病症的阳性描述作为特征信息；

所述时间特征的提取包括：检查日期在检查报告中是区间编码划分的字符串型数据，包括年月日，从中抽取月或者日作为时间特征；

所述病人基本信息特征的提取包括：提取的特征包括性别、年龄和职业。

5.根据权利要求2所述的方法，其特征在于，所述根据所述肠癌分析结果统计特征，构建非齐次泊松过程NHPP类疾病分析可靠性增长模型包括：

设置非齐次泊松过程NHPP；

构建NHPP类计算结果可靠性增长模型框架；

构建符合实际情况的NHPP类疾病可靠性增长模型；

对符合实际情况的NHPP类疾病可靠性增长模型中的参数估计。

6.根据权利要求5所述的方法，其特征在于，所述构建NHPP类计算结果可靠性增长模型框架包括：

基于所述非齐次泊松过程的概率分布公式，设定：

B1：到时间t的累计分析错误次数N(t)服从均值函数为m(t)的泊松过程，任意时间间隔t到t+Δt内期望的分析错误发生数与t时刻剩余的分析错误数成比例；

B2：疾病错诊数量在不同环境、不同时刻是不相同的，疾病分析错误总数是随时间变化的；

B4：病例中每个分析错误是相互独立的，每个分析错误导致的后果严重性不同；

从而可以得到微分方程B6：

由假设B3有B7，B7：

由方程B6、方程B7可得B8，B8：

表示x(t)对t进行求导，后面也是同样含义；

由公式B8、公式B10可得B11，

B11：

由于到时刻t为止的累计分析错误次数N(t)服从均值m(t)的非齐次泊松分布，所以B13：

根据非齐次泊松分布的性质，可靠度函数为B14：

R(x|t)＝1-P{N(t+x)-N(t)＝0}＝1-exp[-(m(t+x)-m(t))]。

7.根据权利要求6所述的方法，其特征在于，所述构建符合实际情况的NHPP类疾病分析可靠性增长模型包括：

分析错误总数函数用如下的函数来描述B15：a(t)＝a₀(1+αt)

其中，α＜0，α的大小决定了错诊总数函数下降速度的大小；

其中k>0，k的大小决定了错诊重复率变化的快慢；

将公式B15、公式B16带入公式B11、公式B12，得：

B17：

B18：

8.根据权利要求1所述的方法，其特征在于，所述训练支持向量机SVM模型，以模型准确率为评估指标，将所述疾病分析可靠性增长模型在每一时间的可靠性结果作为惩罚因子，联合损失函数一起优化SVM模型，进行肠癌判断包括：

输入：线性可分训练数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，其中，x_i∈χ＝Rⁿ，y_i∈γ＝{-1，+1}为第i个特征向量，也称为实例，y_i为x_i的类标记，当y_i＝+1时，称x_i为正例；当y_i＝-1时，称x_i为负例，(x_i，y_i)称为样本点；

输出：最大间隔分离超平面和分类决策函数；

(1)构造并求解约束最优化问题：

s.t y_i(w·x_i+b)-1≥0，i＝1，2，...，N B20

(2)由此得到分离超平面为：

w^*·x+b^*＝0 B21

分类决策函数为：

f(x)＝sign(w^*·x+b^*) B22

其中：||w||为w的L₂范数，(w,b)为给定的超平面；

9.根据权利要求8所述的方法，其特征在于，得出超平面之后还包括：

将C的取值问题与疾病可靠度问题相结合，C的取值即疾病可靠度函数在每一时间段的计算结果，目标函数变为：疾病分析可靠度大时对疾病误分类的惩罚增大，可靠度小时对疾病的误分类惩罚减小，此时，将NHPP类疾病分析可靠性增长模型应用于基本SVM模型的优化方法中去，训练出符合要求的多粒度肠镜检查报告分析模型。