CN108335755A

CN108335755A - 数据分析方法和设备

Info

Publication number: CN108335755A
Application number: CN201710038539.XA
Authority: CN
Inventors: 张振中
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2018-07-27
Anticipated expiration: 2037-01-19
Also published as: US20190057316A1; EP3572959A4; CN114141378A; US11195114B2; CN108335755B; EP3572959A1; WO2018133340A1

Abstract

本公开提供了一种医学大数据分析方法和设备。该方法包括：接收用向量h表示的体征症状；以所述体征症状为特征定位患者在医学大数据中所处的子空间，其中用矩阵D来表示大数据中的病例集合，D=[D₁,D₂,……,D_M]，D_i表示第i个子空间，1≤i≤M，所述定位包括对公式求解；和通过分析子空间的语义一致性来分析患者处于特定子空间的概率P₁。此外还可以基于医学知识图谱上的证据传递得分来分析患者处于特定节点的概率P₂。还可以根据如下公式确定患者处于特定子空间或节点的概率P：，其中是调和参数，0<<1。通过这些方案，不仅能够提高分析的准确率；而且还可以在第一时间依据症状分析患者的状况，让患者有针对性地进行检查，从而降低成本提高效率。

Description

数据分析方法和设备

技术领域

本公开涉及一种数据分析方法和设备，更具体而言，涉及一种基于医学大数据和医学知识图谱的数据分析方法和设备。

背景技术

咨询委员会公司（Advisory Board Company）的最新研究表明：在未来十年内，普通大众在医疗机构的成本支出每年将提高5%。因此，为了生存以及发展，医疗机构应想方设法将成本降低20%。而实现这一目标的一个有效方法是利用大数据分析技术尽可能早地发现重大疾病。

众所周知，如果能在早期发现重大疾病的警示信号，其治疗过程会比更晚发现简单得多，而且费用也比较便宜，患者的恢复效果也好。根据EMC报告，22%的医疗机构利用数据分析技术来提高重大疾病的早期发现几率。美国已经有医疗机构通过数据分析，节约了可观的成本，并且提高了患者护理质量：美国威斯康星州麦迪逊的Meriter健康服务公司部署了一套商业智能解决方案，把来自分析系统和电子健康档案（EHR）的数据进行整合，为行政人员和临床医师提供了大量的、对实际工作有指导意义的信息。丰富的信息为Meriter公司的整形外科医师提供了准确的基准数据，还为医生选择更适合患者的植入假体提供了依据。在这些信息的帮助下，医院能够更高效地利用医疗开支——Meriter公司在利用数据分析后的短短8个月中节约了近100万美元。

目前基于医疗数据预测疾病的常用做法是从数据中抽取特征，例如血压值、血糖值等检测指标，然后通过机器学习方法训练一个预测模型（如逻辑斯蒂回归模型等），最后使用该模型进行预测。但此类做法存在两个不足之处：1）需要对每一个病种建立一个模型，当患者就诊时，需要使用每一个模型进行预测，效率十分低下；2）由于不同的病种的预测通常需要不同的检测指标，因此需要患者进行一些不必要的检测，提高了医疗成本。同时，此类做法通常使用检测指标作为特征，不能充分利用患者自述症状等一些其他有用的信息。

发明内容

为了解决或缓解上述现有技术中的至少一个缺陷，期望提供一种新的数据预测和分析方法和设备。

根据一个方面，提供了一种医学大数据分析方法，包括：

接收患者的体征症状并用向量h来表示所述体征症状；

以所述体征症状为特征定位患者在医学大数据中所处的子空间，其中用矩阵D来表示大数据中的病例集合，D = [D₁, D₂, ……, D_M]，D_i表示第i个子空间，1≤i≤M，所述定位包括对公式求解，X为一个系数向量，用来表示向量h在各个子空间中的分布；和

通过分析体征症状向量h所在子空间的语义一致性来分析患者处于特定子空间的概率P₁。

在一个实施例中，以所述体征症状为特征定位患者在医学大数据中所处的子空间进一步包括：

通过采用稀疏解法对公式求解从而确定患者所处的子空间；以及

基于系数向量X中各元素的值确定h位于哪个子空间的部分最多，从而确定位于哪个子空间的概率最大。

在一个实施例中，所述稀疏解法包括：

求解,其中X满足，其中是L1范式，是L2范式，

其中所获得的解中值不为零的维度所对应的病例构成了h所在的子空间。

在一个实施例中，分析体征症状向量h所在子空间的语义一致性进一步包括：

通过如下公式来计算h所在语义子空间和子空间D_i的一致性：

，

其中，，为误差，表示系数向量X中属于子空间D_i的维度为1，其余维度为0。

在一个实施例中，上述方法进一步包括：

输出C₁、C₂、……、C_M、中的最大值作为患者处于相应子空间的概率P₁。

根据另一个方面，提供了一种基于医学知识图谱的医学数据分析方法，包括：

接收患者的体征症状；

访问医学知识图谱以获得与患者相关的部分医学知识图谱，所述部分医学知识图谱包括多个节点V={v₁, v_2,…, v_N}以及每一个节点的初始证据得分，其中，每一个节点v_i表示患者的一个症状或一个相关疾病，表示节点v_i的初始证据得分；

基于所述患者的体征症状在所述部分医学知识图谱上的证据传递从而确定每一个节点的最终证据得分p_t；以及

基于最终证据得分p_t中各个节点的得分来分析患者处于特定节点的概率P₂。

在一个实施例中，确定每一个节点的最终证据得分p_t进一步包括：

通过如下公式进行迭代运算从而确定各节点的最终证据得分：

，

其中d为阻尼系数，0<d<1；，，w_i,j表示连接V中各节点v_i和v_j的边e_i,j的权重。

在一个实施例中，所述迭代运算的终止条件是在所述迭代运算中p_t不再发生变化或者达到最大迭代次数。

通过如下公式确定各节点的最终证据得分：

，

其中d为阻尼系数，0<d<1；I为NN的单位矩阵，，，w_i,j表示连接V中各节点v_i和v_j的边e_i,j的权重。

在一个实施例中，基于最终证据得分p_t中各个节点的得分来分析患者处于特定节点的概率P₂进一步包括：

通过计算V中每一个疾病节点的最终得分在V中所有疾病节点的最终得分之和中所占的百分比来确定处于各个节点的概率；以及

输出所述概率中的最大概率作为患者处于特定节点的概率P₂。

根据另一个方面，提供了一种医学数据分析方法，包括：

接收患者的体征症状；

以所述体征症状为特征定位患者在医学大数据中所处的子空间；

通过分析患者的体征症状所在子空间的语义一致性来分析患者处于特定子空间的概率P₁；

基于患者的体征症状在医学知识图谱上的证据传递得分来分析患者处于特定节点的概率P₂；以及

基于概率P₁和概率P₂来确定患者处于特定子空间或节点的概率P：

，其中是调和参数，0<<1。

根据另一个方面，提供了一种医学大数据分析设备，包括：

接收单元，被配置用来接收患者的体征症状并用向量h来表示所述体征症状；

子空间定位单元，被配置用来以所述体征症状为特征定位患者在医学大数据中所处的子空间，其中用矩阵D来表示大数据中的病例集合，D = [D₁, D₂, ……, D_M]，D_i表示第i个子空间，1≤i≤M，所述定位包括对公式求解，X为一个系数向量，用来表示向量h在各个子空间中的分布；和

第一分析单元，被配置用来通过分析体征症状向量h所在子空间的语义一致性来分析患者处于特定子空间的概率P₁。

在一个实施例中，所述子空间定位单元进一步被配置用来：

在一个实施例中，所述稀疏解法包括：

求解,其中X满足，其中是L1范式，是L2范式，

在一个实施例中，所述第一分析单元进一步进一步被配置用来：

通过如下公式来计算h所在语义子空间和子空间D_i的一致性：

，

在一个实施例中，上述设备进一步包括：

第一输出单元，被配置用来输出C₁、C₂、……、C_M、中的最大值作为患者处于相应子空间的概率P₁。

根据另一个方面，提供了一种基于医学知识图谱的医学数据分析设备，包括：

接收单元，被配置用来接收患者的体征症状；

访问单元，被配置用来访问医学知识图谱以获得与患者相关的部分医学知识图谱，所述部分医学知识图谱包括多个节点V={v₁, v_2,…, v_N}以及每一个节点的初始证据得分，其中，每一个节点v_i表示患者的一个症状或一个相关疾病，表示节点v_i的初始证据得分；

第二分析单元，被配置用来基于所述患者的体征症状在所述部分医学知识图谱上的证据传递得分从而确定每一个节点的最终证据得分p_t；以及

确定单元，被配置用来基于最终证据得分p_t中各个节点的得分来分析患者处于特定节点的概率P₂。

在一个实施例中，所述第二分析单元进一步包括：

计算单元，被配置用来通过如下公式进行迭代运算从而确定各节点的最终证据得分：

，

在一个实施例中，所述第二分析单元进一步包括：

计算单元，被配置用来通过如下公式确定各节点的最终证据得分：

，

在一个实施例中，所述确定单元进一步被配置用来：

输出所述概率中的最大概率作为处于相应节点的概率P₂。

根据另一个方面，提供了一种医学数据分析设备，包括：

接收单元，被配置用接收患者的体征症状；

子空间定位单元，被配置用来以所述体征症状为特征定位患者在医学大数据中所处的子空间；

第一分析单元，被配置用来通过分析患者的体征症状所在子空间的语义一致性来分析处于特定子空间的概率P₁；

第二分析单元，被配置用来基于患者的体征症状在医学知识图谱上的证据传递得分来分析患者处于特定节点的概率P₂；以及

调和单元，被配置用来基于概率P₁和概率P₂来确定患者处于特定子空间或节点的概率P：

，其中是调和参数，0<<1

根据另一个方面，提供了一种医学大数据分析设备，包括：

存储器，被配置用来存储计算机可执行指令；以及

耦合到所述存储器的处理器，被配置用来执行所述计算机可执行指令从而使得所述处理器执行如上所述的任何一种方法。

根据另一个方面，提供了一种计算机可读存储介质，其上存储了计算机可读指令，所述指令在被计算设备执行时导致计算设备执行如上所述的任何一种方法。

本公开的一些实施例提出了利用医学大数据来分析患者的患病情况。所述方案利用患者的体征症状作为特征，能够通过依据患者的症状寻找患者在医学大数据中所处的子空间，并通过子空间的语义一致性来分析患者的患病情况。相对于现有技术，所述方案无需针对每一种疾病建立一个模型，预测效率高。同时利用患者的生理现象（症状）进行分析，可以在第一时间依据症状分析患者的状况，让患者有针对性地进行检查，从而降低成本提高效率。

另一些实施例提出了利用医学知识图谱分析疾病的方法和设备。该方法和设备能够通过患病症状在医学知识图谱中传递相关证据进而分析患者的患病情况。其中所述知识图谱是通过医学知识建立起来的。所述实施例能够利用知识图谱中显式的知识或信息进行疾病分析，可以在第一时间依据症状分析患者的状况，让患者有针对性地进行检查，从而降低成本提高效率。

还有一些实施例提出了利用医学大数据和医学知识图谱综合分析疾病的方法和设备。该方法和设备利用患者的体征症状作为特征，一方面能够通过依据患者的症状寻找患者在医学大数据中所处的子空间，并通过子空间的语义一致性来分析患者的患病情况。另一方面还能够通过患病症状在医学知识图谱中传递相关证据进而分析患者的患病情况。最后还能够综合两方面的信息进行分析并输出最终的结论或结果。相比以前的做法，所述实施例能够综合利用大规模医学大数据中隐含的规律、知识或信息以及知识图谱中显式的知识或信息进行疾病分析，从而能够提高分析的准确率；同时利用患者的生理现象（症状）进行分析，可以在第一时间依据症状分析患者的状况，让患者有针对性地进行检查，从而降低成本提高效率。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。应当意识到，下面描述中的附图仅仅涉及一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，所述其它的附图也在本发明的范围内。

图1为根据一个实施例的基于医学大数据和医学知识图谱的数据分析方法的流程图；

图2示出了在大数据空间内的若干个子空间示例的示意图；

图3示出了医学知识图谱中基于图的证据传播的一个示例；

图4示出了医学知识图谱一个简化示例的示意图；

图5为根据一个实施例的数据分析设备的结构示意图；

图6图示了可以被用于实现一个或多个实施例的示例计算设备。

具体实施方式

下面将结合附图，对本公开中一些实施例的技术方案进行清楚、完整地描述，以便能够更清楚地理解一些实施例的目的、技术方案和优点。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员能够获得其它的实施例，所获得的所有这些实施例都属于本发明保护的范围。需要指出的是，尽管本文以医学大数据和医学知识图谱为例进行解释说明，但是本领域技术人员知道，本发明同样可以适用于对其它类型的大数据和知识图谱进行分析，从而确定某个客体属于大数据内的哪个子空间或类型或者知识图谱中的哪个节点或类别。另外还需要指出的是，正如前面指出的，本发明并不局限于医学领域，因此本公开所提供的所有方法的方案都不是直接用于疾病的诊断和治疗的方法。

图1为根据一个实施例的基于医学大数据和医学知识图谱的数据分析方法的流程图。如图1所示，所述实施例综合利用医学大数据中隐式的知识和医学知识图谱中显式的知识进行疾病分析，具体来说所述方法包含三大部分：基于医学大数据的分析（图1中间的虚线框内所包含的部分）、基于医学知识图谱的分析（图1右部虚线框内所包含的部分）以及综合前两部分信息的输出（图1中的步骤S8：最终结果输出）。需要指出的是，虽然在图1所示实施例中包含了所有的所述三个部分，但是本领域技术人员能够理解，基于医学大数据的分析和基于医学知识图谱的分析这两个部分可以作为独立的技术方案来单独实施。

下面将参照图1来详细介绍这三部分的原理以及具体实现方式。

基于医学大数据的分析

本小节将详细介绍基于医学大数据分析模块的基本思想和具体实现方式。该模块的基本思想是：出现相似症状的患者可能患有同一疾病；患有同一疾病的患者极有可能出现相似的特征。这符合现实世界的情况，例如：1998年斯坦福大学医学院院长Lloyd Minor和同事在全世界首次报道了一种罕见病—“上半规管裂损症候群”。这种疾病的患者会出现眩晕、对声音异常敏感等症状。这本是一次很普通的学术发现，但世界上许多多年来找不到病因、或在其他科室苦苦试验治疗方案的患者通过搜索相关症状信息最终得以确诊和治疗。

这一部分包括4个步骤：S1、接收患者的体征症状；S2、在医学大数据中搜索患者所在的子空间；S3、分析子空间的语义一致性;S4、输出基于医学大数据的分析结果P₁，也就是患者处于特定子空间的概率P₁。

首先,在步骤S1接收患者的体征症状。本步骤的主要功能是收集患者就诊过程中的自述症状，例如眩晕、头疼等。

然后，所述方法进行到步骤S2，在医学大数据中搜索患者所在的子空间。本步骤的主要功能是：依据采集得到的症状寻找患者在医学大数据中所处的子空间。由于该实施例基于医学大数据进行疾病分析，因此需要大量的病例，例如各医院历年的确诊病例，这对应着图1中的“病例大数据”模块。

本公开使用符号D = [D₁, D₂, ……, D_M]来表示该病例集合，假设其中一共包含M种疾病，则D_i(1≤i≤M)表示第i种疾病，其中D_i可以被表示为D_i = [D_i,1, D_i,2, ……,D_i,K]，这表示第i种疾病中包含K个病例，D_i,j(1≤i≤M，1≤j≤K)表示第i种疾病中的第j个病例。每一个病例由一系列对应的特征向量（如症状）构成，则矩阵D构成了一个确诊病例的语义空间，而D_i(1≤i≤M)则构成了所述语义空间内的子空间。需要指出的是，虽然此处以医学大数据为例进行解释说明，但是本发明同样可以适用于对其它类型的大数据进行分析，从而可以确定某个客体属于大数据内的哪个子空间或类别。在一个更通用的例子中，大数据可以包括多个子空间，分别表示多个类别，每个类别中可以有相应的实例，每个实例可以具有个多个特征。这样就可以通过本公开所提供的实施例，利用输入的一个对象的特征来定位或搜索所述对象所在的子空间，其原理与定位患者所在子空间是完全一样的。

对于新来的患者h，假设其患有疾病D_i，依据本模块的基本思想：患有同一疾病的患者极有可能出现相似的症状，即新来患者h可以表示为D_i中病例的线性组合，

其中，α_i,j(1≤j≤K)是相关系数。例如，对于疾病“高血压”，病例1中的症状有“眩晕、恶心、心悸气短”，病例2中的症状有“心悸气短、耳鸣、肢体麻木”，病例3中的症状有“眩晕、恶心、耳鸣、心悸气短”，新来患者的症状有“心悸气短、肢体麻木”，则有“新来患者=病例1+病例2-病例3”。

作为更一般的解释，收集病例集合D中的所有症状设为集合S，设S中的症状个数为|S|，我们使用|S|维的一个列向量来表示一个病例。例如针对病例1，2，3有S=｛眩晕、恶心、心悸气短、耳鸣、肢体麻木｝^T，S一共包含5个症状，我们设定眩晕为向量中的第一维度，依此类推，肢体麻木为第5个，因此病例中的不同症状对应着向量的不同维度。患者出现的症状对应的维度值设为1，未出现的症状对应的维度值设为0。这样病例1=[1,1,1,0,0]^T，病例2=[0,0,1,1,1]^T，病例3=[1,1,1,1,0]^T，其中上标T表示矩阵的转置。新来患者h=[0,0,1,0,1]^T= [1,1,1,0,0]^T+ [0,0,1,1,1]^T - [1,1,1,1,0]^T。也就是说，“新来患者=病例1+病例2-病例3”。假设疾病“高血压”对应于第i个疾病，那么D_i,1=[1,1,1,0,0]^T；D_i,2=[0,0,1,1,1]^T，D_i,3=[1,1,1,1,0]^T。h = D_i,1+ D_i,2- D_i,3。在这个例子中，规定病例向量为列向量，但是本领域技术人员能够理解，所述病例向量也可以为行向量，但是相应地，病例集合以及其它向量的维度也应该相应地转置。

为了表示简洁和方便，上面的表达形式可以用矩阵表示。假设D_i = [D_i,1, D_i,2,……, D_i,K]，x_i=[α_i,1, α_i,2, ……, α_i,K]^T，其中上标T表示矩阵的转置，则有

通过上面的讨论，可以看到每一个病种可以表示成由其包含的已知病例所构成的子空间，属于该病种的某一病例可以由相应子空间的基的线性组合构成。图2示出了在大数据空间内的若干个子空间示例的示意图；

基于上面的讨论，给定病例集合D，可以通过寻找患者h在D中的子空间来确定其所患疾病。令D = [D₁, D₂, ……, D_M]，则患者h所在的子空间可通过式子（1）求得，

(1)

其中，D = [D₁, D₂, ……, D_M]=[ D_1,1,D_1,2, ….,D_i,1, D_i,2, ……, D_M,K]是一个矩阵，包含了D中的所有病种D_i(1≤i≤M)，其中每个元素D_i,j(1≤i≤M，1≤j≤K)对应D中的一个病例，即第i种疾病中的第j个病例，而每个病例又是一个列向量。

其中，X是一个列向量，X =[x₁ ^T, x₂ ^T, …,x_i ^T,…, x_M ^T]^T，其维度不是M，而是D中的病例数目，即维度与[ D_1,1,D_1,2, ….,D_i,1, D_i,2, ……, D_M,K]一样。例如，假设D包含2个病种，病种1包含a个病例，病种2包含b个病例，则X的维度为a+b。

然而由于D的空间非常大，通常存在很多X能够满足式子(1)，即存在多个子空间能够重建h。为了解决这一问题，本发明采用稀疏解法（使用最少的病例去重构h）。采用稀疏解法的好处是能够降低“噪音”数据的影响，使得模型具有良好的鲁棒性。具体解法如下：

(2)

其中是L1范式，用于求所有元素的绝对值之和，是L2范式，用于求所有元素的平方和。ε是事先给定的参数。X=[α_1,1, α_1,2, ……, α_i,K, ……]^T是需要求解的系数。通过式子(2)解得的x^*中值不为零的维度对应的病例构成了h所在的子空间。这样，也就是要求一个列向量X，使得所确定X中各元素绝对值之和最小，而且矩阵乘积DX所得到的向量中每个元素都与患者的症状非常接近。其中，α_i,j的具体值是通过式子（2）使用随机梯度下降方法解出来的。

对于以上的例子，即新来患者h = [0,0,1,0,1]^T = [1,1,1,0,0]^T + [0,0,1,1,1]^T - [1,1,1,1,0]^T。这是理想的例子，在现实中由于计算精度的限制，可能出现α_i,j不是最优解，例如本例中假设α_1,1=0.8，这样就有0.8*[1,1,1,0,0]^T+ [0,0,1,1,1]^T-[1,1,1,1,0]^T = [0.2,0.2,0.8,0,1]。此时Dx-h=[0.2,0.2,0.8,0,1]^T -[0,0,1,0,1]^T = [0.2,0.2,-0.2,0,0]^T，则。如果我们设定=0.2,则依然成立。引入就是为了降低“噪音”的影响。所以α_i,j不相等的情况下，依然可以运算。而且通过公式（2）进行求解时，理论上就不要求α_i,j相等，它们只是向量的一个权重。

然后，所述方法进行到步骤S3，执行子空间语义一致性分析。本步骤的主要作用是：通过分析h所在子空间的语义一致性来分析其处于特定子空间的概率。令表示系数向量X中属于子空间D_i的维度为1，其余维度为0的一个列向量，其维度是D中所有病例的数目，即维度和[ D_1,1,D_1,2, ….,D_i,1, D_i,2, ……, D_M,K]一样。则向量h中对应子空间D_i的语义成分为，那么h可以表示为，其中为误差。基于上述表示，本发明将h所在语义子空间和子空间D_i的一致性定义为：

(3)

其中，是L2范式的平方。

在步骤S3中执行子空间语义一致性分析之后，在步骤S4中输出基于医学大数据分析的结果。也就是说，输出C₁、C₂、……、C_M、中的最大值作为患者处于与所述最大值对应的子空间的概率P₁。同时，与所述最大值对应的子空间或类别也最终被确定为患者所在的子空间或类别。

步骤S4的主要作用是：输出基于医学大数据的分析结果。令，由式子(3)的定义可以看到，C_i反映了h处于子空间D_i可能性的大小，即对应着图1中的概率P₁，其中反映了h不处于前面任一子空间D₁-D_M的可能性或概率。这是因为C_i越大，表明构成h的向量中包含属于子空间D_i的病例越多，即h位于D_i子空间的部分越多，则属于子空间D_i的可能性越大。例如在图2中，假设已知病例空间中一共有三个子空间，分别对应不同的形状：四角星节点、三角形节点、六角星节点，分别对应C的前三个维度，最后一个维度为误差。圆形节点表示新来的患者。图2所示的两个圆圈分别表示用来表示新来患者的两种线性组合。第一种仅仅用四角星节点所代表的子空间就可以表示新来患者，第二种需要用所有的三个子空间来表示新来的患者。可以清楚地看到，对于左边的图有C=[1,0,0,0]，即患者可能处于四角星所代表的子空间。对于右边的图有C=[0.25,0.375, 0.375, 0]，则很难分析患者处于哪个子空间或属于哪个类别。

基于医学知识图谱的分析

接下来介绍图1所示流程图的第二部分，基于医学知识图谱的分析。本小节将介绍基于医学知识图谱分析模块的基本思想和具体实现方式。图3示出了医学知识图谱中基于图的证据传播的一个示例。在医学知识图谱中，节点表示疾病或者症状（在更一般的例子中，表示类别和特征），节点间的边反映了节点间的语义相关度大小。基于医学知识图谱的分析的基本思想是：症状（或疾病）传播给语义相关度高的疾病（或症状）所得证据得分要比语义相关度低的大。例如如图3所示，假设“无先兆偏头痛”的权重得分为1，则它可以传播0.7的证据得分给症状“恶心”，传播0.3的证据得分给症状“畏光”。直观地解释为无先兆偏头痛患者出现恶心症状的概率为70%，出现畏光症状的概率为30%，即在无先兆偏头痛患者中出现恶心症状的情况比出现畏光症状的情况多。而“狂犬病”患者出现畏光症状的概率为80%。

需要指出的是，本发明同样可以适用于结构与医学知识图谱类似的其它知识图谱，用于来分析和确定某个对象所属的节点或者类别。其原理与基于医学知识图谱的方案的原理完全相同。

下面将参照图1的流程图详细介绍基于图的证据传播方法。

在步骤S5中，所述方法执行基于图的证据传播。即基于医学知识图谱上的证据传递得分来分析患者处于哪个疾病节点的概率P₂。该步骤的作用是：通过患者的症状，结合医学知识图谱中显式的医学知识来分析患者的情况。具体来说，给定症状初始证据得分，然后依据基本思想“症状（或疾病）传播给语义相关度高的疾病（或症状）证据得分要比语义相关度低的大”，在医学知识图谱中传播证据得分直到所有节点的证据得分不再变化或者变化很小为止。

在一个实施例中，假设V={v₁, v_2,…, v_N}表示医学知识图谱中的顶点或节点集合，E={…, e_i,j, … }表示节点之间的边的集合，其中e_i,j表示节点v_i和v_j之间的边，其中1≤i≤N，1≤j≤N，i≠j。W是边的权重的集合，其中w_i,j表示边e_i,j上的权重。设节点的初始证据得分为，其中，表示节点v_i的初始证据得分。例如对于图3来说，假设患者出现“恶心”和“畏光”的症状，则初始证据得分可以设为p₀[“恶心”，“畏光”，“无先兆偏头痛”，“狂犬病”]=[0.5, 0.5, 0, 0]，即在没有任何先验知识的情况下，使用符合条件且熵最大的分布作为初始证据得分。

设是经过t次迭代，各节点的证据得分。则依据基本思想“症状（或疾病）传播给语义相关度高的疾病（或症状）证据得分要比语义相关度低的大”，第t+1次迭代后各节点的证据得分为：

(4)

其中，d为阻尼系数（0<d<1）；M(i)表示与节点v_i相连的节点集合。例如对于图3中的例子，假设各节点的初始证据得分为p₀[“恶心”，“畏光”，“无先兆偏头痛”，“狂犬病”]=[0.5,0.5, 0, 0]，边的权重如图3所示，则经过一轮迭代后“恶心”的证据得分为(1-d)0.5+00.7=0.1(设d=0.8)，“畏光”的证据得分为0.20.5+00.8=0.1，“无先兆偏头痛”的证据得分为，同理可以算出“狂犬病”的得分为。然后不停地迭代公式(4)直到达到终止条件，即p_t不再发生变化或者达到最大迭代次数。

为了简洁以及提高效率，可以将公式(4)变化为矩阵表示形式，如下：

(5)

依据马尔科夫理论(Markov theory)，一定存在。因此对公式(5)两边取极限有

(6)

其中I为NN的单位矩阵，p_i的值就是节点v_i的最终证据得分。可以看到依据公式(6)，能够直接算出每个节点的最终证据得分。例如可以直接得到图3中各节点的最终证据得分为p[“恶心”，“畏光”，“无先兆偏头痛”，“狂犬病”]=[0.25, 0.30, 0.27, 0.18]。一个疾病节点最终的证据得分越高表明患者处于该节点的可能性越大，因此可以将疾病节点的得分归一化得到患者处于该节点的概率，对应着图1中的P₂。例如对于图3中的例子，患者处于节点“无先兆偏头痛”的概率为，处于节点“狂犬病”的概率为。

图4示出了医学知识图谱一个简化示例的示意图。其中最中间的大圆表示知识图谱中个一个类别，在本例中表示一种疾病，与它直接相连的节点表示该类别与其它特征之间的关系，例如在本例中可以是病因、症状、治疗。最外围的圆圈表示相应的特征，在本例中可以是症状、病因和治疗方式，为了简洁起见，图4中略去了边上的权重。

然后该方法进行步骤S7，输出基于医学知识图谱分析所获得的患者处于某个疾病节点或属于某个类别的概率P₂。

最后，该方法进行到步骤S8，输出最终的结果。也就是基于从步骤S4获得的P₁和从步骤S7获得的P₂来确定患者属于某个类别的概率。该步骤的作用是：综合基于医学大数据的分析和医学知识图谱的分析给出最终分析结果。具体来说，就是使用线性加权方式将二者的得分综合起来。具体而言，通过如下公式来计算或确定患者属于某个类别的概率：

，

其中是调和参数，0<<1，用来调节两种分析方式的比重。当医学大数据的数据和质量都很高，基于医学大数据的分析的准确率高的时候，可以把调高（例如让=0.7等）；反之，当医学大数据的数量不充分或者质量不高，基于医学大数据的分析准确率不高的时候，就应该充分利用医学知识图谱中的医学知识来分析，这个时候就可以把调低（如设定=0.2等）。

图5为根据一个实施例的数据分析设备的结构示意图。在本例中，该数据分析设备基于医学大数据和医学知识图谱的来进行分析。与图1类似，图5所示数据分析设备500也包含了三个部分，大数据分析设备（如左边虚线框所示）、医学数据分析设备（右上虚线框所包含部分加上接收单元510）以及对上述两部分输出结果进行调和的调和部分（如右下虚线框所示）。本领域技术人员能够理解，所述大数据分析设备和医学数据分析设备可以作为独立的设备独立实施。另外需要指出的是，所述大数据分析设备同样可以用来对其它大数据进行分析，从而确定一个对象在大数据空间内所处的子空间或类别，所述医学数据分析设备也可以对结构与医学知识图谱类似的其它类型的知识图谱进行分析，从而确定一个对象在该知识图谱中所处的类别节点或类别。

如图5所示，大数据分析设备可以包括：接收单元510、子空间定位单元520、第一分析单元530以及可选的第一输出单元540。该接收单元510可以被配置用来接收患者的体征症状并用向量h来表示所述体征症状。该子空间定位单元520可以被配置用来以所述体征症状为特征定位患者在医学大数据中所处的子空间。其中用矩阵D来表示大数据中的病例集合，D = [D₁, D₂, ……, D_M]，D_i表示第i个子空间，1≤i≤M。所述定位可以包括对公式求解，X为一个系数向量，用来表示向量h在各个子空间中的分布。该第一分析单元530可以被配置用来通过分析体征症状向量h所在子空间的语义一致性来分析患者处于特定子空间或类别的概率P₁。

在一个实施例中，所述子空间定位单元520可以进一步被配置用来通过采用稀疏解法对如下公式求解从而确定患者所处的子空间：。所述子空间定位单元520可以进一步被配置用来基于系数向量X中各元素的值确定h位于哪个子空间的部分最多，从而确定位于哪个子空间的概率最大。

在一个实施例中，所述稀疏解法包括求解,其中X满足，其中是L1范式，是L2范式。所获得的解中值不为零的维度所对应的病例构成了h所在的子空间。

在一个实施例中，所述第一分析单元520可以进一步被配置用来通过如下公式来计算h所在语义子空间和子空间D_i的一致性：

，

其中，，为误差，表示系数向量X中属于子空间D_i的维度为1，其余维度为0的一个列向量。

在一个实施例中，所述可选的第一输出单元540可以被配置用来输出C₁、C₂、……、C_M、中的最大值作为患者处于相应子空间或属于相应类别的概率P₁。

所述医学数据分析设备可以包括接收单元510、访问单元550、第二分析单元560和确定单元570。该访问单元550可以被配置用来访问医学知识图谱以获得与患者相关的部分医学知识图谱，所述部分医学知识图谱包括多个节点V={v₁, v_2,…, v_N}以及每一个节点的初始证据得分，其中，每一个节点v_i表示患者的一个症状或一个相关疾病(在更一般的例子中为一个特征或一个类别)，表示节点v_i的初始证据得分。第二分析单元560可以被配置用来基于所述患者的体征症状在所述部分医学知识图谱上的证据传递得分从而确定每一个节点的最终证据得分p_t。该确定单元570可以被配置用来基于最终证据得分p_t中各个节点的得分来分析患者处于特定节点或类别的概率P₂。在一个实施例中，所述第二分析单元550可以进一步包括计算单元。该计算单元可以被配置用来通过如下公式进行迭代运算从而确定各节点的最终证据得分：

，

其中d为阻尼系数，0<d<1；，，w_i,j表示连接V中各节点v_i和v_j的边e_i,j的权重。在一个实施例中，所述迭代运算的终止条件是在所述迭代运算中p_t不再发生变化或者达到最大迭代次数。。

在另一个实施例中，该计算单元可以被配置用来通过如下公式确定各节点的最终证据得分：

，

在一个实施例中，所述确定单元570可以进一步被配置用来：通过计算V中每一个疾病节点的最终得分在V中所有疾病节点的最终得分之和中所占的百分比来处于各个节点的概率；以及输出所述概率中的最大概率作为处于相应节点或类别的概率P₂。相应地，该节点和类别也就被确定为患者所属的节点或类别。

所述调和部分可以包括调和单元580和最终结果输出单元590。该调和单元580可以被配置用来基于概率P₁和概率P₂来确定患者处于特定子空间或节点或类别的概率P：

，

其中是调和参数，0<<1。最终结果输出单元590可以被配置用来输出所述概率P作为患者处于相应子空间或节点或类别的概率。

需要指出的是，图5所示数据分析设备500可以执行图1所示方法中的任何方法步骤。由于本公开的原理与所述分析方法相同，本领域技术人员可以从对所述方法的描述中获得关于数据分析设备500的其它细节，在此就不再重复描述数据分析设备500以及其组件执行上述方法及其步骤的细节了。

图6图示了可以被用于实现一个或多个实施例的示例计算设备600。特别地，根据一些实施例的设备可以在所述示例计算设备600实现。如图所示，示例计算设备600包含一个或多个处理器610或处理单元，可以包含一个或多个存储器622的一个或多个计算机可读介质620，一个或多个用于向用户显示内容的显示器640，一个或多个用于输入输出（I/O）设备的输入/输出（I/O）接口650，一个或多个用于与其它计算设备或通信设备通信的通信接口660，以及允许不同的组件和设备彼此通信的总线630。

计算机可读介质620、显示器640和/或一个或多个I/O设备可以被包含来作为计算设备600的一部分，或者可替换地可以被耦合到计算设备600。总线630表示一个或多个若干类型的总线结构，其包含存储总线或存储控制器、外围总线、加速图形端口、以及使用各种各样总线架构的任何结构的处理器或局部总线。总线630可以包含有线的和/或无线的总线。

一个或多个处理器610在形成它们的材料或其中采用的处理机制方面没有任何限制。例如，处理器可以由一个或多个半导体和/或晶体管（例如电子集成电路（IC））组成。在这样的背景下，处理器可执行指令可以是电学可执行的指令。存储器622表示与一种或多种计算机可读介质相关联的记忆/存储容量。该存储器622可以包含易失性介质（诸如随机存取存储器（RAM）之类）和/或非易失性介质（诸如只读存储器（ROM）、闪速存储器、光盘、磁盘等等之类）。该存储器622可以包含固定介质（例如，RAM、ROM、固定硬盘驱动等等）以及可移动介质（例如，闪速存储器驱动、可移动硬盘驱动、光盘等等）。

一个或多个输入/输出接口650允许用户输入命令和信息到计算设备600，并且同样允许将信息呈现给该用户和/或使用不同的输入/输出设备呈现给其它组件或设备。输入设备的示例包含键盘、触摸屏显示器、光标控制设备（例如鼠标）、麦克风、扫描仪等等。输出设备的示例包含显示设备（例如监视器或投影仪）、扬声器、打印机、网卡等等。

通信接口660允许与其它计算设备或通信设备进行通信。通信接口660在其采用的通信技术方面没有任何限制。通信接口660可以包括诸如局域网通信接口和广域网通信接口之类的有线通信接口，也可以包括无线通信接口，例如红外线、Wi-Fi或者蓝牙通信接口。

本文中各种技术是在软件、硬件（固定逻辑电路）、或程序模块的一般环境下描述的。一般地，所述程序模块包含执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等等。这些模块和技术的实现可以被存储在某种形式的计算机可读介质上或经由该计算机可读介质而被传输。计算机可读介质可以包含多种可以由计算设备访问的可用媒介或介质。

本文描述的特定的模块、功能、组件和技术可以被实现在软件、硬件、固件和/或其组合中。计算设备600可以被配置成执行对应于实现在计算机可读介质上的软件和/或硬件模块的特定指令和/或功能。该指令和/或功能可以由制造产品（例如，一个或者多个计算设备600和/或处理器610）执行/操作以便实现本文所述的技术。这样的技术包含但不限于本文所描述的示例过程。因此，计算机可读介质可以被配置成当由本文所描述的一个或者多个设备访问时存储或提供用于实现上述不同技术的指令。

尽管上面参考附图对本发明的一些实施例进行了具体的描述，但是本领域普通技术人员可以理解，以上的具体描述仅仅是为了解释本发明，本发明绝不仅仅局限于上述具体的实施方式。基于本文对这些实施例的具体描述和教导，本领域普通技术人员可以对这些具体实施方式进行各种修改、增加、置换以及变型而不脱离本发明的保护范围，也就是说，这些修改、增加、置换以及变型都应涵盖在本发明的保护范围内。本发明的保护范围应所述以权利要求的保护范围为准。上文中描述的具体特征和行为是作为实现权利要求的示例形式而被公开的。

需要说明的是，上述实施例仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要将上述功能分配给不同的功能模块完成。可以将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述一个模块的功能可以由多个模块来完成，上述多个模块的功能也可以集成到一个模块中完成。

本申请使用了诸如“第一”、“第二”、“第三”等之类的措词。在无附加上下文时，使用这样的措词并不旨在暗示排序，实际上它们仅仅用于标识目的。例如短语“第一分析单元”和“第二分析单元”未必意味着在时间上第一分析单元在第二分析单元之前实施操作、执行处理。实际上，这些短语仅仅用来标识不同的分析单元。

在权利要求书中，任何置于括号中的附图标记都不应当解释为限制权利要求。术语“包括”或“包含”并不排除除了权利要求中所列出的元件或步骤之外的元件或步骤的存在。元件前的词语“一”或“一个”并不排除存在多个这样的元件。在列举了若干装置的设备或系统权利要求中，这些装置中的一个或多个能够在同一个硬件项目中体现。仅仅某个措施记载在相互不同的从属权利要求中这个事实并不表明这些措施的组合不能被有利地使用。

Claims

1.一种医学大数据分析方法，包括：

接收患者的体征症状并用向量h来表示所述体征症状；

2. 根据权利要求1所述的方法，以所述体征症状为特征定位患者在医学大数据中所处的子空间进一步包括：

3.根据权利要求2所述的方法，所述稀疏解法包括：

求解,其中X满足，其中是L1范式，是L2范式，

4.根据权利要求1、2或3所述的方法，分析体征症状向量h所在子空间的语义一致性进一步包括：

通过如下公式来计算h所在语义子空间和子空间D_i的一致性：

，

5.根据权利要求4所述的方法，进一步包括：

6.一种基于医学知识图谱的医学数据分析方法，包括：

接收患者的体征症状；

7.根据权利要求6所述的方法，确定每一个节点的最终证据得分p_t进一步包括：

，

8.根据权利要求7所述的方法，所述迭代运算的终止条件是在所述迭代运算中p_t不再发生变化或者达到最大迭代次数。

9.根据权利要求6所述的方法，确定每一个节点的最终证据得分p_t进一步包括：

通过如下公式确定各节点的最终证据得分：

，

10. 根据权利要求6所述的方法，基于最终证据得分p_t中各个节点的得分来分析患者处于特定节点的概率P₂进一步包括：

11.一种医学数据分析方法，包括：

接收患者的体征症状；

，其中是调和参数，0<<1。

12.一种医学大数据分析设备，包括：

13. 根据权利要求12所述的设备，所述子空间定位单元进一步被配置用来：

14.根据权利要求13所述的设备，所述稀疏解法包括：

求解,其中X满足，其中是L1范式，是L2范式，

15.根据权利要求12、13或14所述的设备，所述第一分析单元进一步被配置用来：

通过如下公式来计算h所在语义子空间的一致性：

，

16.根据权利要求15所述的设备，进一步包括：

17.一种基于医学知识图谱的医学数据分析设备，包括：

接收单元，被配置用来接收患者的体征症状；

18.根据权利要求17所述的设备，所述第二分析单元进一步包括：

，

19.根据权利要求18所述的设备，所述迭代运算的终止条件是在所述迭代运算中p_t不再发生变化或者达到最大迭代次数。

20.根据权利要求17所述的设备，所述第二分析单元进一步包括：

，

21. 根据权利要求17所述的设备，所述确定单元进一步被配置用来：

输出所述概率中的最大概率作为处于相应节点的概率P₂。

22.一种医学数据分析设备，包括：

接收单元，被配置用接收患者的体征症状；

，其中是调和参数，0<<1。

23. 一种医学大数据分析设备，包括：

存储器，被配置用来存储计算机可执行指令；以及

耦合到所述存储器的处理器，被配置用来执行所述计算机可执行指令从而使得所述处理器执行如权利要求1-11中任何一项所述的方法。

24.一种计算机可读存储介质，其上存储了计算机可读指令，所述指令在被计算设备执行时导致计算设备执行如权利要求1-11中任何一项所述的方法。