CN108764280B - 一种基于症状向量的医学数据处理方法和系统 - Google Patents

一种基于症状向量的医学数据处理方法和系统 Download PDF

Info

Publication number
CN108764280B
CN108764280B CN201810343909.5A CN201810343909A CN108764280B CN 108764280 B CN108764280 B CN 108764280B CN 201810343909 A CN201810343909 A CN 201810343909A CN 108764280 B CN108764280 B CN 108764280B
Authority
CN
China
Prior art keywords
disease
symptom
vector
vectors
symptoms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810343909.5A
Other languages
English (en)
Other versions
CN108764280A (zh
Inventor
商显震
胡满满
陈旭
孙毓忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Flux Technology Co ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201810343909.5A priority Critical patent/CN108764280B/zh
Publication of CN108764280A publication Critical patent/CN108764280A/zh
Application granted granted Critical
Publication of CN108764280B publication Critical patent/CN108764280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于症状向量的医学数据处理方法和系统,包括:通过将数据库中的症状进行向量化处理,得到由症状向量组成的初始症状集合,并根据初始症状集合得到疾病向量,集合疾病向量作为初始疾病集合;获取多个病例样本,根据病例样本的样本向量与疾病向量间的相似度,并结合损失函数对疾病向量和症状向量进行更新,以将初始疾病集合和初始症状集合分别更新为最终疾病集合和最终症状集合;用户输入症状,根据输入症状与最终症状集合中各疾病向量的相似度,对数据库中的疾病进行筛选,并将筛选出的疾病作为处理结果返回给用户。

Description

一种基于症状向量的医学数据处理方法和系统
技术领域
本发明涉及医疗数据分析领域,特别涉及一种基于症状向量的医学数据处理方法和系统。
背景技术
计算机科学的不断进步与信息技术的迅猛发展为医疗服务行业带来了新的机遇和挑战,智能诊断或疾病预测等医疗信息系统的相关研究极大促进了医疗信息化产业的迅速发展。疾病的诊断离不开对患者的症状和临床表现的辨别与分析,对以自然语言形式描述的症状的分析处理具有越来越重要的意义。
现阶段在疾病辅助诊断领域,许多专家学者从各个技术角度进行研究,产生了大量的理论与实践结果。专利CN 201710259468.6发明公开了一种基于深度学习算法的恶性肿瘤计算机辅助早期诊断方法术,使用深度卷积神经网络逐层提取图像的高层次特征,得到的特征图维度在不断减小。为了实现输出概率预测图和预分割图像的尺寸匹配,该发明使用反卷积网络拓展特征图尺寸,得到尺寸一致的概率预测图。网络生成的概率预测图通过训练一个softmax分类器,对预测图像取二值化,获得最终的前列腺组织的分割结果。
很多专家学者使用深度学习、图像处理等技术进行疾病辅助诊断的研究。专利CN201710306765.1接收上传的待诊患者的病征图像,利用深度学习算法提取所述待诊患者的病征图像的待诊特征,建立待诊特征集,并且将待诊特征集与训练图库中各疾病的标准病征图像的标准特征集进行比对,获得待诊患者的病征图像与疾病的标准病征图像之间的图像相似度,根据图像相似度确定待诊患者患疾病的概率。
自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。NLP(Neuro-Linguistic Programming)中最直观,也是到目前为止最常用的词表示方法是One-hot Representation(独热表示),这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。举个栗子,“话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …],“麦克”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …],每个词都是茫茫0海中的一个1。这种One-hot Representation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。简洁的向量表示方法配合最大熵、SVM、CRF等等算法已经很好地完成了NLP领域的各种主流任务。
发明内容
本发明针对目前疾病诊断的查询主要从以下三方面展开:
1、症状的向量化表示与疾病的向量化表示,即在疾病诊断的过程中,对所有的疾病均认为是其所包含症状的组合表示,疾病的向量化表示可基于其所含症状的向量表示进行表示;
2、使用病例样本进行症状向量更新与疾病向量更新,计算病例样本与疾病的向量表示的距离并结合损失函数进行反向迭代更新,本发明设计了疾病与病例样本的向量化表示方法,并设计了距离计算方法与损失函数和迭代更新方法;
3、使用用户输入进行疾病辅助诊断工作,本发明设计了方法应用于疾病辅助诊断系统的工作流程和疾病诊断方法。
需要注意的是本发明并不直接作用于人体,可作为医疗辅助工具,辅助医学教育科研等医学技术领域。
具体来说本发明具体提供了一种基于症状向量的医学数据处理方法,其中包括:
步骤1、通过将数据库中的症状进行向量化处理,得到由症状向量组成的初始症状集合,并根据该初始症状集合得到疾病向量,集合该疾病向量作为初始疾病集合;
步骤2、获取多个病例样本,根据该病例样本的样本向量与疾病向量间的相似度,并结合损失函数对疾病向量和症状向量进行更新,以将该初始疾病集合和该初始症状集合分别更新为最终疾病集合和最终症状集合;
步骤3、用户输入症状,根据该输入症状与该最终症状集合中各疾病向量的相似度,对该数据库中的疾病进行筛选,并将筛选出的疾病作为处理结果返回给用户。
该基于症状向量的医学数据处理方法,其中该步骤2包括:
步骤21、获取该样本向量与该初始疾病集合中疾病向量的距离,通过对距离进行排序,为该样本向量对应的病例样本中各疾病分配序号,以生成损失函数,并通过该损失函数和深度学习优化算法反向优化该初始症状集合,将该初始症状集合更新为该最终症状集合;
步骤22、使用该最终症状集合重新计算疾病向量,以将该初始疾病集合更新为该最终疾病集合。
该基于症状向量的医学数据处理方法,其中该损失函数具体为:
Figure BDA0001631268720000031
其中,mk为病例样本(xi,yi)的疾病集yi中疾病
Figure BDA0001631268720000032
的序号,k表示疾病
Figure BDA0001631268720000033
是yi中的第k个疾病,K表示yi中共有K个疾病标签。
该基于症状向量的医学数据处理方法,其中该步骤1包括:
步骤11、使用TransE模型对症状进行向量化处理;
步骤21、根据以下公式计算疾病向量:
Figure BDA0001631268720000034
其中,
Figure BDA0001631268720000035
为症状
Figure BDA0001631268720000036
的向量表示,上标k表示症状
Figure BDA0001631268720000037
是疾病Di中的第k个症状,疾病Di中共有K个症状。
该基于症状向量的医学数据处理方法,其中该步骤2中对于给定的病例样本(xi,yi),其中
Figure BDA0001631268720000038
xi表示病例样本(xi,yi)的症状集合,
Figure BDA0001631268720000039
表示集合xi中的第j个症状,该病例样本的症状数为J;yi表示病例样本(xi,yi)对应的疾病集合,
Figure BDA00016312687200000310
表示集合yi中的第k个疾病标签,该病例样本的疾病标签数为K,同时疾病标签
Figure BDA00016312687200000311
属于疾病集合D;
该样本向量表示为:
Figure BDA00016312687200000312
其中,
Figure BDA00016312687200000313
为症状
Figure BDA00016312687200000314
的向量表示,上标j表示症状
Figure BDA00016312687200000315
是病例样本中(xi,yi)的第j个症状,病例样本中(xi,yi)中共有J个症状。
本发明还提供了一种基于症状向量的医学数据处理系统,其中包括:
向量化处理模块,通过将数据库中的症状进行向量化处理,得到由症状向量组成的初始症状集合,并根据该初始症状集合得到疾病向量,集合该疾病向量作为初始疾病集合;
集合更新模块,用于获取多个病例样本,根据该病例样本的样本向量与疾病向量间的相似度,并结合损失函数对疾病向量和症状向量进行更新,以将该初始疾病集合和该初始症状集合分别更新为最终疾病集合和最终症状集合;
筛选模块,用户输入症状,根据该输入症状与该最终症状集合中各疾病向量的相似度,对该数据库中的疾病进行筛选,并将筛选出的疾病作为处理结果返回给用户。
该基于症状向量的医学数据处理系统,其中该集合更新模块包括:
获取该样本向量与该初始疾病集合中疾病向量的距离,通过对距离进行排序,为该样本向量对应的病例样本中各疾病分配序号,以生成损失函数,并通过该损失函数和深度学习优化算法反向优化该初始症状集合,将该初始症状集合更新为该最终症状集合;
使用该最终症状集合重新计算疾病向量,以将该初始疾病集合更新为该最终疾病集合。
该基于症状向量的医学数据处理系统,其中该损失函数具体为:
Figure BDA0001631268720000041
其中,mk为病例样本(xi,yi)的疾病集yi中疾病
Figure BDA0001631268720000042
的序号,k表示疾病
Figure BDA0001631268720000043
是yi中的第k个疾病,K表示yi中共有K个疾病标签。
该基于症状向量的医学数据处理系统,其中该向量化处理模块包括:
使用TransE模型对症状进行向量化处理;
根据以下公式计算疾病向量:
Figure BDA0001631268720000044
其中,
Figure BDA0001631268720000045
为症状
Figure BDA0001631268720000046
的向量表示,上标k表示症状
Figure BDA0001631268720000047
是疾病Di中的第k个症状,疾病Di中共有K个症状。
该基于症状向量的医学数据处理系统,其中
该集合更新模块中对于给定的病例样本(xi,yi),其中
Figure BDA0001631268720000051
xi表示病例样本(xi,yi)的症状集合,
Figure BDA0001631268720000052
表示集合xi中的第j个症状,该病例样本的症状数为J;yi表示病例样本(xi,yi)对应的疾病集合,
Figure BDA0001631268720000053
表示集合yi中的第k个疾病标签,该病例样本的疾病标签数为K,同时疾病标签
Figure BDA0001631268720000054
属于疾病集合D;
该样本向量表示为:
Figure BDA0001631268720000055
其中,
Figure BDA0001631268720000056
为症状
Figure BDA0001631268720000057
的向量表示,上标j表示症状
Figure BDA0001631268720000058
是病例样本中(xi,yi)的第j个症状,病例样本中(xi,yi)中共有J个症状。
本发明使用TransE翻译模型生成疾病症状的向量表示;现有技术没有对疾病症状进行向量表示。本发明使用疾病所包含症状的向量均值作为疾病的向量表示,使用病例样本所包含症状的向量均值作为病例样本的向量表示,该向量表示方法可综合考虑每个症状对疾病和病例样本的影响;现有技术普遍使用症状特征空间的向量空间模型表示疾病和病例样本。本发明使用损失函数迭代更新症状和疾病的向量表示,使病例样本标签的主次顺序与向量距离计算结果的主次顺序误差逐渐减小,使向量表示更加准确;现有技术普遍没有进行对症状和疾病向量表示的更新。本发明使用上面三个步骤使症状和疾病的向量表示更加准确,向量表示是否准确直接影响距离计算结果是否准确。因此,本发明使用上述方法可以提高待诊断病例向量的与疾病向量距离计算的准确度,即提高诊断准确率。
附图说明
图1为本发明使用病例样本集合更新症状和疾病向量的结构原理图;
图2为本发明应用流程图。
具体实施方式
本发明以和疾病集合和症状集合为基础,提供了症状向量表示和疾病综合向量表示方法,通过计算训练病例的向量表示与疾病的向量表示之间的相似度并结合损失函数优化症状与疾病的向量表示,目标是根据迭代次数要求得到每一个症状和疾病的向量表示。
为实现上述目的,本发明采用的步骤和每一步的技术方案如下:
A.症状集合、疾病集合与病例样本集合:
本发明的应用范围在症状集合与疾病集合范围之内,疾病集合中的每个疾病在临床表现中的症状均包含在症状集合中。
A1.症状集合。本发明使用任意疾病包含的所有症状不重复地合并组成症状集合,症状集合用S表示,S={S1,S2,...,Sp},Sp代表第p种症状。
A2.疾病集合。本发明所涉及的疾病种类不重复地组合程疾病集合,疾病集合用D表示,D={D1,D2,...,Dm},Dm代表第m种疾病。
A3.病例样本集合。本发明使用病例样本集合作为训练集,进行症状向量化表示的迭代更新,病例样本集合为TrainingSet={(x1,y1),(x2,y2),...,(xN,yN)}。其中,任意(xi,yi)代表一个病例样本,xi表示该病例样本在临床中表现的症状,即该病例样本包含的症状集合,yi表示该病例样本所对应疾病集合,即该病例样本的类别标签集合,每个病例样本含有至少一个疾病标签。在病例样本(xi,yi)的疾病标签集合中,疾病标签的顺序表示疾病标签对此病例的重要程度,第1个疾病标签为该病例的主要疾病,第2个疾病标签较第1个疾病标签重要性降低,以此类推。
Figure BDA0001631268720000061
Figure BDA0001631268720000062
其中,xi表示病例样本(xi,yi)的症状集合,
Figure BDA0001631268720000063
表示集合xi中的第j个症状,该病例样本的症状数为J,同时症状
Figure BDA0001631268720000064
属于症状集合S;yi表示病例样本(xi,yi)对应的类别标签集合,即该病例样本对应哪几种疾病,
Figure BDA0001631268720000065
表示集合yi中的第k个疾病标签,该病例样本的疾病标签数为K,同时疾病标签
Figure BDA0001631268720000066
属于疾病集合D。
B.症状与疾病的向量初始化:
B1.症状的向量表示。在确定症状集合与疾病集合之后,本发明采用翻译模型,例如TransE模型训练症状集合S,进行向量表示初始化,使每一个症状都有向量化表示。本文中使用
Figure BDA0001631268720000067
表示症状Si的向量表示。
B2.疾病的向量表示。使用TransE模型进行症状集合S的向量表示初始化之后,计算每一种疾病的综合向量表示。疾病Di的向量表示
Figure BDA0001631268720000068
使用如下公式进行:
Figure BDA0001631268720000069
其中,
Figure BDA0001631268720000071
为症状
Figure BDA0001631268720000072
的向量表示,上标k表示症状
Figure BDA0001631268720000073
是疾病Di中的第k个症状,疾病Di中共有K个症状。公式的含义为,疾病Di的向量表示
Figure BDA0001631268720000074
是疾病Di中每个症状的向量表示的均值。
C.使用病例样本集合更新症状和疾病的向量表示:
对于任意一个病例样本(xi,yi),本发明设计了其特征向量
Figure BDA0001631268720000075
的表示,用于进行症状向量表示的更新,其特征向量可表示为:
Figure BDA0001631268720000076
其中,
Figure BDA0001631268720000077
为症状
Figure BDA0001631268720000078
的向量表示,上标j表示症状
Figure BDA0001631268720000079
是病例样本中(xi,yi)的第j个症状,病例样本中(xi,yi)中共有J个症状。公式的含义为,病例样本中(xi,yi)的向量表示
Figure BDA00016312687200000710
是病例样本中(xi,yi)中每个症状的向量表示的均值。
在得到了病例样本的向量化表示和疾病的向量化表示之后,本发明设计了两者的距离计算方法。因此对于病例样本(xi,yi)与任意疾病Di的距离计算公式如下:
Figure BDA00016312687200000711
其中,
Figure BDA00016312687200000712
为病例样本(xi,yi)的向量表示,
Figure BDA00016312687200000713
为疾病Di的向量表示。本设计使用余弦距离计算两向量之间的距离,表示病例样本(xi,yi)与任意疾病Di的距离。
根据距离计算公式对病例样本向量
Figure BDA00016312687200000714
与任意疾病向量Di之间的距离进行计算,将计算结果按从小到大排序,即可得到疾病按与样本(xi,yi)距离从小到大排列的顺序,并按这个顺序给每种疾病一个依次递增的序号,与样本(xi,yi)距离最近的疾病序号为1,次近的疾病序号为2,以此类推。样本(xi,yi)的标签集yi中疾病
Figure BDA00016312687200000715
的序号如下:
(m1,m2,...,mk),疾病的序号是根据前文中的排序得到的,例如距离当前样本最近的疾病对应的序号为1,其次距离远的疾病序号为2。
则,本发明设计损失函数为:
Figure BDA00016312687200000716
其中,mk为样本(xi,yi)的标签集yi中疾病
Figure BDA0001631268720000081
的序号,k表示疾病
Figure BDA0001631268720000082
是标签集yi中的第k个疾病,即疾病
Figure BDA0001631268720000083
在标签集yi中的下标,K表示标签集yi中共有K个疾病标签。
本发明下面更进一步描述本发明步骤,本发明的目标是在疾病诊断预测系统上,实现根据用户输入的症状智能诊断出对应的疾病,提升疾病诊断预测系统的准确性。详细实施步骤包含执行:A、使用病例样本集合更新症状和疾病的向量表示;B、用户输入预处理;C、求输入症状集合与每一个疾病的相似度;D、将相似度按从大到小排序筛选出满足阈值条件的疾病返回给用户。具体的一种实施方式如下:
使用病例样本集合更新症状和疾病的向量表示,其实现的基本过程方法为:
如图1所示,在疾病诊断预测系统供用户使用之前,要使用病例样本集合更新症状和疾病的向量表示,使用损失函数进行反向优化。首先,对于给定病例样本(xi,yi),其中
Figure BDA0001631268720000084
Figure BDA0001631268720000085
其特征向量表示为:
Figure BDA0001631268720000086
在确定病例样本的向量表示
Figure BDA0001631268720000087
和疾病的向量表示之后,使用距离计算公式进行距离计算,计算病例样本(xi,yi)特征向量与任意一个疾病Di的距离为:
Figure BDA0001631268720000088
将计算结果按从小到大排序,即可得到疾病按与样本(xi,yi)距离从小到大排列的顺序。在这个排序中,样本(xi,yi)的标签集yi中疾病
Figure BDA0001631268720000089
的序号如下:
(m1,m2,...,mk)
损失函数描述了样本(xi,yi)的标签集yi中疾病
Figure BDA00016312687200000810
在当前的症状向量表示与疾病向量表示下与样本(xi,yi)按距离从小到大排序的损失。经A3介绍,在病例样本的标签集合中,疾病标签顺序表示其重要性,第1个标签表示此病例的主要对应疾病。疾病向量与病例样本向量的距离计算结果的排序,体现了在当前症状向量表示的条件下,疾病对病例样本的重要性,距离最小的疾病是病例样本的主要对应疾病。病例的标签集yi中的疾病排序和距离计算后的疾病排序,可能出现差别,这说明距离计算对病例样本和疾病标签的对应关系产生了损失。例如,病例(xi,yi)的标签集为
Figure BDA0001631268720000095
经过距离计算和按距离从小到大排序结果为
Figure BDA0001631268720000096
则经过距离计算使病例与疾病标签的对应顺序产生了差别,这种差别即为损失。由于病例样本向量和疾病向量都是由症状向量表示计算得到,所以,损失的根本原因是,通过翻译模型TransE得到的症状向量表示不准确。本设计提出损失函数来衡量这种损失的大小,并利用损失函数来更新症状的向量表示。L(f(xi),yi)表示病例样本(xi,yi)的标签对应顺序与经向量距离计算后的对应顺序的差别,即病例样本(xi,yi)的标签集中的疾病顺序与距离计算后得到的疾病顺序之间的差别,称为损失。损失函数用如下式表示:
Figure BDA0001631268720000091
根据损失函数L(f(xi),yi),将计算得到的损失平均分配在病例(xi,yi)所含有的每个症状的向量表示上,每个症状获得的平均损失值用
Figure BDA0001631268720000092
表示,其计算公式如下:
Figure BDA0001631268720000093
根据平均损失值
Figure BDA0001631268720000094
使用深度学习优化方法,例如ADA或SMO算法反向优化每一个症状的向量表示Si,使损失函数L(f(xi),yi)最小。上述公式中,J表示病例样本包含的症状个数,L(f(xi),yi)表示当前的症状向量与疾病向量下的损失。
对每个病例样本均进行以上步骤,计算损失并反向优化,更新症状的向量表示,即完成一次症状向量的更新。使用更新后的症状向量重新计算疾病向量表示,即完成本次症状向量与疾病向量的更新。再次对每个病例样本重复上述步骤,即对症状向量和疾病向量的第二次更新。这种更新过程是迭代式的,对每个样本依次完成上述步骤即为迭代一次,再对每个样本依次完成上述步骤即为迭代两次。症状向量与疾病向量的更新次数可设置,即为迭代次数的设置。
若达到设置的迭代次数则完成向量更新工作,则最终得到每一个症状的向量表示,与每一个疾病的向量表示;若未达到迭代次数,则重复进行更新工作,直到达到要求迭代次数为止。
如图2所示,用户输入预处理,其实现的基本过程方法为:
在疾病诊断预测系统中,将用户的输入转换为向量表示。首先,对用户的输入提取关键症状,提取后的关键症使用TransE进行向量初始化,表示为{S1,S2,...,SK},则用户的输入可以向量化表示为:
Figure BDA0001631268720000101
求输入症状集合与每一个疾病的相似度,其实现方法为:
在完成用户输入的向量化表示之后,需要计算用户输入与每一个疾病的距离:
Figure BDA0001631268720000102
将相似度按从大到小排序筛选出满足阈值条件的疾病返回给用户,其实现方法为:
在计算完成用户输入与每一个疾病之间的距离之后,将距离按照值从大到小排列,选取大于用户设定阈值的距离对应的疾病返回给用户。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种基于症状向量的医学数据处理系统,其中包括:
向量化处理模块,通过将数据库中的症状进行向量化处理,得到由症状向量组成的初始症状集合,并根据该初始症状集合得到疾病向量,集合该疾病向量作为初始疾病集合;
集合更新模块,用于获取多个病例样本,根据该病例样本的样本向量与疾病向量间的相似度,并结合损失函数对疾病向量和症状向量进行更新,以将该初始疾病集合和该初始症状集合分别更新为最终疾病集合和最终症状集合;
筛选模块,用户输入症状,根据该输入症状与该最终症状集合中各疾病向量的相似度,对该数据库中的疾病进行筛选,并将筛选出的疾病作为处理结果返回给用户。
该基于症状向量的医学数据处理系统,其中该集合更新模块包括:
获取该样本向量与该初始疾病集合中疾病向量的距离,通过对距离进行排序,为该样本向量对应的病例样本中各疾病分配序号,以生成损失函数,并通过该损失函数和深度学习优化算法反向优化该初始症状集合,将该初始症状集合更新为该最终症状集合;
使用该最终症状集合重新计算疾病向量,以将该初始疾病集合更新为该最终疾病集合。
该基于症状向量的医学数据处理系统,其中该损失函数具体为:
Figure BDA0001631268720000111
其中,mk为病例样本(xi,yi)的疾病集yi中疾病
Figure BDA0001631268720000112
的序号,k表示疾病
Figure BDA0001631268720000113
是yi中的第k个疾病,K表示yi中共有K个疾病标签。
该基于症状向量的医学数据处理系统,其中该向量化处理模块包括:
使用TransE模型对症状进行向量化处理;
根据以下公式计算疾病向量:
Figure BDA0001631268720000114
其中,
Figure BDA0001631268720000115
为症状
Figure BDA0001631268720000116
的向量表示,上标k表示症状
Figure BDA0001631268720000117
是疾病Di中的第k个症状,疾病Di中共有K个症状。
该基于症状向量的医学数据处理系统,其中
该集合更新模块中对于给定的病例样本(xi,yi),其中
Figure BDA0001631268720000118
xi表示病例样本(xi,yi)的症状集合,
Figure BDA0001631268720000119
表示集合xi中的第j个症状,该病例样本的症状数为J;yi表示病例样本(xi,yi)对应的疾病集合,
Figure BDA00016312687200001110
表示集合yi中的第k个疾病标签,该病例样本的疾病标签数为K,同时疾病标签
Figure BDA00016312687200001111
属于疾病集合D;
该样本向量表示为:
Figure BDA00016312687200001112
其中,
Figure BDA00016312687200001113
为症状
Figure BDA00016312687200001114
的向量表示,上标j表示症状
Figure BDA00016312687200001115
是病例样本中(xi,yi)的第j个症状,病例样本中(xi,yi)中共有J个症状。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

Claims (3)

1.一种基于症状向量的医学数据处理系统,其特征在于,包括:
向量化处理模块,通过将数据库中的症状进行向量化处理,得到由症状向量组成的初始症状集合,并根据该初始症状集合得到疾病向量,集合该疾病向量作为初始疾病集合;
集合更新模块,用于获取多个病例样本,根据该病例样本的样本向量与疾病向量间的相似度,并结合损失函数对疾病向量和症状向量进行更新,以将该初始疾病集合和该初始症状集合分别更新为最终疾病集合和最终症状集合;
筛选模块,用户输入症状,根据该输入症状与该最终症状集合中各疾病向量的相似度,对该数据库中的疾病进行筛选,并将筛选出的疾病作为处理结果返回给用户;
其中,该损失函数具体为:
Figure FDA0002897898530000011
其中,mk为病例样本(xi,yi)的疾病集yi中疾病
Figure FDA0002897898530000012
的序号,k表示疾病
Figure FDA0002897898530000013
是yi中的第k个疾病,K表示yi中共有K个疾病标签;
且该集合更新模块包括:
获取该样本向量与该初始疾病集合中疾病向量的距离,通过对距离进行排序,为该样本向量对应的病例样本中各疾病分配序号,以生成损失函数,并通过该损失函数和深度学习优化算法反向优化该初始症状集合,将该初始症状集合更新为该最终症状集合;
使用该最终症状集合重新计算疾病向量,以将该初始疾病集合更新为该最终疾病集合。
2.如权利要求1所述的基于症状向量的医学数据处理系统,其特征在于,该向量化处理模块包括:
使用TransE模型对症状进行向量化处理;
根据以下公式计算疾病向量:
Figure FDA0002897898530000014
其中,
Figure FDA0002897898530000015
为症状
Figure FDA0002897898530000016
的向量表示,上标k表示症状
Figure FDA0002897898530000017
是疾病Di中的第k个症状,疾病Di中共有K个症状。
3.如权利要求1所述的基于症状向量的医学数据处理系统,其特征在于,
该集合更新模块中对于给定的病例样本(xi,yi),其中
Figure FDA0002897898530000021
xi表示病例样本(xi,yi)的症状集合,
Figure FDA0002897898530000022
表示集合xi中的第j个症状,该病例样本的症状数为J;yi表示病例样本(xi,yi)对应的疾病集合,
Figure FDA0002897898530000023
表示集合yi中的第k个疾病标签,该病例样本的疾病标签数为K,同时疾病标签
Figure FDA0002897898530000024
属于疾病集合D;
该样本向量表示为:
Figure FDA0002897898530000025
其中,
Figure FDA0002897898530000026
为症状
Figure FDA0002897898530000027
的向量表示,上标j表示症状
Figure FDA0002897898530000028
是病例样本中(xi,yi)的第j个症状,病例样本中(xi,yi)中共有J个症状。
CN201810343909.5A 2018-04-17 2018-04-17 一种基于症状向量的医学数据处理方法和系统 Active CN108764280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810343909.5A CN108764280B (zh) 2018-04-17 2018-04-17 一种基于症状向量的医学数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810343909.5A CN108764280B (zh) 2018-04-17 2018-04-17 一种基于症状向量的医学数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN108764280A CN108764280A (zh) 2018-11-06
CN108764280B true CN108764280B (zh) 2021-04-27

Family

ID=64010634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810343909.5A Active CN108764280B (zh) 2018-04-17 2018-04-17 一种基于症状向量的医学数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN108764280B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460473B (zh) * 2018-11-21 2021-11-02 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
CN110246572B (zh) * 2019-05-05 2021-07-13 清华大学 一种基于词向量的医疗分诊方法及系统
CN111785369B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 诊断预测方法、相关设备及可读存储介质
CN111968740B (zh) * 2020-09-03 2021-04-27 卫宁健康科技集团股份有限公司 一种诊断标签推荐方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805463B2 (en) * 2013-08-27 2017-10-31 Heartflow, Inc. Systems and methods for predicting location, onset, and/or change of coronary lesions
CN104331600B (zh) * 2014-09-30 2018-07-17 百度在线网络技术(北京)有限公司 基于因子图模型的自诊模型训练方法和装置
CN105808931B (zh) * 2016-03-03 2019-05-07 北京大学深圳研究生院 一种基于知识图谱的针灸决策支持方法及装置
CN106991284B (zh) * 2017-03-31 2019-12-31 南华大学 智能育儿知识服务方法及系统
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"LVMCI: Efficient and Effective VM Live Migration Selection Scheme in Virtualized Data Centers";Wei Zhang等;《 2012 IEEE 18th International Conference on Parallel and Distributed Systems》;20121219;全文 *

Also Published As

Publication number Publication date
CN108764280A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764280B (zh) 一种基于症状向量的医学数据处理方法和系统
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
CN110444259B (zh) 基于实体关系标注策略的中医电子病历实体关系提取方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN111462896B (zh) 一种基于病案的实时智能辅助icd编码系统和方法
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN115098620B (zh) 一种注意力相似度迁移的跨模态哈希检索方法
CN111354338B (zh) 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN115249539B (zh) 一种多模态小样本抑郁症预测模型构建方法
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN110837736A (zh) 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法
CN114937182A (zh) 一种基于情感轮和卷积神经网络的图像情感分布预测方法
CN114625879A (zh) 基于自适应变分编码器的短文本聚类方法
CN111461229B (zh) 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法
CN114841214B (zh) 基于半监督判别投影的脉搏数据分类方法及装置
CN109934248B (zh) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
CN113379757B (zh) 用于训练脑影像分割模型的方法及脑影像分割方法
CN111985680B (zh) 基于胶囊网络与时序的刑事多罪名预测方法
CN115713970A (zh) 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN111128390B (zh) 一种基于骨科症状特征选取的文本处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240320

Address after: Room 711C, Floor 7, Building A, Yard 19, Ronghua Middle Road, Daxing District, Beijing Economic-Technological Development Area, 100176

Patentee after: Beijing Zhongke Flux Technology Co.,Ltd.

Country or region after: China

Address before: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

Country or region before: China

TR01 Transfer of patent right