CN108346474B - 基于单词的类内分布与类间分布的电子病历特征选择方法 - Google Patents
基于单词的类内分布与类间分布的电子病历特征选择方法 Download PDFInfo
- Publication number
- CN108346474B CN108346474B CN201810208599.6A CN201810208599A CN108346474B CN 108346474 B CN108346474 B CN 108346474B CN 201810208599 A CN201810208599 A CN 201810208599A CN 108346474 B CN108346474 B CN 108346474B
- Authority
- CN
- China
- Prior art keywords
- diseases
- word
- words
- medical record
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 18
- 201000010099 disease Diseases 0.000 claims abstract description 92
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 92
- 208000024891 symptom Diseases 0.000 claims abstract description 27
- 239000003814 drug Substances 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 229940079593 drug Drugs 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 206010040047 Sepsis Diseases 0.000 description 7
- 208000019206 urinary tract infection Diseases 0.000 description 7
- 230000027939 micturition Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000032376 Lung infection Diseases 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 206010040070 Septic Shock Diseases 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 206010048038 Wound infection Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 206010013990 dysuria Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036303 septic shock Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及基于单词的类内分布与类间分布的电子病历特征选择方法。本发明首先构建了疾病、药品词典,其次总结了中文病历中症状词分布的三大特点,然后对收集到的病人病历进行预处理,将分词结果保存到数据库中。本发明根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。
Description
技术领域
本发明涉及在疾病智能诊断和中文文本特征选择领域,基于单词在同类病人和异类病人间的分布情况,来实现疾病特征提取过程,并基于提取的特征利用SVM(支持向量机)实现疾病智能诊断。
背景技术
疾病诊断具有很大的不确定性,给诊断决策过程增加了难度;同时,随着医学科学的发展,临床分科越来越细,临床医师的知识面也越来越窄,他们往往只关注于自己的专科,很难将病人作为一个有机整体进行全面的考虑,这给诊断过程带来了一定的风险。疾病智能诊断研究的问题主要为如何让计算机模拟医学专家诊断病人的过程,根据病人电子病历自动准确地判断病人的患病情况,做出智能化诊断支持。智能诊断的结果虽然不能代替医师给出最终的诊断结论,但是在诊断过程中起到了一个重要的参考作用,可以有效提高医师的诊断效率。
特征选择也称特征子集选择,或属性选择,是指从已有的M个特征中选择N个特征(M>N)使得系统的特定指标(如分类准确率等)最优化,是从原始特征中选择出一组最有效的特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。特征选择过程一般包括产生过程、评价函数、停止准则、验证过程四部分:
(1)产生过程:产生过程是搜索特征子集的过程,负责为评价函数提供特征子集,常见的搜索策略主要有三种,分别为完全搜索、启发式搜索和随机搜索。完全搜索就是枚举特征集中的所有特征组合从而选出最优的特征子集,复杂度为O(2n),因此实际应用中几乎不用;启发式搜索策略主要有序列前向选择(SFS)和序列后向选择(SBS),主要思想为贪心思想,因此有时候容易陷入到局部最优中;随机搜索策略基于对分类有效性的评估,在计算过程中对每个特征赋予一定的权重,然后根据自适应的阈值或者用户自定义的阈值来对特征重要性进行评估,选择大于阈值的特征;
(2)评价函数:评价函数是评价一个特征子集好坏程度的一个准则,可分为两种:一种是用于单独地衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准;
(3)停止准则:停止标准决定什么时候停止搜索,即结束算法的执行。常见的停止准则一般有1)执行时间,即事先规定了算法执行的时间,当达到所指定的时间就强制算法运行,并输出结果;2)评价次数,即指定算法需要运行的次数,通常用于规定随机搜索的次数;3)设置阈值,一般是给算法的目标值设置一个评价阈值,通过目标与该阈值的比较决定算法停止与否;
(4)验证过程:在验证数据集上验证选出来的特征子集的有效性;
常见的特征选择方法大致分为三类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。
(a)过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。
(b)包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。
(c)嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
发明内容
本发明所要解决的技术问题是,对病人的电子病历实现特征选择过程,并利用SVM分类器实现疾病诊断;
首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;
其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度很高,如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词;3)疾病间的关联性会影响疾病间关键症状的相似性,即具有高关联性的疾病间的关键症状相似度应该较高,而关联性很低的疾病间的关键症状应该具有排斥性,根据这三个特点,可以更好地对病历文本进行特征选择;
然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;
为了分析疾病关联性对于特征选择的影响,需要统计不同疾病间的关联度,为了判断两种疾病间是否相关,计算两种疾病在训练集的病人中的共现度,即两种疾病在病人中共同出现的次数,将共现度与预先设置的阈值k进行比较,若共现度大于k,则认为这两个疾病之间存在关联,若共现度小于k,则认为这两个疾病之间不存在关联;
对中文病历进行特征选择前,需要对病历分词,一方面病人病历中通常包含大量噪声,如在记录病人信息时出现大量错别字或不同医院的书写方式不一致,如“寒颤”与“寒战”、“湿罗音”与“湿啰音”等,且病历中包含大量医学专业词汇,如“慢性咽喉痛”等,直接使用通用的分词工具,如Ansj、盘古分词等很难取得很好的分词效果;另一方面,通过对中文电子病历的总结分析,发现中文病历具有以下三个特点:
(1)特征词重复性低。病历描述的内容并非通过重复表达关键词的形式来突出语义内涵,关键的症状及体征信息不会多次出现;
(2)患同类疾病的病人病历中包含的关键症状词重叠度很高,如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词;
(3)疾病间的关联性会影响不同疾病的关键症状的相似性,即具有高关联性的疾病间的关键症状相似度应该较高,而关联性很低的疾病间的关键症状应该具有排斥性。
传统的特征选择方法,如信息增益(IG)、期望交叉熵(ECE)、互信息(MI)等,并不是按类别计算统计值,选出的特征都是全局意义上的,没有从局部考虑特征项对单个类别的区分能力,全局意义上的词可能存在多类的指示意义,但是有些词条对于单个类别的区别度非常大,如“肺感染”、“肺实变”基本上只出现在肺炎感染一类的病人病历中,如果从全局意义上考虑,这些词的函数值可能并不是很大,很可能被忽略掉。另外,传统的特征选择方法没有考虑类别间的关联性对于特征选择过程的影响,每个类别的特征词都是独立选取,但在临床医学中,很多疾病之间都存在关联性,而这种关联性又会影响疾病间的关键症状词的相似度。
为了识别病历中的医学专业词汇,本发明中从国家食品药品监督管理总局官网爬取了药品名称,并提取了ICD-10疾病编码中所有中文疾病名称,利用药品名称和疾病名称扩展了分词词库;为了过滤病历中大量出现的否定短语,如“未闻及湿罗音”、“否定肝炎病史”等,本发明中根据病历中常见的否定性词语,构建了否定词列表。
在本发明中,为了更好地对病人病历进行特征选择,根据病人电子病历的三大特点,利用特征在当前疾病i中的分布情况及在其他疾病中的分布情况,计算特征对于i的代表度,并按该值的大小为i进行特征选择。做出以下符号假设:共有N类疾病,分别为X1、X2…、XN,Xi中共有Ri位病人,Ri位病人的病历中所有单词出现次数之和为Wi,对于Xi中的某个单词w,Xi中w的出现次数为wi,Xi下的病人的病历中包含词w的病人数量为ri,则w对于Xi的代表度计算公式如下:
repw为单词w对于Xi的代表度,等式右边第一项中的Wi/wi为w在Xi中的TF值的倒数,传统的TF值衡量的是单词在当前文档或类别下出现的次数,该值越大代表单词出现次数越大,根据病历的第一个特点,即关键症状词的重复次数低,故用TF的倒数值来衡量w在Xi中的重复次数,该值越大代表特征重复次数越低,代表度也就越大,由于Wi大于wi,为了保证计算结果在0~1之间,需对Wi/wi取对数;第二项ri/Ri表示在Xi中病历包含w的病人数量占Xi中总病人数量的比例,该值越大表示Xi中越多的病人病历中包含w,根据病历的第二个特点,即患同类疾病的病人病历中包含的关键症状词重叠度很高,Xi中越多的病人病历中出现w,表示w对Xi的代表度越大;第三项表示w在除Xi之外的其他疾病中的重复次数的乘积,simij表示Xi和Xj的相似度,k表示预先设置的阈值。根据病历的第三个特点,关联性较高的疾病间的关键症状词具有相似性,关联性很低的疾病间的关键症状词具有排斥性,当simij大于k时,认为Xi和Xj具有较高关联性,故Xj中病历包含单词w的病历数量应该也较大,所以Xj中病历包含w的病人数量用rj/Rj表示,而当simij小于时,认为Xi和Xj关联性很低,故Xj中病历包含w的病历数量应该很小,所以Xj中病历包含w的病人数量用log Rj/rj表示。
利用上述公式计算出Xi中的每个单词对于Xi的代表度,之后将单词按代表度大小从大到小排序,选出前n个单词作为Xi的特征,其他的N-1类疾病可以按照同样的方式进行特征选择。因为本发明是基于单词在同类疾病下的分布情况和异类疾病下的分布情况进行特征选择,所以我们为本发明命名:基于单词的类内分布与类间分布的电子病历特征选择方法。
本发明的优点在于通过对中文电子病历的分析,总结了病历文本的特点,根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。这是本发明的优点和创新点。
附图说明
图1是本发明的流程图;
图2是本发明所使用的疾病类型和训练集、测试集大小;
图3是本发明中的特征选择方法得到的不同疾病的部分关键症状词;
图4是使用本发明中的特征选择方法得到的特征,在二分类时取得的准确率和漏报率;
图5是使用本发明中的特征选择方法得到的特征,在三分类时取得的准确率和漏报率。
具体实施方式
以下结合附图对本发明做进一步详细说明。
图1是本发明的详细流程图。本发明中使用的电子病历是来自于湖南省某医院的真实病人病历,病历内容主要包括病人从入院到出院期间的一系列记录,如主治医师查房等;在对病历预处理时,对病历进行文本扫描,基于本发明中建立的否定词列表,将病历中类似“未闻及湿罗音”的否定短语删除,之后使用基于中科院ICTCLAS分词算法开发的Java开源分词工具Ansj对病历进行中文分词,为提高分词效果,利用Ansj的词典加载功能将本发明中根据国家食品药品监督局的药品信息和ICD-10的疾病信息构建的词典导入工具中;为验证本发明中提出特征选择方法的有效性,利用本发明的特征选择方法对分词结果进行特征选择,然后利用SVM分类算法对特征选择后的结果进行训练,构建分类模型,并用测试集对分类模型进行测试,从分类结果的准确率和漏报率分析特征选择方法的有效性。
图2是本发明中使用的疾病类型和训练集、测试集大小。本发明中共分析了三种疾病:临床脓毒血症、主要表浅切口感染及泌尿道感染。为保证训练集大小对最终分类效果的影响,每种疾病选取了大概250位病人进行训练。
图3是本发明中的特征选择方法得到的三种疾病的前8种特征。对于临床脓毒血症,前8种特征中包括脓毒症、感染性休克、败血症等词;对于主要表浅切口感染,前8种特征中包括伤口感染、伤口红肿、切口感染等词;对于泌尿道感染,前8种特征中包括尿路感染、尿痛、尿频、尿急等词。通过查阅相关医学文献,发现这些特征都能较好地代表对应的疾病。
图4是使用本发明中的特征选择方法得到的特征,在二分类时取得的准确率和漏报率。从三种疾病依次选出两种疾病进行二分类,依次统计每次二分类的准确率和漏报率。从结果可以看出,当二分类目标中包括临床脓毒血症时,临床脓毒血症的准确率和漏报率均比其他两类好,说明使用本发明的特征选择方法选出的临床脓毒血症的特征十分具有代表性。从三次二分类的结果可以看出,准确率均能维持在80%以上,漏报率维持在20%以下,结果都比较令人满意。
图5是使用本发明中的特征选择方法得到的特征,在三分类时取得的准确率和漏报率。三分类时,根据BR-SVM思想,为每种疾病训练一个SVM分类器,训练时以对应疾病作为正类,其他疾病作为反类,测试时将待分类病人依次输入三个分类器并记录所有分为为正类的结果。从结果可以看出,三类疾病的准确率都在80%以上,漏报率都在20%以下,结果都比较令人满意。
Claims (2)
1.基于单词的类内分布与类间分布的电子病历特征选择方法,利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择,其特征在于,
首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;
其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度高;3)疾病间的关联性会影响疾病间关键症状的相似性;
然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;
在计算每个单词对于每种疾病的代表度时,共包括N类疾病,分别为,对
于疾病 ,为计算其中的每个单词对于的代表度,需分别统计中的病人数量,记为,
统计位病人的病历中所有单词出现次数之和,记为;对于中的某个单词w,统计下
的病人的病历中包含词w的病人数量,记为,统计除外的其他N-1类疾病下的病历的中包
含词w的病人数量,记为,j=1,2,3…,N,j≠i;
其中:单词对于每种疾病的代表度的计算公式如下:
2.根据权利要求1所述的基于单词的类内分布与类间分布的电子病历特征选择方法,其特征在于,为了分析疾病关联性对于特征选择的影响,需要统计不同疾病间的关联度,为了判断两种疾病间是否相关,计算两种疾病在训练集的病人中的共现度,即两种疾病在病人中共同出现的次数,将共现度与预先设置的阈值k进行比较,若共现度大于k,则认为这两个疾病之间存在关联,若共现度小于k,则认为这两个疾病之间不存在关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810208599.6A CN108346474B (zh) | 2018-03-14 | 2018-03-14 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810208599.6A CN108346474B (zh) | 2018-03-14 | 2018-03-14 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108346474A CN108346474A (zh) | 2018-07-31 |
CN108346474B true CN108346474B (zh) | 2021-09-28 |
Family
ID=62958201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810208599.6A Active CN108346474B (zh) | 2018-03-14 | 2018-03-14 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108346474B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065175A (zh) * | 2018-08-14 | 2018-12-21 | 平安医疗健康管理股份有限公司 | 医疗特征筛选方法、装置、计算机设备和存储介质 |
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN109300549B (zh) * | 2018-10-09 | 2020-03-17 | 天津科技大学 | 基于疾病加权和食品类别约束的食品-疾病关联预测方法 |
CN111161881A (zh) * | 2019-06-13 | 2020-05-15 | 南京医基云医疗数据研究院有限公司 | 一种疾病共现关系的识别方法、装置及存储介质 |
CN110705295B (zh) * | 2019-09-11 | 2021-08-24 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN111462909B (zh) * | 2020-03-30 | 2024-04-05 | 讯飞医疗科技股份有限公司 | 疾病演化跟踪和病情提示方法、装置及电子设备 |
CN111785369B (zh) * | 2020-06-30 | 2024-04-05 | 讯飞医疗科技股份有限公司 | 诊断预测方法、相关设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
CN106372439A (zh) * | 2016-09-21 | 2017-02-01 | 北京大学 | 基于病例库的疾病症状及其权重知识的获取和处理方法 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106951684A (zh) * | 2017-02-28 | 2017-07-14 | 北京大学 | 一种医学疾病诊断记录中实体消歧的方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107330287A (zh) * | 2017-07-10 | 2017-11-07 | 叮当(深圳)健康机器人科技有限公司 | 一种疾病信息分析方法及装置 |
CN107545038A (zh) * | 2017-07-31 | 2018-01-05 | 中国农业大学 | 一种文本分类方法与设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002245070A (ja) * | 2001-02-20 | 2002-08-30 | Hitachi Ltd | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 |
US20060259475A1 (en) * | 2005-05-10 | 2006-11-16 | Dehlinger Peter J | Database system and method for retrieving records from a record library |
CN102141997A (zh) * | 2010-02-02 | 2011-08-03 | 三星电子(中国)研发中心 | 智能决策支持系统及其智能决策方法 |
US20110301976A1 (en) * | 2010-06-03 | 2011-12-08 | International Business Machines Corporation | Medical history diagnosis system and method |
CN104951666A (zh) * | 2015-07-24 | 2015-09-30 | 苏州大学张家港工业技术研究院 | 一种疾病诊断方法和装置 |
CN105512311B (zh) * | 2015-12-14 | 2019-02-26 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
CN105574351B (zh) * | 2015-12-31 | 2017-02-15 | 北京千安哲信息技术有限公司 | 医学数据处理方法 |
CN106021871A (zh) * | 2016-05-10 | 2016-10-12 | 深圳前海信息技术有限公司 | 基于大数据群体行为的疾病相似度计算方法及装置 |
CN107480426B (zh) * | 2017-07-20 | 2021-01-19 | 广州慧扬健康科技有限公司 | 自迭代病历档案聚类分析系统 |
-
2018
- 2018-03-14 CN CN201810208599.6A patent/CN108346474B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214232A (zh) * | 2011-06-28 | 2011-10-12 | 东软集团股份有限公司 | 一种文本数据相似度的计算方法及装置 |
CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN106372439A (zh) * | 2016-09-21 | 2017-02-01 | 北京大学 | 基于病例库的疾病症状及其权重知识的获取和处理方法 |
CN106951684A (zh) * | 2017-02-28 | 2017-07-14 | 北京大学 | 一种医学疾病诊断记录中实体消歧的方法 |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN107330287A (zh) * | 2017-07-10 | 2017-11-07 | 叮当(深圳)健康机器人科技有限公司 | 一种疾病信息分析方法及装置 |
CN107545038A (zh) * | 2017-07-31 | 2018-01-05 | 中国农业大学 | 一种文本分类方法与设备 |
Non-Patent Citations (1)
Title |
---|
"基于病历信息的智能诊断技术研究";胡育;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);参见第1-2、4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN108346474A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346474B (zh) | 基于单词的类内分布与类间分布的电子病历特征选择方法 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN110109835B (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
Adelfio et al. | Schema extraction for tabular data on the web | |
US10198431B2 (en) | Information relation generation | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN106934038A (zh) | 一种医疗数据查重和关联的方法及系统 | |
CN110931128A (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN111223539A (zh) | 中文电子病历的关系抽取方法 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN110222250A (zh) | 一种面向微博的突发事件触发词识别方法 | |
CN115858785A (zh) | 一种基于大数据的敏感数据识别方法及系统 | |
CN111291163B (zh) | 一种基于症状特征的疾病知识图谱检索方法 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型系统及摘要生成方法 | |
CN107193996B (zh) | 相似病历匹配检索系统 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
Langenecker et al. | Sportstables: A new corpus for semantic type detection | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
CN114783446B (zh) | 一种基于对比预测编码的语音识别方法及系统 | |
KR102452814B1 (ko) | 문서 내 현안 분석 및 추출하기 위한 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220106 Address after: 410073 Hunan province Changsha Kaifu District, Deya Road No. 109 Patentee after: National University of Defense Technology Patentee after: HUNAN LANQINGTING NETWORK TECHNOLOGY CO.,LTD. Address before: 410000 1805, sign business building, No. 119, Furong Middle Road, Kaifu District, Changsha City, Hunan Province Patentee before: HUNAN LANQINGTING NETWORK TECHNOLOGY CO.,LTD. |