CN108346474B - 基于单词的类内分布与类间分布的电子病历特征选择方法 - Google Patents

基于单词的类内分布与类间分布的电子病历特征选择方法 Download PDF

Info

Publication number
CN108346474B
CN108346474B CN201810208599.6A CN201810208599A CN108346474B CN 108346474 B CN108346474 B CN 108346474B CN 201810208599 A CN201810208599 A CN 201810208599A CN 108346474 B CN108346474 B CN 108346474B
Authority
CN
China
Prior art keywords
diseases
word
words
medical record
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810208599.6A
Other languages
English (en)
Other versions
CN108346474A (zh
Inventor
彭访
方胜群
蔡志平
吴喜军
孙文成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Lanqingting Network Technology Co ltd
National University of Defense Technology
Original Assignee
Hunan Lanqingting Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Lanqingting Network Technology Co ltd filed Critical Hunan Lanqingting Network Technology Co ltd
Priority to CN201810208599.6A priority Critical patent/CN108346474B/zh
Publication of CN108346474A publication Critical patent/CN108346474A/zh
Application granted granted Critical
Publication of CN108346474B publication Critical patent/CN108346474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及基于单词的类内分布与类间分布的电子病历特征选择方法。本发明首先构建了疾病、药品词典,其次总结了中文病历中症状词分布的三大特点,然后对收集到的病人病历进行预处理,将分词结果保存到数据库中。本发明根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。

Description

基于单词的类内分布与类间分布的电子病历特征选择方法
技术领域
本发明涉及在疾病智能诊断和中文文本特征选择领域,基于单词在同类病人和异类病人间的分布情况,来实现疾病特征提取过程,并基于提取的特征利用SVM(支持向量机)实现疾病智能诊断。
背景技术
疾病诊断具有很大的不确定性,给诊断决策过程增加了难度;同时,随着医学科学的发展,临床分科越来越细,临床医师的知识面也越来越窄,他们往往只关注于自己的专科,很难将病人作为一个有机整体进行全面的考虑,这给诊断过程带来了一定的风险。疾病智能诊断研究的问题主要为如何让计算机模拟医学专家诊断病人的过程,根据病人电子病历自动准确地判断病人的患病情况,做出智能化诊断支持。智能诊断的结果虽然不能代替医师给出最终的诊断结论,但是在诊断过程中起到了一个重要的参考作用,可以有效提高医师的诊断效率。
特征选择也称特征子集选择,或属性选择,是指从已有的M个特征中选择N个特征(M>N)使得系统的特定指标(如分类准确率等)最优化,是从原始特征中选择出一组最有效的特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。特征选择过程一般包括产生过程、评价函数、停止准则、验证过程四部分:
(1)产生过程:产生过程是搜索特征子集的过程,负责为评价函数提供特征子集,常见的搜索策略主要有三种,分别为完全搜索、启发式搜索和随机搜索。完全搜索就是枚举特征集中的所有特征组合从而选出最优的特征子集,复杂度为O(2n),因此实际应用中几乎不用;启发式搜索策略主要有序列前向选择(SFS)和序列后向选择(SBS),主要思想为贪心思想,因此有时候容易陷入到局部最优中;随机搜索策略基于对分类有效性的评估,在计算过程中对每个特征赋予一定的权重,然后根据自适应的阈值或者用户自定义的阈值来对特征重要性进行评估,选择大于阈值的特征;
(2)评价函数:评价函数是评价一个特征子集好坏程度的一个准则,可分为两种:一种是用于单独地衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准;
(3)停止准则:停止标准决定什么时候停止搜索,即结束算法的执行。常见的停止准则一般有1)执行时间,即事先规定了算法执行的时间,当达到所指定的时间就强制算法运行,并输出结果;2)评价次数,即指定算法需要运行的次数,通常用于规定随机搜索的次数;3)设置阈值,一般是给算法的目标值设置一个评价阈值,通过目标与该阈值的比较决定算法停止与否;
(4)验证过程:在验证数据集上验证选出来的特征子集的有效性;
常见的特征选择方法大致分为三类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。
(a)过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。
(b)包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。
(c)嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
发明内容
本发明所要解决的技术问题是,对病人的电子病历实现特征选择过程,并利用SVM分类器实现疾病诊断;
首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;
其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度很高,如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词;3)疾病间的关联性会影响疾病间关键症状的相似性,即具有高关联性的疾病间的关键症状相似度应该较高,而关联性很低的疾病间的关键症状应该具有排斥性,根据这三个特点,可以更好地对病历文本进行特征选择;
然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;
为了分析疾病关联性对于特征选择的影响,需要统计不同疾病间的关联度,为了判断两种疾病间是否相关,计算两种疾病在训练集的病人中的共现度,即两种疾病在病人中共同出现的次数,将共现度与预先设置的阈值k进行比较,若共现度大于k,则认为这两个疾病之间存在关联,若共现度小于k,则认为这两个疾病之间不存在关联;
对中文病历进行特征选择前,需要对病历分词,一方面病人病历中通常包含大量噪声,如在记录病人信息时出现大量错别字或不同医院的书写方式不一致,如“寒颤”与“寒战”、“湿罗音”与“湿啰音”等,且病历中包含大量医学专业词汇,如“慢性咽喉痛”等,直接使用通用的分词工具,如Ansj、盘古分词等很难取得很好的分词效果;另一方面,通过对中文电子病历的总结分析,发现中文病历具有以下三个特点:
(1)特征词重复性低。病历描述的内容并非通过重复表达关键词的形式来突出语义内涵,关键的症状及体征信息不会多次出现;
(2)患同类疾病的病人病历中包含的关键症状词重叠度很高,如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词;
(3)疾病间的关联性会影响不同疾病的关键症状的相似性,即具有高关联性的疾病间的关键症状相似度应该较高,而关联性很低的疾病间的关键症状应该具有排斥性。
传统的特征选择方法,如信息增益(IG)、期望交叉熵(ECE)、互信息(MI)等,并不是按类别计算统计值,选出的特征都是全局意义上的,没有从局部考虑特征项对单个类别的区分能力,全局意义上的词可能存在多类的指示意义,但是有些词条对于单个类别的区别度非常大,如“肺感染”、“肺实变”基本上只出现在肺炎感染一类的病人病历中,如果从全局意义上考虑,这些词的函数值可能并不是很大,很可能被忽略掉。另外,传统的特征选择方法没有考虑类别间的关联性对于特征选择过程的影响,每个类别的特征词都是独立选取,但在临床医学中,很多疾病之间都存在关联性,而这种关联性又会影响疾病间的关键症状词的相似度。
为了识别病历中的医学专业词汇,本发明中从国家食品药品监督管理总局官网爬取了药品名称,并提取了ICD-10疾病编码中所有中文疾病名称,利用药品名称和疾病名称扩展了分词词库;为了过滤病历中大量出现的否定短语,如“未闻及湿罗音”、“否定肝炎病史”等,本发明中根据病历中常见的否定性词语,构建了否定词列表。
在本发明中,为了更好地对病人病历进行特征选择,根据病人电子病历的三大特点,利用特征在当前疾病i中的分布情况及在其他疾病中的分布情况,计算特征对于i的代表度,并按该值的大小为i进行特征选择。做出以下符号假设:共有N类疾病,分别为X1、X2…、XN,Xi中共有Ri位病人,Ri位病人的病历中所有单词出现次数之和为Wi,对于Xi中的某个单词w,Xi中w的出现次数为wi,Xi下的病人的病历中包含词w的病人数量为ri,则w对于Xi的代表度计算公式如下:
Figure BDA0001596566530000041
repw为单词w对于Xi的代表度,等式右边第一项中的Wi/wi为w在Xi中的TF值的倒数,传统的TF值衡量的是单词在当前文档或类别下出现的次数,该值越大代表单词出现次数越大,根据病历的第一个特点,即关键症状词的重复次数低,故用TF的倒数值来衡量w在Xi中的重复次数,该值越大代表特征重复次数越低,代表度也就越大,由于Wi大于wi,为了保证计算结果在0~1之间,需对Wi/wi取对数;第二项ri/Ri表示在Xi中病历包含w的病人数量占Xi中总病人数量的比例,该值越大表示Xi中越多的病人病历中包含w,根据病历的第二个特点,即患同类疾病的病人病历中包含的关键症状词重叠度很高,Xi中越多的病人病历中出现w,表示w对Xi的代表度越大;第三项表示w在除Xi之外的其他疾病中的重复次数的乘积,simij表示Xi和Xj的相似度,k表示预先设置的阈值。根据病历的第三个特点,关联性较高的疾病间的关键症状词具有相似性,关联性很低的疾病间的关键症状词具有排斥性,当simij大于k时,认为Xi和Xj具有较高关联性,故Xj中病历包含单词w的病历数量应该也较大,所以Xj中病历包含w的病人数量用rj/Rj表示,而当simij小于时,认为Xi和Xj关联性很低,故Xj中病历包含w的病历数量应该很小,所以Xj中病历包含w的病人数量用log Rj/rj表示。
利用上述公式计算出Xi中的每个单词对于Xi的代表度,之后将单词按代表度大小从大到小排序,选出前n个单词作为Xi的特征,其他的N-1类疾病可以按照同样的方式进行特征选择。因为本发明是基于单词在同类疾病下的分布情况和异类疾病下的分布情况进行特征选择,所以我们为本发明命名:基于单词的类内分布与类间分布的电子病历特征选择方法。
本发明的优点在于通过对中文电子病历的分析,总结了病历文本的特点,根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。这是本发明的优点和创新点。
附图说明
图1是本发明的流程图;
图2是本发明所使用的疾病类型和训练集、测试集大小;
图3是本发明中的特征选择方法得到的不同疾病的部分关键症状词;
图4是使用本发明中的特征选择方法得到的特征,在二分类时取得的准确率和漏报率;
图5是使用本发明中的特征选择方法得到的特征,在三分类时取得的准确率和漏报率。
具体实施方式
以下结合附图对本发明做进一步详细说明。
图1是本发明的详细流程图。本发明中使用的电子病历是来自于湖南省某医院的真实病人病历,病历内容主要包括病人从入院到出院期间的一系列记录,如主治医师查房等;在对病历预处理时,对病历进行文本扫描,基于本发明中建立的否定词列表,将病历中类似“未闻及湿罗音”的否定短语删除,之后使用基于中科院ICTCLAS分词算法开发的Java开源分词工具Ansj对病历进行中文分词,为提高分词效果,利用Ansj的词典加载功能将本发明中根据国家食品药品监督局的药品信息和ICD-10的疾病信息构建的词典导入工具中;为验证本发明中提出特征选择方法的有效性,利用本发明的特征选择方法对分词结果进行特征选择,然后利用SVM分类算法对特征选择后的结果进行训练,构建分类模型,并用测试集对分类模型进行测试,从分类结果的准确率和漏报率分析特征选择方法的有效性。
图2是本发明中使用的疾病类型和训练集、测试集大小。本发明中共分析了三种疾病:临床脓毒血症、主要表浅切口感染及泌尿道感染。为保证训练集大小对最终分类效果的影响,每种疾病选取了大概250位病人进行训练。
图3是本发明中的特征选择方法得到的三种疾病的前8种特征。对于临床脓毒血症,前8种特征中包括脓毒症、感染性休克、败血症等词;对于主要表浅切口感染,前8种特征中包括伤口感染、伤口红肿、切口感染等词;对于泌尿道感染,前8种特征中包括尿路感染、尿痛、尿频、尿急等词。通过查阅相关医学文献,发现这些特征都能较好地代表对应的疾病。
图4是使用本发明中的特征选择方法得到的特征,在二分类时取得的准确率和漏报率。从三种疾病依次选出两种疾病进行二分类,依次统计每次二分类的准确率和漏报率。从结果可以看出,当二分类目标中包括临床脓毒血症时,临床脓毒血症的准确率和漏报率均比其他两类好,说明使用本发明的特征选择方法选出的临床脓毒血症的特征十分具有代表性。从三次二分类的结果可以看出,准确率均能维持在80%以上,漏报率维持在20%以下,结果都比较令人满意。
图5是使用本发明中的特征选择方法得到的特征,在三分类时取得的准确率和漏报率。三分类时,根据BR-SVM思想,为每种疾病训练一个SVM分类器,训练时以对应疾病作为正类,其他疾病作为反类,测试时将待分类病人依次输入三个分类器并记录所有分为为正类的结果。从结果可以看出,三类疾病的准确率都在80%以上,漏报率都在20%以下,结果都比较令人满意。

Claims (2)

1.基于单词的类内分布与类间分布的电子病历特征选择方法,利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择,其特征在于,
首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;
其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度高;3)疾病间的关联性会影响疾病间关键症状的相似性;
然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;
在计算每个单词对于每种疾病的代表度时,共包括N类疾病,分别为,对 于疾病
Figure 94500DEST_PATH_IMAGE003
,为计算其中的每个单词对于
Figure 155997DEST_PATH_IMAGE003
的代表度,需分别统计
Figure 440347DEST_PATH_IMAGE003
中的病人数量,记为
Figure 852874DEST_PATH_IMAGE004
, 统计
Figure 818556DEST_PATH_IMAGE004
位病人的病历中所有单词出现次数之和,记为
Figure 139DEST_PATH_IMAGE005
;对于
Figure 189812DEST_PATH_IMAGE003
中的某个单词w,统计
Figure 89634DEST_PATH_IMAGE003
下 的病人的病历中包含词w的病人数量,记为
Figure 842696DEST_PATH_IMAGE006
,统计除
Figure 144364DEST_PATH_IMAGE003
外的其他N-1类疾病下的病历的中包 含词w的病人数量,记为
Figure 504938DEST_PATH_IMAGE007
,j=1,2,3…,N,j≠i;
其中:单词对于每种疾病的代表度的计算公式如下:
Figure 892057DEST_PATH_IMAGE008
其中,
Figure 199542DEST_PATH_IMAGE009
表示单词w对于
Figure 90137DEST_PATH_IMAGE003
的代表度,等式右边第一项中的
Figure 887192DEST_PATH_IMAGE010
为w在
Figure 496028DEST_PATH_IMAGE003
中的TF值的 倒数;第二项
Figure 355006DEST_PATH_IMAGE011
表示在
Figure 365688DEST_PATH_IMAGE003
中病历包含w的病人数量占
Figure 333644DEST_PATH_IMAGE003
中总病人数量的比例,该值越大表 示
Figure 367459DEST_PATH_IMAGE003
中越多的病人病历中包含w;第三项表示单词w在除
Figure 79063DEST_PATH_IMAGE003
之外的其他疾病中的重复次数的 乘积,
Figure 944251DEST_PATH_IMAGE012
表示
Figure 83108DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE013
的相似度,k表示预先设置的阈值。
2.根据权利要求1所述的基于单词的类内分布与类间分布的电子病历特征选择方法,其特征在于,为了分析疾病关联性对于特征选择的影响,需要统计不同疾病间的关联度,为了判断两种疾病间是否相关,计算两种疾病在训练集的病人中的共现度,即两种疾病在病人中共同出现的次数,将共现度与预先设置的阈值k进行比较,若共现度大于k,则认为这两个疾病之间存在关联,若共现度小于k,则认为这两个疾病之间不存在关联。
CN201810208599.6A 2018-03-14 2018-03-14 基于单词的类内分布与类间分布的电子病历特征选择方法 Active CN108346474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810208599.6A CN108346474B (zh) 2018-03-14 2018-03-14 基于单词的类内分布与类间分布的电子病历特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810208599.6A CN108346474B (zh) 2018-03-14 2018-03-14 基于单词的类内分布与类间分布的电子病历特征选择方法

Publications (2)

Publication Number Publication Date
CN108346474A CN108346474A (zh) 2018-07-31
CN108346474B true CN108346474B (zh) 2021-09-28

Family

ID=62958201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810208599.6A Active CN108346474B (zh) 2018-03-14 2018-03-14 基于单词的类内分布与类间分布的电子病历特征选择方法

Country Status (1)

Country Link
CN (1) CN108346474B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065175A (zh) * 2018-08-14 2018-12-21 平安医疗健康管理股份有限公司 医疗特征筛选方法、装置、计算机设备和存储介质
CN109299239B (zh) * 2018-09-29 2021-11-23 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109300549B (zh) * 2018-10-09 2020-03-17 天津科技大学 基于疾病加权和食品类别约束的食品-疾病关联预测方法
CN111161881A (zh) * 2019-06-13 2020-05-15 南京医基云医疗数据研究院有限公司 一种疾病共现关系的识别方法、装置及存储介质
CN110705295B (zh) * 2019-09-11 2021-08-24 北京航空航天大学 基于关键词提取的实体名消岐方法
CN111462909B (zh) * 2020-03-30 2024-04-05 讯飞医疗科技股份有限公司 疾病演化跟踪和病情提示方法、装置及电子设备
CN111785369B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 诊断预测方法、相关设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107330287A (zh) * 2017-07-10 2017-11-07 叮当(深圳)健康机器人科技有限公司 一种疾病信息分析方法及装置
CN107545038A (zh) * 2017-07-31 2018-01-05 中国农业大学 一种文本分类方法与设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library
CN102141997A (zh) * 2010-02-02 2011-08-03 三星电子(中国)研发中心 智能决策支持系统及其智能决策方法
US20110301976A1 (en) * 2010-06-03 2011-12-08 International Business Machines Corporation Medical history diagnosis system and method
CN104951666A (zh) * 2015-07-24 2015-09-30 苏州大学张家港工业技术研究院 一种疾病诊断方法和装置
CN105512311B (zh) * 2015-12-14 2019-02-26 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105574351B (zh) * 2015-12-31 2017-02-15 北京千安哲信息技术有限公司 医学数据处理方法
CN106021871A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 基于大数据群体行为的疾病相似度计算方法及装置
CN107480426B (zh) * 2017-07-20 2021-01-19 广州慧扬健康科技有限公司 自迭代病历档案聚类分析系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107330287A (zh) * 2017-07-10 2017-11-07 叮当(深圳)健康机器人科技有限公司 一种疾病信息分析方法及装置
CN107545038A (zh) * 2017-07-31 2018-01-05 中国农业大学 一种文本分类方法与设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于病历信息的智能诊断技术研究";胡育;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);参见第1-2、4章 *

Also Published As

Publication number Publication date
CN108346474A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108346474B (zh) 基于单词的类内分布与类间分布的电子病历特征选择方法
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN110109835B (zh) 一种基于深度神经网络的软件缺陷定位方法
Adelfio et al. Schema extraction for tabular data on the web
US10198431B2 (en) Information relation generation
CN104216876B (zh) 信息文本过滤方法及系统
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106776672A (zh) 技术发展脉络图确定方法
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN110931128A (zh) 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN111223539A (zh) 中文电子病历的关系抽取方法
US20130060793A1 (en) Extracting information from medical documents
CN110222250A (zh) 一种面向微博的突发事件触发词识别方法
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN107193996B (zh) 相似病历匹配检索系统
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN109036506A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
KR102359652B1 (ko) 클래스 연관 규칙을 이용한 질병 분류 시스템 및 방법
CN103034657B (zh) 文档摘要生成方法和装置
US20070055696A1 (en) System and method of extracting and managing knowledge from medical documents
KR102452814B1 (ko) 문서 내 현안 분석 및 추출하기 위한 방법
Power et al. Document classification for focused topics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220106

Address after: 410073 Hunan province Changsha Kaifu District, Deya Road No. 109

Patentee after: National University of Defense Technology

Patentee after: HUNAN LANQINGTING NETWORK TECHNOLOGY CO.,LTD.

Address before: 410000 1805, sign business building, No. 119, Furong Middle Road, Kaifu District, Changsha City, Hunan Province

Patentee before: HUNAN LANQINGTING NETWORK TECHNOLOGY CO.,LTD.