CN109119132A - 基于病历特征匹配单基因病名称的方法及系统 - Google Patents

基于病历特征匹配单基因病名称的方法及系统 Download PDF

Info

Publication number
CN109119132A
CN109119132A CN201810876424.2A CN201810876424A CN109119132A CN 109119132 A CN109119132 A CN 109119132A CN 201810876424 A CN201810876424 A CN 201810876424A CN 109119132 A CN109119132 A CN 109119132A
Authority
CN
China
Prior art keywords
clinical symptoms
monogenic disease
database
value
monogenic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810876424.2A
Other languages
English (en)
Other versions
CN109119132B (zh
Inventor
马旭
曹宗富
喻浴飞
陈翠霞
蔡瑞琨
李乾
高华方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Original Assignee
Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China filed Critical Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Priority to CN201810876424.2A priority Critical patent/CN109119132B/zh
Publication of CN109119132A publication Critical patent/CN109119132A/zh
Application granted granted Critical
Publication of CN109119132B publication Critical patent/CN109119132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开一种基于病历临床特征匹配单基因病名称的方法及系统,能够基于患者的病历资料或者临床特征,自动匹配出与其相对应的单基因病名称辅助临床医生参考诊断。该方法包括:基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值;将多个关联度评分值排序,并匹配输出与之对应的单基因病名称。该系统包括上述技术方案所提的方法。

Description

基于病历特征匹配单基因病名称的方法及系统
技术领域
本发明涉及数字医疗技术领域,尤其涉及一种基于病历特征匹配单基因病名称的方法及系统。
背景技术
单基因病是一种常见疾病,它是由一对等位基因突变导致的疾病,又称孟德尔式遗传病,其中,单基因病存在如下特点:
1、单基因病种类繁多,目前已发现的单基因病有8000种以上;
2、单基因病表型复杂,同一种单基因病表型异质性强,存在不同单基因病之间临床特征相互重叠的现象;
3、单基因病遗传模式多样化,即使同一种单基因病,也可能表现为不同的遗传模式,不同的单基因病也可表现为相同的遗传模式。
由于单基因病存在上述特点,使得临床医生很难对所有的单基因病表型都非常了解,这样就给单基因病临床诊疗带来了极大的困难,容易造成误诊和漏诊。
发明内容
本发明的目的在于提供一种基于病历特征匹配单基因病名称的方法及系统,能够基于患者的病历资料或者临床特征,自动匹配出与其相对应的单基因病名称辅助临床医生参考诊断,以提高临床医生对单基因病诊疗的效率和准确性。
为了实现上述目的,本发明的一方面提供一种基于病历特征匹配单基因病名称的方法,包括:
步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;
步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;
步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
优选地,所述步骤S1包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病及其对应的临床特征;
基于已知的单基因病及其对应的临床特征,建立临床特征与单基因病名称的特征关系数据库;
参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息,以实现对中文版病历资料的识别匹配。
较佳地,所述步骤S3包括:
采集医学术语中的标准词组构建关键词库,以及采集公共数据库和/或文献数据库中的常用词组构建高频词库;
定义Elesticsearch分词器的分词优先级,使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理;
统计分词处理后得到的N个词组,对应标记为包括N个临床特征的第一集合。
进一步地,所述步骤S4包括:
从特征关系数据库中提取全部单基因病得到单基因病集合B,所述单基因病集合B中的各单基因病包括M个临床特征Bj
依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征Bj的相似度值;
基于相似度值的计算结果,获取与N个临床特征中的每个临床特征对应的相似度最大值wBj
根据N个临床特征中各临床特征对应的相似度最大值wBj,计算第一集合与特征关系数据库中单基因病的关联度评分值。
可选地,所述步骤S4包括:
从特征关系数据库中提取全部单基因病得到单基因病集合B,所述单基因病集合B中的各单基因病包括M个临床特征Bj
依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征Bj的相似度值;
基于相似度值的计算结果,获取与N个临床特征中的每个临床特征对应的相似度最大值wBj
根据N个临床特征中各临床特征对应的相似度最大值wBj,计算第一集合与特征关系数据库中单基因病的关联度评分值。
优选地,所述步骤S6包括:
步骤S61,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;
步骤S62,采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数;
步骤S63,基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量;
步骤S64,利用算法计算第二集合A与集合B的临床特征富集因子系数f,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;
步骤S65,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S66;
步骤S66,利用算法计算第二集合A与待处理集合B的显著性值,其中n=a+b+c+d;
步骤S67,当Y<X时,令Y=Y+1,并返回步骤S61,直至X个标准集合全部被选择处理为止;
具体地,所述步骤S65包括:
当所述距离向量的值小于第一阈值,且所述临床特征富集因子系数f的值大于第二阈值时,将该待处理集合B保留,否则将该待处理集合B剔除。
优选地,所述Jaccard相似性算法为
所述Jaccard距离算法为
其中,|A|表示第二集合A中的临床特征数目,|B|表示待处理集合B中的临床特征数目,|A∩B|表示第二集合A和待处理集合B交集中的临床特征数目,|A∪B|表示第二集合A和待处理集合B并集中的临床特征数目。
优选地,将多个关联度评分值由高到低排序,并将匹配的单基因病名称顺序输出;或者,
将多个显著性值由低到高排序,并将匹配的单基因病名称顺序输出。
与现有技术相比,本发明提供的基于病历特征匹配单基因病名称方法具有以下有益效果:
本发明提供的基于病历特征匹配单基因病名称方法中,由于特征关系数据库是基于公共数据库和文献数据库中的海量单基因病数据建立的,因此可以确保特征关系数据库能够覆盖目前已知的所有单基因病及对应的临床特征,进而保证了其匹配的准确性;具体地,当患者的病历资料为自由文本格式时,首先对病历资料进行分词处理获取包括多个临床特征的第一集合,然后计算第一集合中的每个临床特征与特征关系数据库中各单基因病对应的临床特征的相似度值,通过上述相似度值计算第一集合与特征关系数据库中各单基因病的关联度评分值,然后基于关联度评分值由高至低匹配对应的单基因病名称输出;而当患者的病历资料为标准文本格式时,直接获取病历资料中的多个临床特征组成第二集合,同时从特征关系数据库中获取每种单基因病对应的集合,采用临床特征富集度分析算法分别计算第二集合与特征关系数据库中各单基因病对应的临床特征集合的显著性值,然后基于关联度评分值由低到高匹配对应的单基因病名称输出。
可见,使用本发明提供的基于病历特征匹配单基因病名称的方法,能够基于患者的病历资料快速匹配出患病的单基因病名称,进而为单基因病的临床诊断和鉴别提供理论支持,在缩短诊疗时间的同时还能够提高单基因病的确诊率;另外,本发明提供的方法不受病历资料文本格式的限制,不仅能够支持标准文本格式的病历资料输入,还可支持自由文本格式的病历资料输入,使得本方法具有较佳的适用场景以及广泛的适用范围。
本发明的另一方面提供一种基于病历特征匹配单基因病名称系统,包括数据库单元、判断单元、分词单元、关联度评分值计算单元、提取单元、显著性值计算单元和结果输出单元;
所述数据库单元用于基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
所述判断单元用于判断患者提供的病历资料为自由文本格式还是为标准文本格式;
所述分词单元用于针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
所述关联度评分值计算单元用于计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值;
所述提取单元用于从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
所述显著性值计算单元用于采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
所述结果输出单元用于将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
与现有技术相比,本发明提供的基于病历特征匹配单基因病名称系统的有益效果与上述技术方案提供的基于病历特征匹配单基因病名称方法有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例一中基于病历特征匹配单基因病名称的方法流程示意图;
图2为本发明实施例一中临床特征富集分析数据表示例图;
图3为本发明实施例二中基于病历特征匹配单基因病名称系统的结构框图。
附图标记:
1-数据库单元, 2-判断单元;
3-分词单元, 4-关联度评分值计算单元;
5-提取单元, 6-显著性值计算单元;
7-结果输出单元。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
图1为本发明实施例一中基于病历特征匹配单基因病名称的方法的流程示意图。请参阅图1,本实施例提供一种基于病历特征匹配单基因病名称的方法,包括:
步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
本实施例提供的基于病历特征匹配单基因病名称方法中,由于特征关系数据库是基于公共数据库和文献数据库中的海量单基因病数据建立的,因此可以确保特征关系数据库能够覆盖目前已知的所有单基因病及对应的临床特征,进而保证了其匹配的准确性;具体地,当患者的病历资料为自由文本格式时,首先对病历资料进行分词处理获取包括多个临床特征的第一集合,然后计算第一集合中的每个临床特征与特征关系数据库中各单基因病对应的临床特征的相似度值,通过上述相似度值计算第一集合与特征关系数据库中各单基因病的关联度评分值,然后基于关联度评分值由高至低匹配对应的单基因病名称输出;而当患者的病历资料为标准文本格式时,直接获取病历资料中多个临床特征组成第二集合,同时从特征关系数据库中获取每种单基因病对应的集合,采用临床特征富集度分析算法分别计算第二集合与特征关系数据库中各单基因病对应的临床特征集合的显著性值,然后基于关联度评分值由低到高匹配对应的单基因病名称输出。
可见,使用本实施例提供的基于病历特征匹配单基因病名称的方法,能够基于患者的病历资料快速匹配出患病的单基因病名称,进而为单基因病的临床诊断和鉴别提供理论支持,在缩短诊疗时间的同时还能够提高单基因病的确诊率;另外,本实施例提供的方法不受病历资料文本格式的限制,不仅能够支持标准文本格式的病历资料输入,还可支持自由文本格式的病历资料输入,使得本方法具有较佳的适用场景以及广泛的适用范围。
具体地,上述实施例中步骤S1包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病及其对应的临床特征;基于已知的单基因病及其对应的临床特征,建立临床特征与单基因病名称的特征关系数据库;参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息,以实现对中文版病历资料的识别匹配。
示例性地,公共数据库为MedGen数据库,文献数据库为PubMed数据库,特征关系数据库中包括互相匹配的单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。建成的特征关系数据库覆盖的单基因病种类达8600种,临床特征超过11000个,临床特征与单基因病的关系数据有9万种以上,囊括了单基因病研究方向最新的公共数据库数据和文献数据库数据。
具体地,上述实施例提供的步骤S3包括:
采集医学术语中的标准词组构建关键词库,以及采集公共数据库和/或文献数据库中的常用词组构建高频词库;定义Elesticsearch分词器的分词优先级,使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理;统计分词处理后得到的N个词组,对应标记为包括N个临床特征的第一集合。
具体实施时,标准词组是指从MedGen数据库、HPO数据库、CHPO数据库和中文文献数据库中爬取到的标准用词,常用词组是指那些未被收录为标准词组但在医学行业中已被约定成俗的通用词组,在具体操作过程中,标准词组和常用词组也可由用户手动标识,自由的对标准词组和常用词组进行添加、补录或者转换。可以理解的是,自由文本格式的病历资料是指用白话文对患者的病历情况作出的表述说明,该表述说明不仅包括必要的临床特征词组,而且还包括一些非必要的修饰性字词,Elesticsearch分词器即是对病历资料中的临床特征词组进行提取的一种工具,Elesticsearch分词器的分词过程为,首先定义好Elesticsearch分词器的分词优先级,使其能够首先筛选出自由文本格式病历资料中存在于关键词库的词组,并将这些词组直接输出,然后从剩余的病历资料中筛选出存在于高频词库的词组,同样将这些词组输出,最后,将剩下的病历资料进行空格分词,使得剩余的语句或者词组全部被分割成单个字符;当上述分词操作完成后,再通过Elesticsearch分词器的单字符过滤功能将分词后形成的单个字符过滤,统计分词处理后得到的N个词组,对应标记为包括N个临床特征的第一集合。
通过上述实施过程可知,Elesticsearch分词器可实现对自由文本格式的病历资料中的临床特征词组进行有效提取,进而使得上述实施例提供的方法能够支持对自由文本格式病历资料的识别匹配。
具体地,上述实施例提供的步骤S4包括:
从特征关系数据库中提取全部单基因病名称得到单基因病集合B,单基因病集合B中的各单基因病包括M个临床特征Bj;依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征Bj的相似度值;基于相似度值的计算结果,获取与N个临床特征中的每个临床特征对应的相似度最大值wBj;根据N个临床特征中各临床特征对应的相似度最大值wBj,计算第一集合与特征关系数据库中单基因病的关联度评分值。
具体实施时,首先从特征关系数据库中获取全部单基因病名称汇总得到单基因病集合B,单基因病集合B的每一元素对应与一种单基因病名称,而每一元素中又包括M个临床特征Bj,然后,利用关联度评分值计算公式分别计算第一集合与特征关系数据库中每个单基因病的关联度评分值,多次计算后,最终得到与单基因病集合B中元素相同数量的关联度评分值;需对关联度评分值计算公式说明的是,t为关联度评分值的标准化系数,计算方法为j为第一集合中某一临床特征,通过该公式可计算得到第一集合中各临床特征与特征关系数据库的关联度评分值的标准化系数,另外,wBj为第一集合的某一临床特征与特征关系数据库中各单基因病中的M个临床特征的相似度值最大,wBj取值范围为[0,1],wBj的计算方法为其中cj表示特征关系数据库中某一临床特征与对应单基因病的贡献度,lsj表示单基因病集合B中某一个临床特征Bj和第一集合中对应临床特征相同的字符长度,lj是单基因病集合B中某一元素中对应的临床特征Bj的字符长度,li是第一集合中的对应临床特征的字符长度。
另外,其中,k为校正因子,k>1,fi为每个临床特征在特征关系数据库中出现的频率,fi=ni/T,ni表示中某一临床特征在特征关系数据库中出现的次数,T为所有临床特征在特征关系数据库出现的总次数。
进一步地,上述实施例中步骤S5包括:
从标准文本格式的病历资料中获取包括多个临床特征的第二集合A;获取特征关系数据库中的全部单基因病,每种单基因病中的临床特征组成一个标准集合;统计标准集合的数量X,并顺序对各标准集合标记。
步骤S6包括:步骤S61,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;步骤S62,采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数;步骤S63,基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量;步骤S64,利用算法计算第二集合A与集合B的临床特征富集因子系数f,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;步骤S65,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S66;
步骤S66,利用算法计算第二集合A与待处理集合B的显著性值,其中n=a+b+c+d;
步骤S67,当Y<X时,令Y=Y+1,并返回步骤S61,直至X个标准集合全部被选择处理为止;
具体实施时,请参阅图2,为了简化运算可采用表格法来辅助显著性值的计算,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;其中,Jaccard相似性系数是用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数,对应的计算公式为
Jaccard距离算法为其中,|A|表示第二集合A中的临床特征数目,|B|表示待处理集合B中的临床特征数目,|A∩B|表示第二集合A和待处理集合B交集中的临床特征数目,|A∪B|表示第二集合A和待处理集合B并集中的临床特征数目。J(A,B)取值范围为[0,1],距离向量的值越小,则表示两个集合越相似,若第二集合A和待处理集合B的集合均为空,则J(A,B)=1。最终获取到第二集合A与各标准集合的显著性值P,而显著性值P越小则说明两个集合的相似性越大。
示例性地,步骤S65包括:当距离向量的值小于第一阈值,且临床特征富集因子系数f的值大于第二阈值时,将该待处理集合B保留,否则将该待处理集合B剔除。其中,第一阈值和第二阈值可由用户自由设定,默认的第一阈值为1,第二阈值为0。
最后,将多个关联度评分值由高到低排序,并将与之匹配的单基因病名称顺序输出,关联度评分值越大则说明对应的单基因病名称越符合第一集合中表现的临床特征,或者,将多个显著性值由低到高排序,并将匹配的单基因病名称顺序输出,显著性值越小则说明对应的单基因病名称越符合第二集合中表现的临床特征。
实施例二
请参阅图1和图3,本实施例提供一种基于病历特征匹配单基因病名称系统,包括:
包括数据库单元1、判断单元2、分词单元3、关联度评分值计算单元4、提取单元5、显著性值计算单元6和结果输出单元7;
数据库单元1用于基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
判断单元2用于判断患者提供的病历资料为自由文本格式还是为标准文本格式;
分词单元3用于针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
关联度评分值计算单元4用于计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值;
提取单元5用于从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
显著性值计算单元6用于采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
结果输出单元7用于将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
与现有技术相比,本发明实施例提供的基于病历特征匹配单基因病名称系统的有益效果与上述实施例一提供的基于病历特征匹配单基因病名称方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于病历特征匹配单基因病名称的方法,其特征在于,包括:
步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;
步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;
步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病及其对应的临床特征;
基于已知的单基因病及其对应的临床特征,建立临床特征与单基因病名称的特征关系数据库;
参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息,以实现对中文版病历资料的识别匹配。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
采集医学术语中的标准词组构建关键词库,以及采集公共数据库和/或文献数据库中的常用词组构建高频词库;
定义Elesticsearch分词器的分词优先级,使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理;
统计分词处理后得到的N个词组,对应标记为包括N个临床特征的第一集合。
4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括:
从特征关系数据库中提取全部单基因病得到单基因病集合B,所述单基因病集合B中的各单基因病包括M个临床特征Bj
依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征Bj的相似度值;
基于相似度值的计算结果,获取与N个临床特征中的每个临床特征对应的相似度最大值wBj
根据N个临床特征中各临床特征对应的相似度最大值wBj,计算第一集合与特征关系数据库中单基因病的关联度评分值。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5包括:
从标准文本格式的病历资料中获取包括多个临床特征的第二集合A;
获取特征关系数据库中的全部单基因病,每种单基因病中的临床特征组成一个标准集合;
统计标准集合的数量X,并顺序对各标准集合标记。
6.根据权利要求5所述的方法,其特征在于,所述步骤S6包括:
步骤S61,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;
步骤S62,采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数;
步骤S63,基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量;
步骤S64,利用算法计算第二集合A与集合B的临床特征富集因子系数f,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;
步骤S65,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S66;
步骤S66,利用算法计算第二集合A与待处理集合B的显著性值,其中n=a+b+c+d;
步骤S67,当Y<X时,令Y=Y+1,并返回步骤S61,直至X个标准集合全部被选择处理为止。
7.根据权利要求6所述的方法,其特征在于,所述步骤S65包括:
当所述距离向量的值小于第一阈值,且所述临床特征富集因子系数f的值大于第二阈值时,将该待处理集合B保留,否则将该待处理集合B剔除。
8.根据权利要求6所述的方法,其特征在于,所述Jaccard相似性算法为
所述Jaccard距离算法为
其中,|A|表示第二集合A中的临床特征数目,|B|表示待处理集合B中的临床特征数目,|A∩B|表示第二集合A和待处理集合B交集中的临床特征数目,|A∪B|表示第二集合A和待处理集合B并集中的临床特征数目。
9.根据权利要求1所述的方法,其特征在于,将多个关联度评分值由高到低排序,并将匹配的单基因病名称顺序输出;或者,
将多个显著性值由低到高排序,并将匹配的单基因病名称顺序输出。
10.一种基于病历特征匹配单基因病名称系统,其特征在于,包括数据库单元、判断单元、分词单元、关联度评分值计算单元、提取单元、显著性值计算单元和结果输出单元;
所述数据库单元用于基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
所述判断单元用于判断患者提供的病历资料为自由文本格式还是为标准文本格式;
所述分词单元用于针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
所述关联度评分值计算单元用于计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值;
所述提取单元用于从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
所述显著性值计算单元用于采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
所述结果输出单元用于将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称。
CN201810876424.2A 2018-08-03 2018-08-03 基于病历特征匹配单基因病名称的方法及系统 Active CN109119132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810876424.2A CN109119132B (zh) 2018-08-03 2018-08-03 基于病历特征匹配单基因病名称的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810876424.2A CN109119132B (zh) 2018-08-03 2018-08-03 基于病历特征匹配单基因病名称的方法及系统

Publications (2)

Publication Number Publication Date
CN109119132A true CN109119132A (zh) 2019-01-01
CN109119132B CN109119132B (zh) 2019-08-27

Family

ID=64852697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810876424.2A Active CN109119132B (zh) 2018-08-03 2018-08-03 基于病历特征匹配单基因病名称的方法及系统

Country Status (1)

Country Link
CN (1) CN109119132B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322281A (zh) * 2019-06-06 2019-10-11 阿里巴巴集团控股有限公司 相似用户的挖掘方法及装置
CN111341458A (zh) * 2020-02-27 2020-06-26 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN111883210A (zh) * 2020-06-08 2020-11-03 国家卫生健康委科学技术研究所 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN111883223A (zh) * 2020-06-11 2020-11-03 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN112667772A (zh) * 2020-12-23 2021-04-16 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028005A1 (en) * 2000-09-01 2002-03-07 Anderson Norman G. Reference database
CN104102816A (zh) * 2014-06-20 2014-10-15 周晋 基于症状匹配和机器学习的自动诊断系统和方法
CN105184103A (zh) * 2015-10-15 2015-12-23 清华大学深圳研究生院 基于病历数据库的虚拟名医
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN107403068A (zh) * 2017-07-31 2017-11-28 合肥工业大学 融合临床思维的智能辅助问诊方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028005A1 (en) * 2000-09-01 2002-03-07 Anderson Norman G. Reference database
CN104102816A (zh) * 2014-06-20 2014-10-15 周晋 基于症状匹配和机器学习的自动诊断系统和方法
CN105184103A (zh) * 2015-10-15 2015-12-23 清华大学深圳研究生院 基于病历数据库的虚拟名医
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107403068A (zh) * 2017-07-31 2017-11-28 合肥工业大学 融合临床思维的智能辅助问诊方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322281A (zh) * 2019-06-06 2019-10-11 阿里巴巴集团控股有限公司 相似用户的挖掘方法及装置
CN110322281B (zh) * 2019-06-06 2023-10-27 创新先进技术有限公司 相似用户的挖掘方法及装置
CN111341458A (zh) * 2020-02-27 2020-06-26 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN111341458B (zh) * 2020-02-27 2020-11-03 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
WO2021169203A1 (zh) * 2020-02-27 2021-09-02 国家卫生健康委科学技术研究所 基于多层级结构相似度的单基因病名称推荐方法和系统
CN111883210B (zh) * 2020-06-08 2021-05-25 国家卫生健康委科学技术研究所 基于临床特征和序列变异的单基因病名称推荐方法及系统
WO2021248695A1 (zh) * 2020-06-08 2021-12-16 国家卫生健康委科学技术研究所 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN111883210A (zh) * 2020-06-08 2020-11-03 国家卫生健康委科学技术研究所 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN111883223B (zh) * 2020-06-11 2021-05-25 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN111883223A (zh) * 2020-06-11 2020-11-03 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
WO2021248694A1 (zh) * 2020-06-11 2021-12-16 国家卫生健康委科学技术研究所 患者样本数据中结构变异的报告解读方法及系统
CN112667772A (zh) * 2020-12-23 2021-04-16 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
WO2022134252A1 (zh) * 2020-12-23 2022-06-30 深圳华大基因股份有限公司 一种基因关联程度确定方法及相关设备
CN112667772B (zh) * 2020-12-23 2023-04-07 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置

Also Published As

Publication number Publication date
CN109119132B (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN109119132B (zh) 基于病历特征匹配单基因病名称的方法及系统
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107656952B (zh) 平行智能病例推荐模型的建模方法
WO2017152802A1 (zh) 将文本类医疗报告转换为结构化数据的智能系统及方法
CN104199855B (zh) 一种针对中医药学信息的检索系统和方法
CN105389470A (zh) 一种中医针灸领域实体关系自动抽取的实现方法
CN106251865A (zh) 一种基于语音识别的医疗健康记录自动填写方法
CN110349632B (zh) 一种从PubMed文献筛选基因关键词的方法
WO2020074023A1 (zh) 基于深度学习的医学文献中关键句筛选方法及装置
Sankaranarayanan et al. A predictive approach for diabetes mellitus disease through data mining technologies
CN110019641A (zh) 一种医疗否定术语的检出方法及系统
Zhou et al. Team Cat-Garfield at TREC 2018 Precision Medicine Track.
CN115982222A (zh) 一种基于特病特药场景的搜索方法
Zielstorff et al. Representation of nursing terminology in the UMLS Metathesaurus: a pilot study.
Carpenter Phrasal queries with LingPipe and Lucene: ad hoc genomics text retrieval.
JP6850405B2 (ja) 生物学的体系情報検索システム及び方法
Jamil et al. A subject identification method based on term frequency technique
Bigeard et al. Automatic extraction of numerical values from unstructured data in EHRs.
CN114822788A (zh) 一种基于医患交互数据驱动的智能医生推荐方法
Baghal et al. Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse
Samuel et al. Mining online full-text literature for novel protein interaction discovery
Salton Some hierarchical models for automatic document retrieval
KR101104113B1 (ko) 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템
Stroganov et al. Unpacking Unstructured Data: A Pilot Study on Extracting Insights from Neuropathological Reports of Parkinson's Disease Patients using Large Language Models
Drosatos et al. DUTH at TREC 2015 Clinical Decision Support Track.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant after: Institute of Science and Technology, National Health Commission

Address before: No. 12 Dahui Temple Road, Haidian District, Beijing 100081

Applicant before: SCIENCE TECHNOLOGY RESEARCH INSTITUTE OF NATIONAL HEALTH AND FAMILY PLANNING COMMISSION OF THE PEOPLE'S REPUBLICK OF CHINA

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40000913

Country of ref document: HK