CN109119132A

CN109119132A - 基于病历特征匹配单基因病名称的方法及系统

Info

Publication number: CN109119132A
Application number: CN201810876424.2A
Authority: CN
Inventors: 马旭; 曹宗富; 喻浴飞; 陈翠霞; 蔡瑞琨; 李乾; 高华方
Original assignee: Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Current assignee: Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-01-01
Anticipated expiration: 2038-08-03
Also published as: CN109119132B

Abstract

本发明公开一种基于病历临床特征匹配单基因病名称的方法及系统，能够基于患者的病历资料或者临床特征，自动匹配出与其相对应的单基因病名称辅助临床医生参考诊断。该方法包括：基于单基因病的公共数据库和文献数据库，建立临床特征与单基因病名称的特征关系数据库；针对自由文本格式的病历资料进行分词处理，得到包括多个临床特征的第一集合；计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值，并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值；将多个关联度评分值排序，并匹配输出与之对应的单基因病名称。该系统包括上述技术方案所提的方法。

Description

基于病历特征匹配单基因病名称的方法及系统

技术领域

本发明涉及数字医疗技术领域，尤其涉及一种基于病历特征匹配单基因病名称的方法及系统。

背景技术

单基因病是一种常见疾病，它是由一对等位基因突变导致的疾病，又称孟德尔式遗传病，其中，单基因病存在如下特点：

1、单基因病种类繁多，目前已发现的单基因病有8000种以上；

2、单基因病表型复杂，同一种单基因病表型异质性强，存在不同单基因病之间临床特征相互重叠的现象；

3、单基因病遗传模式多样化，即使同一种单基因病，也可能表现为不同的遗传模式，不同的单基因病也可表现为相同的遗传模式。

由于单基因病存在上述特点，使得临床医生很难对所有的单基因病表型都非常了解，这样就给单基因病临床诊疗带来了极大的困难，容易造成误诊和漏诊。

发明内容

本发明的目的在于提供一种基于病历特征匹配单基因病名称的方法及系统，能够基于患者的病历资料或者临床特征，自动匹配出与其相对应的单基因病名称辅助临床医生参考诊断，以提高临床医生对单基因病诊疗的效率和准确性。

为了实现上述目的，本发明的一方面提供一种基于病历特征匹配单基因病名称的方法，包括：

步骤S1，基于单基因病的公共数据库和文献数据库，建立临床特征与单基因病名称的特征关系数据库；

步骤S2，判断患者提供的病历资料为自由文本格式时，执行步骤S3，为标准文本格式时，执行步骤S5；

步骤S3，针对自由文本格式的病历资料进行分词处理，得到包括多个临床特征的第一集合；

步骤S4，计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值，并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值，执行步骤S7；

步骤S5，从标准文本格式的病历资料中获取包括多个临床特征的第二集合，以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合；

步骤S6，采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值；

步骤S7，将多个关联度评分值或者多个显著性值排序，并匹配输出与之对应的单基因病名称。

优选地，所述步骤S1包括：

从单基因病的公共数据库和文献数据库，获得已知的单基因病及其对应的临床特征；

基于已知的单基因病及其对应的临床特征，建立临床特征与单基因病名称的特征关系数据库；

参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息，以实现对中文版病历资料的识别匹配。

较佳地，所述步骤S3包括：

采集医学术语中的标准词组构建关键词库，以及采集公共数据库和/或文献数据库中的常用词组构建高频词库；

定义Elesticsearch分词器的分词优先级，使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理；

统计分词处理后得到的N个词组，对应标记为包括N个临床特征的第一集合。

进一步地，所述步骤S4包括：

从特征关系数据库中提取全部单基因病得到单基因病集合B，所述单基因病集合B中的各单基因病包括M个临床特征B_j；

依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征B_j的相似度值；

基于相似度值的计算结果，获取与N个临床特征中的每个临床特征对应的相似度最大值wB_j；

根据N个临床特征中各临床特征对应的相似度最大值wB_j，计算第一集合与特征关系数据库中单基因病的关联度评分值。

可选地，所述步骤S4包括：

优选地，所述步骤S6包括：

步骤S61，从X个标准集合中选择第Y个标准集合作为待处理集合B，设置Y的初始值为1；

步骤S62，采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数；

步骤S63，基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量；

步骤S64，利用算法计算第二集合A与集合B的临床特征富集因子系数f，其中，a表示第二集合A包含在待处理集合B中的临床特征数目，b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目，c表示第二集合A不包含在待处理集合B中的临床特征数目，d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目；

步骤S65，基于所述距离向量的值和所述临床特征富集因子系数f，对待处理集合B做过滤处理，使得未被清除的待处理集合B执行步骤S66；

步骤S66，利用算法计算第二集合A与待处理集合B的显著性值，其中n＝a+b+c+d；

步骤S67，当Y＜X时，令Y＝Y+1，并返回步骤S61，直至X个标准集合全部被选择处理为止；

具体地，所述步骤S65包括：

当所述距离向量的值小于第一阈值，且所述临床特征富集因子系数f的值大于第二阈值时，将该待处理集合B保留，否则将该待处理集合B剔除。

优选地，所述Jaccard相似性算法为

所述Jaccard距离算法为

其中，|A|表示第二集合A中的临床特征数目，|B|表示待处理集合B中的临床特征数目，|A∩B|表示第二集合A和待处理集合B交集中的临床特征数目，|A∪B|表示第二集合A和待处理集合B并集中的临床特征数目。

优选地，将多个关联度评分值由高到低排序，并将匹配的单基因病名称顺序输出；或者，

将多个显著性值由低到高排序，并将匹配的单基因病名称顺序输出。

与现有技术相比，本发明提供的基于病历特征匹配单基因病名称方法具有以下有益效果：

本发明提供的基于病历特征匹配单基因病名称方法中，由于特征关系数据库是基于公共数据库和文献数据库中的海量单基因病数据建立的，因此可以确保特征关系数据库能够覆盖目前已知的所有单基因病及对应的临床特征，进而保证了其匹配的准确性；具体地，当患者的病历资料为自由文本格式时，首先对病历资料进行分词处理获取包括多个临床特征的第一集合，然后计算第一集合中的每个临床特征与特征关系数据库中各单基因病对应的临床特征的相似度值，通过上述相似度值计算第一集合与特征关系数据库中各单基因病的关联度评分值，然后基于关联度评分值由高至低匹配对应的单基因病名称输出；而当患者的病历资料为标准文本格式时，直接获取病历资料中的多个临床特征组成第二集合，同时从特征关系数据库中获取每种单基因病对应的集合，采用临床特征富集度分析算法分别计算第二集合与特征关系数据库中各单基因病对应的临床特征集合的显著性值，然后基于关联度评分值由低到高匹配对应的单基因病名称输出。

可见，使用本发明提供的基于病历特征匹配单基因病名称的方法，能够基于患者的病历资料快速匹配出患病的单基因病名称，进而为单基因病的临床诊断和鉴别提供理论支持，在缩短诊疗时间的同时还能够提高单基因病的确诊率；另外，本发明提供的方法不受病历资料文本格式的限制，不仅能够支持标准文本格式的病历资料输入，还可支持自由文本格式的病历资料输入，使得本方法具有较佳的适用场景以及广泛的适用范围。

本发明的另一方面提供一种基于病历特征匹配单基因病名称系统，包括数据库单元、判断单元、分词单元、关联度评分值计算单元、提取单元、显著性值计算单元和结果输出单元；

所述数据库单元用于基于单基因病的公共数据库和文献数据库，建立临床特征与单基因病名称的特征关系数据库；

所述判断单元用于判断患者提供的病历资料为自由文本格式还是为标准文本格式；

所述分词单元用于针对自由文本格式的病历资料进行分词处理，得到包括多个临床特征的第一集合；

所述关联度评分值计算单元用于计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值，并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值；

所述提取单元用于从标准文本格式的病历资料中获取包括多个临床特征的第二集合，以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合；

所述显著性值计算单元用于采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值；

所述结果输出单元用于将多个关联度评分值或者多个显著性值排序，并匹配输出与之对应的单基因病名称。

与现有技术相比，本发明提供的基于病历特征匹配单基因病名称系统的有益效果与上述技术方案提供的基于病历特征匹配单基因病名称方法有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中基于病历特征匹配单基因病名称的方法流程示意图；

图2为本发明实施例一中临床特征富集分析数据表示例图；

图3为本发明实施例二中基于病历特征匹配单基因病名称系统的结构框图。

附图标记：

1-数据库单元， 2-判断单元；

3-分词单元， 4-关联度评分值计算单元；

5-提取单元， 6-显著性值计算单元；

7-结果输出单元。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

图1为本发明实施例一中基于病历特征匹配单基因病名称的方法的流程示意图。请参阅图1，本实施例提供一种基于病历特征匹配单基因病名称的方法，包括：

步骤S1，基于单基因病的公共数据库和文献数据库，建立临床特征与单基因病名称的特征关系数据库；步骤S2，判断患者提供的病历资料为自由文本格式时，执行步骤S3，为标准文本格式时，执行步骤S5；步骤S3，针对自由文本格式的病历资料进行分词处理，得到包括多个临床特征的第一集合；步骤S4，计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值，并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值，执行步骤S7；步骤S5，从标准文本格式的病历资料中获取包括多个临床特征的第二集合，以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合；步骤S6，采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值；步骤S7，将多个关联度评分值或者多个显著性值排序，并匹配输出与之对应的单基因病名称。

本实施例提供的基于病历特征匹配单基因病名称方法中，由于特征关系数据库是基于公共数据库和文献数据库中的海量单基因病数据建立的，因此可以确保特征关系数据库能够覆盖目前已知的所有单基因病及对应的临床特征，进而保证了其匹配的准确性；具体地，当患者的病历资料为自由文本格式时，首先对病历资料进行分词处理获取包括多个临床特征的第一集合，然后计算第一集合中的每个临床特征与特征关系数据库中各单基因病对应的临床特征的相似度值，通过上述相似度值计算第一集合与特征关系数据库中各单基因病的关联度评分值，然后基于关联度评分值由高至低匹配对应的单基因病名称输出；而当患者的病历资料为标准文本格式时，直接获取病历资料中多个临床特征组成第二集合，同时从特征关系数据库中获取每种单基因病对应的集合，采用临床特征富集度分析算法分别计算第二集合与特征关系数据库中各单基因病对应的临床特征集合的显著性值，然后基于关联度评分值由低到高匹配对应的单基因病名称输出。

可见，使用本实施例提供的基于病历特征匹配单基因病名称的方法，能够基于患者的病历资料快速匹配出患病的单基因病名称，进而为单基因病的临床诊断和鉴别提供理论支持，在缩短诊疗时间的同时还能够提高单基因病的确诊率；另外，本实施例提供的方法不受病历资料文本格式的限制，不仅能够支持标准文本格式的病历资料输入，还可支持自由文本格式的病历资料输入，使得本方法具有较佳的适用场景以及广泛的适用范围。

具体地，上述实施例中步骤S1包括：

从单基因病的公共数据库和文献数据库，获得已知的单基因病及其对应的临床特征；基于已知的单基因病及其对应的临床特征，建立临床特征与单基因病名称的特征关系数据库；参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息，以实现对中文版病历资料的识别匹配。

示例性地，公共数据库为MedGen数据库，文献数据库为PubMed数据库，特征关系数据库中包括互相匹配的单基因病名称、外文临床特征、临床特征在人类表型标准用语数据库中的编号(HPOIDs)以及中文临床特征。建成的特征关系数据库覆盖的单基因病种类达8600种，临床特征超过11000个，临床特征与单基因病的关系数据有9万种以上，囊括了单基因病研究方向最新的公共数据库数据和文献数据库数据。

具体地，上述实施例提供的步骤S3包括：

采集医学术语中的标准词组构建关键词库，以及采集公共数据库和/或文献数据库中的常用词组构建高频词库；定义Elesticsearch分词器的分词优先级，使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理；统计分词处理后得到的N个词组，对应标记为包括N个临床特征的第一集合。

具体实施时，标准词组是指从MedGen数据库、HPO数据库、CHPO数据库和中文文献数据库中爬取到的标准用词，常用词组是指那些未被收录为标准词组但在医学行业中已被约定成俗的通用词组，在具体操作过程中，标准词组和常用词组也可由用户手动标识，自由的对标准词组和常用词组进行添加、补录或者转换。可以理解的是，自由文本格式的病历资料是指用白话文对患者的病历情况作出的表述说明，该表述说明不仅包括必要的临床特征词组，而且还包括一些非必要的修饰性字词，Elesticsearch分词器即是对病历资料中的临床特征词组进行提取的一种工具，Elesticsearch分词器的分词过程为，首先定义好Elesticsearch分词器的分词优先级，使其能够首先筛选出自由文本格式病历资料中存在于关键词库的词组，并将这些词组直接输出，然后从剩余的病历资料中筛选出存在于高频词库的词组，同样将这些词组输出，最后，将剩下的病历资料进行空格分词，使得剩余的语句或者词组全部被分割成单个字符；当上述分词操作完成后，再通过Elesticsearch分词器的单字符过滤功能将分词后形成的单个字符过滤，统计分词处理后得到的N个词组，对应标记为包括N个临床特征的第一集合。

通过上述实施过程可知，Elesticsearch分词器可实现对自由文本格式的病历资料中的临床特征词组进行有效提取，进而使得上述实施例提供的方法能够支持对自由文本格式病历资料的识别匹配。

具体地，上述实施例提供的步骤S4包括：

从特征关系数据库中提取全部单基因病名称得到单基因病集合B，单基因病集合B中的各单基因病包括M个临床特征B_j；依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征B_j的相似度值；基于相似度值的计算结果，获取与N个临床特征中的每个临床特征对应的相似度最大值wB_j；根据N个临床特征中各临床特征对应的相似度最大值wB_j，计算第一集合与特征关系数据库中单基因病的关联度评分值。

具体实施时，首先从特征关系数据库中获取全部单基因病名称汇总得到单基因病集合B，单基因病集合B的每一元素对应与一种单基因病名称，而每一元素中又包括M个临床特征B_j，然后，利用关联度评分值计算公式分别计算第一集合与特征关系数据库中每个单基因病的关联度评分值，多次计算后，最终得到与单基因病集合B中元素相同数量的关联度评分值；需对关联度评分值计算公式说明的是，t为关联度评分值的标准化系数，计算方法为j为第一集合中某一临床特征，通过该公式可计算得到第一集合中各临床特征与特征关系数据库的关联度评分值的标准化系数，另外，wB_j为第一集合的某一临床特征与特征关系数据库中各单基因病中的M个临床特征的相似度值最大，wB_j取值范围为[0,1]，wB_j的计算方法为其中c_j表示特征关系数据库中某一临床特征与对应单基因病的贡献度，ls_j表示单基因病集合B中某一个临床特征B_j和第一集合中对应临床特征相同的字符长度，l_j是单基因病集合B中某一元素中对应的临床特征B_j的字符长度，l_i是第一集合中的对应临床特征的字符长度。

另外，其中，k为校正因子，k＞1，f_i为每个临床特征在特征关系数据库中出现的频率，f_i＝n_i/T，n_i表示中某一临床特征在特征关系数据库中出现的次数，T为所有临床特征在特征关系数据库出现的总次数。

进一步地，上述实施例中步骤S5包括：

从标准文本格式的病历资料中获取包括多个临床特征的第二集合A；获取特征关系数据库中的全部单基因病，每种单基因病中的临床特征组成一个标准集合；统计标准集合的数量X，并顺序对各标准集合标记。

步骤S6包括：步骤S61，从X个标准集合中选择第Y个标准集合作为待处理集合B，设置Y的初始值为1；步骤S62，采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数；步骤S63，基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量；步骤S64，利用算法计算第二集合A与集合B的临床特征富集因子系数f，其中，a表示第二集合A包含在待处理集合B中的临床特征数目，b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目，c表示第二集合A不包含在待处理集合B中的临床特征数目，d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目；步骤S65，基于所述距离向量的值和所述临床特征富集因子系数f，对待处理集合B做过滤处理，使得未被清除的待处理集合B执行步骤S66；

具体实施时，请参阅图2，为了简化运算可采用表格法来辅助显著性值的计算，其中，a表示第二集合A包含在待处理集合B中的临床特征数目，b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目，c表示第二集合A不包含在待处理集合B中的临床特征数目，d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目；其中，Jaccard相似性系数是用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数，对应的计算公式为

Jaccard距离算法为其中，|A|表示第二集合A中的临床特征数目，|B|表示待处理集合B中的临床特征数目，|A∩B|表示第二集合A和待处理集合B交集中的临床特征数目，|A∪B|表示第二集合A和待处理集合B并集中的临床特征数目。J(A,B)取值范围为[0,1]，距离向量的值越小，则表示两个集合越相似，若第二集合A和待处理集合B的集合均为空，则J(A,B)＝1。最终获取到第二集合A与各标准集合的显著性值P，而显著性值P越小则说明两个集合的相似性越大。

示例性地，步骤S65包括：当距离向量的值小于第一阈值，且临床特征富集因子系数f的值大于第二阈值时，将该待处理集合B保留，否则将该待处理集合B剔除。其中，第一阈值和第二阈值可由用户自由设定，默认的第一阈值为1，第二阈值为0。

最后，将多个关联度评分值由高到低排序，并将与之匹配的单基因病名称顺序输出，关联度评分值越大则说明对应的单基因病名称越符合第一集合中表现的临床特征，或者，将多个显著性值由低到高排序，并将匹配的单基因病名称顺序输出，显著性值越小则说明对应的单基因病名称越符合第二集合中表现的临床特征。

实施例二

请参阅图1和图3，本实施例提供一种基于病历特征匹配单基因病名称系统，包括：

包括数据库单元1、判断单元2、分词单元3、关联度评分值计算单元4、提取单元5、显著性值计算单元6和结果输出单元7；

数据库单元1用于基于单基因病的公共数据库和文献数据库，建立临床特征与单基因病名称的特征关系数据库；

判断单元2用于判断患者提供的病历资料为自由文本格式还是为标准文本格式；

分词单元3用于针对自由文本格式的病历资料进行分词处理，得到包括多个临床特征的第一集合；

关联度评分值计算单元4用于计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值，并基于相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值；

提取单元5用于从标准文本格式的病历资料中获取包括多个临床特征的第二集合，以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合；

显著性值计算单元6用于采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值；

结果输出单元7用于将多个关联度评分值或者多个显著性值排序，并匹配输出与之对应的单基因病名称。

与现有技术相比，本发明实施例提供的基于病历特征匹配单基因病名称系统的有益效果与上述实施例一提供的基于病历特征匹配单基因病名称方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于病历特征匹配单基因病名称的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S4包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤S5包括：

从标准文本格式的病历资料中获取包括多个临床特征的第二集合A；

获取特征关系数据库中的全部单基因病，每种单基因病中的临床特征组成一个标准集合；

统计标准集合的数量X，并顺序对各标准集合标记。

6.根据权利要求5所述的方法，其特征在于，所述步骤S6包括：

步骤S67，当Y＜X时，令Y＝Y+1，并返回步骤S61，直至X个标准集合全部被选择处理为止。

7.根据权利要求6所述的方法，其特征在于，所述步骤S65包括：

8.根据权利要求6所述的方法，其特征在于，所述Jaccard相似性算法为

所述Jaccard距离算法为

9.根据权利要求1所述的方法，其特征在于，将多个关联度评分值由高到低排序，并将匹配的单基因病名称顺序输出；或者，

10.一种基于病历特征匹配单基因病名称系统，其特征在于，包括数据库单元、判断单元、分词单元、关联度评分值计算单元、提取单元、显著性值计算单元和结果输出单元；