CN115910213A

CN115910213A - 人类表型本体的筛选方法、装置、设备及介质

Info

Publication number: CN115910213A
Application number: CN202211318813.6A
Authority: CN
Inventors: 林志鹏; 牟文博; 田昊; 方萍
Original assignee: Guangzhou Kingmed Diagnostics Group Co ltd; Guangzhou Kingmed Diagnostics Central Co Ltd
Current assignee: Guangzhou Kingmed Diagnostics Group Co ltd; Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-04-04
Anticipated expiration: 2042-10-26
Also published as: CN115910213B

Abstract

本申请提供一种人类表型本体的筛选方法、装置、设备及介质，将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果，从而提高筛选的准确性，进而提高推荐HPO的准确率。

Description

人类表型本体的筛选方法、装置、设备及介质

技术领域

本发明属于医疗技术领域，尤其涉及一种人类表型本体的筛选方法、装置、设备及介质。

背景技术

人类遗传疾病是指由于遗传物质的改变而造成的疾病，而遗传病数量种类多且每年均有新发现的遗传疾病种类，使得遗传疾病成为危害人类健康的重要因素。

人类表型本体(HPO)是一个标准化受控的词典，它包含了基因和基因产物的表型信息。在人类在线孟德尔遗传数据库(online Mendelian Inheritance in Man)为大约8千个疾病提供了超过11万个基因注释，这些疾病被HPO术语所标注，使得HPO术语可以被用来描述所有的体征、症状和其他表型表现的特征。由于HPO包含了表型异常的关联信息，基于数据库搜索在关联人类疾病的基因表达模式的临床诊断或计算分析可以通过包含上述标注概念的HPO术语的语义相似度计算来实现。

然而HPO官方词条是英文版，对于英文临床文本的处理大致流程为：首先通过英文分词工具进行分词，然后通过统一医学系统(Unified Medical Language System)数据库对分词结果进行筛选，从而得到HPO结果，然而此流程需要将中文的临床信息翻译为英文的翻译信息，一旦翻译不准确，则会导致筛选的结果存在不准确的问题。

发明内容

针对上述现有技术的不足，本发明的目的在于提供一种人类表型本体的筛选方法、装置、设备及介质，以解决筛选的结果存在不准确的问题。

本发明提供一种人类表型本体的筛选方法，包括如下步骤：

获取临床记录信息；

将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息；

将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；

所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；

将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；

将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

在本发明的一实施例中，所述将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括：

将临床记录信息依据第一预设规则转换为编码序列Seq_token(id₁，id₂...id_n)，将编码序列Seq_token(id₁，id₂...id_n)作为神经网络语言模型的输入，所述神经网络语言模型Seq_token(id₁，id₂...id_n)输出临床记录信息对应的第一表型信息。

在本发明的一实施例中，所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括：

所述神经网络语言模型包括概率算法模型、标签识别模型、过滤算法模型及表型位置提取模型；

将编码序列Seq_token(id₁，id₂...id_n)输入至概率算法模型，获取概率矩阵M(vec₁，vec₂...vec_n)，其中vec为高维向量；

将概率矩阵M(vec₁，vec₂...vec_n)输入至标签识别模型，所述标签识别模型自概率矩阵中筛选出标签序列Seq_label(t₁，t₂...t_n)Seq_label(t₁，t₂...t_n)；

将标签序列Seq_label(t₁，t₂...t_n)输入至过滤算法模型，所述过滤算法模型对标签序列进行纠正，获得过滤后的标签序列Seq_label(t₁，t₂...t_n)；

将过滤后的标签序列输入至表型位置提取模型，获取表型位置标记的三元集合G，{[idx_start，idx_end，p_start+p_end]∈G|O＜start＜end＜n}，其中p_x＝max(vec_x)，Score₁＝p_start+p_endp_x＝max(vec_x)，Score₁＝p_start+p_end，p为表型的置信值，Score₁为置信值得分，p_start为标签序列中的最高的置信值；

将表型位置标记的三元集合G输入至HPO筛选算法模型，获取三元集合G的得分Score₂＝HPO(x)，x∈G Score₂＝HPO(x)，x∈G；

将Score₁Score₁与第一阈值进行比较，将Score₂Score₂与第二阈值进行比较，获得第一表型集合，所述第一表型集合为第一表型信息，第一阈值和第二阈值为人工预设参考值。

在本发明的一实施例中，所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语，将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括：

将召回HPO术语复制后输入至表型语义角度子模型，对所述第一表型信息依据第二预设规则对第一表型信息进行分词，获得分词结果P_c(w₁，w₂...w_n)P_c(w₁，w₂...w_n)，其中w为中文分词词语；

将分词结果P_c(w₁，w₂...w_n)依据第二预设规则转化成P_c(vec₁，vec₂...vec_n)P_c(vec₁，vec₂...vec_n)，其中vec是高维向量；

由公式：

计算获得表型向量，其中vec是高维向量；

由公式：

计算获得语义结果；

对语义结果进行排序，获得排序语义结果，将排序语义结果输入至HPO筛选模型，获得语义角度筛选术语，所述语义角度筛选术语为依据排序语义结果自HPO筛选模型中筛选的推荐HPO项；

将召回HPO术语复制后输入至表型词统计角度子模型；

Score_bm25为HPO分数得分，其中f(q_i，D)，f(q_i，D)为中文人类表型本体分词后各词在中文人类表型本体中出现的频率，avgdl为HPO翻译的文本平均长度，D|D|为HPO翻译对应的文本长度，N为HPO词条的总条目数，n(q_i)为包含q_iq_i的HPO翻译条目数量，b和k₁为可调参；

对获得每个HPO的筛选分数进行排序，选取分数最高的HPO层级扩充子模型的候选HPO术语。

在本发明的一实施例中，所述经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数的步骤包括：

自HPO数据库获取HPO关联基因的注释个数Count_geneCount_gene；

由公式

与输入表型计算，获得HPO词对关联系数，其中，Q为上一步提取的表型，D为人类表型本体数据库中的中文描述。

在本发明的一实施例中，所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果的步骤包括：

获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数，计算每个HPO筛选算法分数，

由公式Score_final＝k₁·Score_semantic+k₂·log(Score_bm25+b₁)+k₃·Score_pair+k₄·log(Count_gene+b₂)，获得每个HPO筛选算法最终分数，其中，k为控制不同分数的权重参数，b为调整分数值域的控制参数，Score_semantic为语义角度筛选术语，Score_bm25为召回统计角度筛选术语，Score_pair为HPO基因信息，Count_gene为HPO词对关联系数。

在本发明的一实施例中，所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果的步骤还包括：

对每个HPO筛选算法最终分数进行排序，获得排序后的HPO筛选算法最终分数，将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较，第三阈值为人工预设参考值；

若HPO筛选算法最终分数大于第三阈值，则输出推荐的HPO。

本发明提供一种人类表型本体的筛选装置，包括：

信息录入模块，用于获取临床记录信息；

神经网络语言模块，用于处理临床记录信息，获得第一表型信息；

HPO筛选模块，用于对第一表型进行处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数；

结果计算模块，依据召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息、HPO词对关联系数及预设的评分规则输出HPO筛选结果；

结果输出模块，依据HPO筛选结果，输出推荐的HPO。

本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述的人类表型本体的筛选方法。

本发明提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述的人类表型本体的筛选方法。

实施本发明实施例，将至少具有如下有益效果：

本发明提供一种人类表型本体的筛选方法、装置、设备及介质，将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果，从而提高筛选的准确性，进而提高推荐HPO的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中的流程图；

图2为本发明另一实施例中的流程图；

图3为本发明人类表型本体的筛选装置的结构框图；

图4为一实施例中计算机设备的结构框图。

图中：

人类表型本体的筛选装置100、信息录入模块101、神经网络语言模块102、HPO筛选模块103、结果计算模块104、结果输出模块105、计算机设备200、处理器210、存储器220。

具体实施方式

为了使本领域的技术人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，当元件被称为“固定于”或“设置于”另一个部件上，它可以直接在另一个部件上或者间接设置在另一个部件上；当一个部件被称为是“连接于”另一个部件，它可以是直接连接到另一个部件或间接连接至另一个部件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或部件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”、“若干个”的含义是两个或两个以上，除非另有明确具体的限定。

须知，本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本申请可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本申请所能产生的功效及所能达成的目的下，均应仍落在本申请所揭示的技术内容得能涵盖的范围内。

本发明提供一种人类表型本体的筛选方法，包括如下步骤：

S1：获取临床记录信息；

S2：将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息；

S3：将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；

S4：所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；

S5：将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；

S6：将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

参考图1，实施例一，将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息；将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语，将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果，从而提高筛选的准确性，进而提高推荐HPO的准确率。

需要说明的是，临床记录信息为电子病历或纸质病历，若采用纸质病历则需要通过人工提取纸质病历信息；HPO基因信息为HPO关联基因注释信息；每一个HPO术语描述了一种独特的表型异常；HPO层级结构为一个有向无换图，即每个节点代表其上一层级术语的子类。

需要进一步说明的是，由于中文临床信息在转换翻译的过程中，存在表述不标准、单一表型表达不唯一、存在单词缩写的问题，使得词库的词匹配算法通常不能将此类表型信息识别出。

因此本实施例中采用神经网络语言模型，通过语言模型借助神经网络高泛化的特点来解决之前表型识别严重依赖于词库的问题，然后将后续提取出的召回HPO术语返回，进行二次过滤，以提高筛选的准确性。

将临床记录信息依据第一预设规则转换为编码序列Seq_token(id₁，id₂...id_n)，将编码序列Seq_token(id₁，id₂...id_n)作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息，第一预设规则为字典映射规则。

参考图1至图2，实施例二：获取到临床记录信息，并将临床记录信息进行预处理获得Seq_ehr(c₁，c₂...c_n)，Seq_ehr(c₁，c₂...c_n)为临床检测信息序列，将Seq_ehr(c₁，c₂...c_n)按照预设的字典映射规定转换成编码序列Seq_token(id₁，id₂...id_n)，并将编码序列Seq_token(id₁，id₂...id_n)作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息，将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；

所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

需要说明的是，即将临床记录信息序列转换成编码序列，编码序列进行运用自然语言处理技术提取出所有的医学名词，然后通过神经网络语言模型输出临床记录信息对应的第一表型信息，使得医学名词的匹配准确度更高。

将过滤后的标签序列输入至表型位置提取模型，获取表型位置标记的三元集合G，{[idx_start，idx_end，p_start+p_end]∈G|O＜start＜end＜n}，其中p_x＝max(vec_x)，Score₁＝p_start+p_endp_x＝max(vec_x)，Score₁＝p_start+p_end，p为表型的置信值，Score₁为置信值得分，ps_tart为标签序列中的最高的置信值；

将表型位置标记的三元集合G输入至HPO筛选算法模型，获取三元集合G的得分Score₂＝HPO(x)，x∈GScore₂＝HPO(x)，x∈G；

将Score₁Score₁与第一阈值进行比较，将Score₂与第二阈值进行比较，获得第一表型集合，所述第一表型集合为第一表型信息，第一阈值和第二阈值为人工预设参考值。

参考图1至图2，实施例三：

获取临床记录信息；

将临床记录信息作为神经网络语言模型的输入，临床记录信息通过转化得到的编码序列Seq_token(id₁，id₂...id_n)并输入到概率算法模型当中，即

M(vec₁，vec₂...vec_n)＝LM(Seq_token(id₁，id₂...id_n))，得到概率矩阵，然后通过标签识别模型从概率矩阵中识别出标签序列，即

得到标签序列，将标签序列输入至过滤算法模型中，argmax为对函数求参数(集合)的函数，Seq_label(t₁，t₂...t_n)＝FILTER(Seq_label(t₁，t₂...t_n))，得到过滤后的标签序列，其中，FILTER为FILTER函数，即将返回一个数组；

将过滤后的标签序列输入至表型位置提取模型中，获取到表型位置标记的三元集合G，{[idx_start，idx_end，p_start+p_end]∈G|O＜start＜end＜n}，其中p_x＝max(vec_x)，Score₁＝p_start+p_endp_x＝max(vec_x)，Score₁＝p_start+p_end，p为表型的置信值，Score₁为置信值得分，p_start为标签序列中的最高的置信值，从而得到表型的置信值，然后将Score₁Score₁与第一阈值进行比较，将Score₂Score₂与第二阈值进行比较，获得第一表型集合，所述第一表型集合为第一表型信息，将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；

将召回HPO术语复制后输入至表型语义角度子模型，对所述第一表型信息依据第二预设规则(预先设定的词-向量映射库D_corpus中的词典集)对第一表型信息进行分词，获得分词结果P_c(w₁，w₂...w_n)P_c(w₁，w₂...w_n)，其中w为中文分词词语；

将分词结果P_c(w₁，w₂...w_n)依据第二预设规则(词-向量映射库D_corpus)转化成P_c(vec₁，vec₂...vec_n)P_c(vec₁，vec₂...vec_n)，其中vec是高维向量；

由公式：

计算获得表型向量，其中vec是高维向量；

由公式：

计算获得语义结果；

将召回HPO术语复制后输入至表型词统计角度子模型；

对获得每个HPO的筛选分数进行排序，选取分数最高的HPO层级扩充子模型的候选HPO术语，将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

需要说明的是，由于HPO词条存在多维度的信息，使得现有技术中在做精准排序时，会对精准排序造成干扰，第二预设规则为词-向量映射库规则。

参考图1至图2，实施例四：

获取临床记录信息；将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息；将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果，所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语，即，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将复制的第一表型信息输入至HPO层级扩充子模型中，依据预设格式词——向量映射库D_corpus中的词典集，对第一表型信息进行分词获得分词结果P_c(w₁，w₂...w_n)，然后将分词结果P_c(w₁，w₂...w_n)经过词——向量映射库D_corpus转换成P_c(vec₁，vec₂...vec_n)，得到Vec_p于预先计算的HPO-向量映射库D_corpus中的同维向量，并输入到公式

计算获得语义结果，semantic为语义，score为得分；接着通过排序得到语义结果基于语义相似获得推荐的HPO项。通过术语向量化及空间最邻近算法来召回候选HPO项，以作为HPO层级扩充子模型的候选HPO术语，运用上述步骤能够找到语义相似的表型，同时增加对于中文人类表型本体术语翻译质量不高的冗余。

由于纯语义匹配的召回策略无法解决输入的表型中词的重点不一致的问题。本实施例采用一下步骤来解决输入的表型中词的重点不一致的问题：

统计中文人类表型本体中的词的出现频率及逆文档概率(逆文档频率：是文档频率的倒数，主要用于概念TF-IDF(term frequency–inverse document frequency)中)，将召回HPO术语复制后输入至表型词统计角度子模型，通过公式

计算获得对应每个HPO到匹配分数，然后对第一表型信息与每个HPO翻译相对应并计算其结果，然后对结果进行排序，选取分数最高的HPO层级扩充子模型的候选HPO术语。

由于HPO层级进行候选项扩充是非常重要的环节之一，但是现有的HPO项的关联的基因注释个数通常很少，导致无法更好的辅助人工完成分析。本实施例中HPO层级结构为一个有向无环结构，其中每个节点代表其上层术语的子类，同时存在单个HPO上下层级的关联项过度，然后采用随机采样策略以选取HPO候选项的数量。

然后将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

自HPO数据库获取HPO关联基因的注释个数Count_geneCount_gene；

由公式

由公式

Score_final＝k₁·Score_semantic+k₂·log(Score_bm25+b₁)+k₃·Score_pair+k₄·log(Count_gene+b₂)，获得每个HPO筛选算法最终分数，其中，k为控制不同分数的权重参数，b为调整分数值域的控制参数，Score_semantic为语义角度筛选术语，Score_bm25为召回统计角度筛选术语，Score_pair为HPO基因信息，Count_gene为HPO词对关联系数。

参考图1至图2，实施例五：

获取到临床记录信息，并将临床记录信息进行预处理获得Seq_ehr(c₁，c₂...c_n)，Seq_ehr(c₁，c₂...c_n)为临床检测信息序列，将Seq_ehr(c₁，c₂...c_n)按照预设的字典映射规定转换成编码序列Seq_token(id₁，id₂...id_n)，并将编码序列Seq_token(id₁，id₂...id_n)作为神经网络语言模型的输入，将临床记录信息作为神经网络语言模型的输入，临床记录信息通过转化得到的编码序列Seq_token(id₁，id₂...id_n)并输入到概率算法模型当中，即

将过滤后的标签序列输入至表型位置提取模型中，获取到表型位置标记的三元集合G，{[idx_start，idx_end，p_start+p_end]∈G|O＜start＜end＜n}，其中p_x＝max(vec_x)，Score₁＝p_start+P_end，p为表型的置信值，Score₁为置信值得分，p_start为标签序列中的最高的置信值，从而得到表型的置信值，然后将Score₁Score₁与第一阈值进行比较，将Score₂与第二阈值进行比较，获得第一表型集合，所述第一表型集合为第一表型信息，将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将复制的第一表型信息输入至HPO层级扩充子模型中，依据预设格式词——向量映射库D_corpus中的词典集，对第一表型信息进行分词获得分词结果P_c(w₁，w₂...w_n)，然后将分词结果P_c(w₁，w₂...w_n)经过词——向量映射库D_corpus转换成P_c(vec₁，vec₂...vec_n)，得到Vec_p于预先计算的HPO-向量映射库D_corpus中的同维向量，并输入到公式

统计中文人类表型本体中的词的出现频率及逆文档概率(逆文档频率：是文档频率的倒数，主要用于概念TF-IDF(term frequency-inverse document frequency)中)，将召回HPO术语复制后输入至表型词统计角度子模型，通过公式

自HPO数据库获取HPO关联基因的注释个数Count_gene；由公式

与输入表型计算，获得HPO词对关联系数，HPO基因信息即为HPO关联基因的注释个数。最后将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果。

若HPO筛选算法最终分数大于第三阈值，则输出推荐的HPO。

参考图1至图2，实施例六：

将过滤后的标签序列输入至表型位置提取模型中，获取到表型位置标记的三元集合G，{[idx_start，idx_end，p_start+p_end]∈G|O＜start＜end＜n}，其中p_x＝max(vec_x)，Score₁＝p_start+p_endpx＝max(vec_x)，Score₁＝p_start+p_end，p为表型的置信值，Score₁为置信值得分，p_start为标签序列中的最高的置信值，从而得到表型的置信值，然后将Score₁Score₁与第一阈值进行比较，将Score₂Score₂与第二阈值进行比较，获得第一表型集合，所述第一表型集合为第一表型信息，将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语，经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数；将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语；将复制的第一表型信息输入至HPO层级扩充子模型中，依据预设格式词——向量映射库D_corpus中的词典集，对第一表型信息进行分词获得分词结果P_c(w₁，w₂...w_n)，然后将分词结果P_c(w₁，w₂...w_n)经过词——向量映射库D_corpus转换成P_c(vec₁，vec₂...vec_n)，得到Vec_p于预先计算的HPO-向量映射库D_corpus中的同维向量，并输入到公式

自HPO数据库获取HPO关联基因的注释个数Count_gene；由公式

与输入表型计算，获得HPO词对关联系数，HPO基因信息即为HPO关联基因的注释个数。

将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至公式Score_final＝k₁·Score_semantic+k₂·log(Score_bm25+b₁)+k₃·Score_pair+k₄·log(Count_gene+b₂)中，获得每个HPO筛选算法最终分数，然后将每个HPO筛选算法计算推荐分数，按照推荐分排序，从而控制推荐的HPO项数量，以减少对人工的干扰项，对每个HPO筛选算法最终分数进行排序，获得排序后的HPO筛选算法最终分数，将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较，第三阈值为人工预设参考值；若HPO筛选算法最终分数大于第三阈值，则输出推荐的HPO，从而提高筛选的准确性，进而提高推荐HPO的准确率，提高识别的泛化能力及准确率，降低人工工作的强度，提高整个流程的效率。

更进一步的，由于将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至公式Score_final＝k₁·Score_semantic+k₂·log(Score_bm25+b₁)+k₃·Score_pair+k₄·log(Count_gene+b₂)中，获得每个HPO筛选算法最终分数，其中涉及多个可变参数，使用常规方案的复杂程度高，通过以下公式进行计算：

设a₁，a₂，a₃，令k₁＝a₁a₂a₃，k₂＝a₂a₃(1-a₁)，k₃＝a₃(1-a₂)，k₄＝1-a₃

故Score_final＝k₁·Score_semantic+k₂·log(Score_bm25+b₁)+k₃·Score_pair+k₄·log(Count_gene+b₂)

等价于Score_final＝·a₁a₂a₃·Score_semantic·+·a₂a₃(1-a₁)·log(Score_bm25+b₁)+a₃(1-a₂)·Score_pair·+1-a₃·log(Count_gene·+b₂)

＝a₃{a₂[a₁·Score_semantic·+·(1-a₁)·log(Score_bm25+b₁)]·+(1-a₂)·Score_pair}·+(1-a₃)·log(Count_gene·+b₂)

由公式进行人类表型本体匹配算法进行转化，从而损失部分准确率，将指数复杂度转换成线性复杂度，再由a₁，a₂，a₃计算获得k₁，k₂，k₃，k₄，以减少公式的复杂度，同时也能保证最终排序分数在合理范围内。

本发明提供一种人类表型本体的筛选装置100，包括：

信息录入模块101，用于获取临床记录信息；

神经网络语言模块102，用于处理临床记录信息，获得第一表型信息；

HPO筛选模块103，用于对第一表型进行处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数；

结果计算模块104，依据召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息、HPO词对关联系数及预设的评分规则输出HPO筛选结果；

结果输出模块105，依据HPO筛选结果，输出推荐的HPO。

在本实施例中，计算机通过信息录入模块101获取到临床记录信息，然后将临床记录信息转换成预设格式输入至神经网络语言模块102中，神经网络语言模块102进行处理获得第一表型信息，然后输入至HPO筛选模块103中，经过HPO筛选模块103的处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数，然后将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至结果计算模块104中进行计算，并按照预设的评分规则输出HPO筛选结果，结果输出模块105接收到HPO筛选结果，最终输出推荐的HPO。

本发明提供一种计算机设备200，包括存储器220和处理器210，所述存储器220存储有计算机程序，所述计算机程序被所述处理器220执行时，使得所述处理器220执行如上述的人类表型本体的筛选方法。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

该计算机设备包括通过终端总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质有存储操作终端，还可有存储计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述的人类表型本体的筛选方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述的人类表型本体的筛选方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例系统中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各系统的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人类表型本体的筛选方法，其特征在于，包括如下步骤：

获取临床记录信息；

将第一表型信息作为HPO筛选模型的输入，获取HPO筛选结果；

2.根据权利要求1所述的人类表型本体的筛选方法，其特征在于，所述将临床记录信息作为神经网络语言模型的输入，所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括：

将临床记录信息依据第一预设规则转换为编码序列Seq_token(id₁,id₂...id_n)，将编码序列Seq_token(id₁,id₂...id_n)作为神经网络语言模型的输入，所述神经网络语言模型Seq_token(id₁，id₂...id_n)输出临床记录信息对应的第一表型信息。

3.根据权利要求2所述的人类表型本体的筛选方法，其特征在于，所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括：

将编码序列Seq_token(id₁,id₂...id_n)输入至概率算法模型，获取概率矩阵M(vec₁,vec₂...vec_n)，其中vec为高维向量；

将概率矩阵M(vec₁,vec₂...vec_n)输入至标签识别模型，所述标签识别模型自概率矩阵中筛选出标签序列Seq_label(t₁,t₂...t_n)Seq_label(t₁，t₂...t_n)；

将标签序列Seq_label(t₁,t₂...t_n)输入至过滤算法模型，所述过滤算法模型对标签序列进行纠正，获得过滤后的标签序列Seq_label(t₁,t₂...t_n)；

将过滤后的标签序列输入至表型位置提取模型，获取表型位置标记的三元集合G,{[idx_start,idx_end,p_start+p_end]∈G│0<start<end<n}，其中p_x＝max(vec_x)，Score₁＝p_start+p_endp_x＝max(vec_x)，Score₁＝p_start+p_end，p为表型的置信值，Score₁为置信值得分，p_start为标签序列中的最高的置信值；

将表型位置标记的三元集合G输入至HPO筛选算法模型，获取三元集合G的得分Score₂＝HPO(x)，x∈GScore₂＝HPO(x),x∈G；

4.根据权利要求1所述的人类表型本体的筛选方法，其特征在于，所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型，将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型，获取语义角度筛选术语及统计角度筛选术语，将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括：

将召回HPO术语复制后输入至表型语义角度子模型，对所述第一表型信息依据第二预设规则对第一表型信息进行分词，获得分词结果P_c(w₁,w₂...w_n)P_c(w₁，w₂...w_n)，其中w为中文分词词语；

将分词结果P_c(w₁,w₂...w_n)依据第二预设规则转化成P_c(vec₁,vec₂...vec_n)P_c(vec₁，vec₂...vec_n)，其中vec是高维向量；

由公式：

计算获得表型向量，其中vec是高维向量；

由公式：

计算获得语义结果；

将召回HPO术语复制后输入至表型词统计角度子模型；

Score_bm25为HPO分数得分，其中f(q_i,D)，f(q_i，D)为中文人类表型本体分词后各词在中文人类表型本体中出现的频率，avgdl为HPO翻译的文本平均长度，|D||D|为HPO翻译对应的文本长度，N为HPO词条的总条目数，n(q_i)为包含q_iq_i的HPO翻译条目数量，b和k₁为可调参；

5.根据权利要求1所述的人类表型本体的筛选方法，其特征在于，所述经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数的步骤包括：

自HPO数据库获取HPO关联基因的注释个数Count_geneCount_gene；

由公式

6.根据权利要求1所述的人类表型本体的筛选方法，其特征在于，所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果的步骤包括：

7.根据权利要求1所述的人类表型本体的筛选方法，其特征在于，所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语，将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后，根据预设的评分规则筛选出HPO筛选结果的步骤还包括：

若HPO筛选算法最终分数大于第三阈值，则输出推荐的HPO。

8.一种人类表型本体的筛选装置，其特征在于，包括：

信息录入模块，用于获取临床记录信息；

结果输出模块，依据HPO筛选结果，输出推荐的HPO。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-7中所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-7中所述的方法。