CN115547514A

CN115547514A - 一种致病基因排序方法、装置、电子设备和介质

Info

Publication number: CN115547514A
Application number: CN202211496085.8A
Authority: CN
Inventors: 吴蓉蓉; 王建峰; 陈梅; 余蕾; 方云倩; 徐昕; 许青青; 陆奇; 任子云
Original assignee: Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Current assignee: Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2022-12-30

Abstract

本发明公开了一种致病基因排序方法、装置、电子设备和介质。该方法包括：获取患者临床信息；对患者临床信息进行提取和标准化处理，确定各个初始标准表型，并对每个初始标准表型进行向量化处理，获得表型向量；基于每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定表型相似度，并基于表型相似度和预设相似度阈值，确定各个目标标准表型；基于疾病与表型之间的关联关系和各个目标标准表型，确定各个目标疾病和每个目标疾病对应的目标标准表型数量；基于目标标准表型数量和初始标准表型数量，获取目标疾病排序结果；基于疾病与致病基因之间的关联关系和目标疾病排序结果，确定致病基因排序结果，从而实现致病基因的自动排序。

Description

一种致病基因排序方法、装置、电子设备和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种致病基因排序方法、装置、电子设备和介质。

背景技术

疾病的表型可以是致病基因在一定环境下的表现形式。每个疾病通常可以对应多个表型；每个表型也可以对应多个疾病。通常可以对表型与疾病对应的致病基因之间的关联关系进行展开研究。

目前，通常是基于人工经验将表型与所有致病基因进行匹配，从而确定出与表型存在关联关系的致病基因，并基于表型与匹配成功的多个致病基因进行展开研究。

然而，这种人工匹配的方式，费时费力，还会出现遗漏和匹配错误的情况，降低了确定表型与致病基因之间的关联关系的准确性和效率，并且在进行展开研究时没有侧重点，需要将与表型存在关联关系的所有致病基因都进行研究，降低了研究的效率。

发明内容

本发明提供了一种致病基因排序方法、装置、电子设备和介质，以实现致病基因的自动排序，并提高了确定致病基因的准确性和效率。

根据本发明的一方面，提供了一种致病基因排序方法，该方法包括：

获取患者临床信息；

对所述患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个所述初始标准表型进行向量化处理，获得所述初始标准表型对应的表型向量；

基于每个所述初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个所述初始标准表型与每个预设标准表型之间的表型相似度，并基于所述表型相似度和预设相似度阈值，确定每个所述初始标准表型对应的各个目标标准表型；

基于疾病与表型之间的关联关系和各个所述目标标准表型，确定各个目标疾病和每个所述目标疾病对应的目标标准表型数量；

基于所述目标标准表型数量和初始标准表型数量，对各个所述目标疾病进行排序，获取目标疾病排序结果；

基于疾病与致病基因之间的关联关系和所述目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

根据本发明的另一方面，提供了一种致病基因排序装置，该装置包括：

信息获取模块，用于获取患者临床信息；

表型向量获取模块，用于对所述患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个所述初始标准表型进行向量化处理，获得所述初始标准表型对应的表型向量；

目标标准表型确定模块，用于基于每个所述初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个所述初始标准表型与每个预设标准表型之间的表型相似度，并基于所述表型相似度和预设相似度阈值，确定每个所述初始标准表型对应的各个目标标准表型；

目标疾病确定模块，用于基于疾病与表型之间的关联关系和各个所述目标标准表型，确定各个目标疾病和每个所述目标疾病对应的目标标准表型数量；

目标疾病排序模块，用于基于所述目标标准表型数量和初始标准表型数量，对各个所述目标疾病进行排序，获取目标疾病排序结果；

致病基因排序模块，用于基于疾病与致病基因之间的关联关系和所述目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的致病基因排序方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的致病基因排序方法。

本发明实施例的技术方案，通过获取患者临床信息；对所述患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个所述初始标准表型进行向量化处理，获得所述初始标准表型对应的表型向量；基于每个所述初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个所述初始标准表型与每个预设标准表型之间的表型相似度，并基于所述表型相似度和预设相似度阈值，确定每个所述初始标准表型对应的各个目标标准表型；基于疾病与表型之间的关联关系和各个所述目标标准表型，确定各个目标疾病和每个所述目标疾病对应的目标标准表型数量；基于所述目标标准表型数量和初始标准表型数量，对各个所述目标疾病进行排序，获取目标疾病排序结果；基于疾病与致病基因之间的关联关系和所述目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果，从而可以实现致病基因的自动排序，并提高了确定致病基因的准确性和效率，进而可以基于致病基因排序结果，按需求对排序靠前的致病基因进行侧重研究，保证了后续研究方向的准确性，同时也提高了后续研究的效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种致病基因排序方法的流程图；

图2是根据本发明实施例二提供的一种致病基因排序方法的流程图；

图3是根据本发明实施例三提供的一种致病基因排序装置的结构示意图；

图4是实现本发明实施例的致病基因排序方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种致病基因排序方法的流程图，本实施例可适用于对基于表型对致病基因进行排序的情况，该方法可以由致病基因排序装置来执行，该致病基因排序装置可以采用硬件和/或软件的形式实现，该致病基因排序装置可配置于电子设备中。如图1所示，该方法包括：

S110、获取患者临床信息。

其中，患者临床信息可以是用于记录患者表型文件。例如，患者临床信息可以是电子病历、纸质病历或病情记录表等。

具体地，可以将记录患者表型文件扫描上传或直接上传至服务器，以使服务器可以获取患者临床信息。

S120、对患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个初始标准表型进行向量化处理，获得初始标准表型对应的表型向量。

其中，表型可以是指致病基因在一定环境下的表现形式。例如，表型可以是运动发育异常、语言发育异常或是智力发育异常等等。初始标准表型可以是指与预设标准表型库中的表型表述方式一致的表型。预设标准表型库可以是指世界通用的表型标准表达方式所组成的库，预设标准表型库可以提供人类疾病中用于描述表型的标准词汇，即术语。预设标准表型库中每个术语可以用于描述一种表型。例如，预设标准表型库可以是但不限于以人类表型本体论（HPO，Human Phenotype Ontology）。表型向量可以是指表型的向量表现形式。初始标准表型与向量表型一一对应。预设标准表型库可以包括带有序号ID的疾病、标准表型和标准表型对应的向量。预设标准表型库还可以包括：致病基因。

具体地，基于预设的表型提取方式，可以对患者临床信息中的表型进行识别，并对识别出的表型进行字符切割，以使表型字符独立于患者临床信息中的其余字符，并对表型字符进行字符提取处理，获得提取出的患者临床信息中的表型；可以对提取出的患者临床信息中的表型进行标准化处理，以使提取出的患者临床信息中的口语化表型描述或是非标化表描述等转化为标准的表型描述，获得提取出的患者临床信息中的表型对应的初始标准表型。基于预设向量化方式，可以对每个初始标准表型进行向量化处理，获得初始标准表型对应的表型向量，以便可以基于表型向量对初始标准表型进行后续处理，从而提高了致病基因排序效率，并且可以直接从预设标准表型库中调用数据所需数据进行使用，进而提高致病基因排序效率。

S130、基于每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个初始标准表型与每个预设标准表型之间的表型相似度，并基于表型相似度和预设相似度阈值，确定每个初始标准表型对应的各个目标标准表型。

其中，预设相似度阈值可以是指预先设置的相似度阈值。预设相似度阈值可以用于筛选可以作为目标标准表型的相似度阈值。目标标准表型可以是指与预设标准表型描述方式较为接近到的初始标准表型。一个初始标准表型可以对应至少一个目标标准表型。

具体地，基于公式

，可以确定每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量的相似度，从而确定每个初始标准表型与每个预设标准表型之间的表型相似度。其中，

可以是向量

与向量

之间的相似度；

可以是第i个初始标准表型对应的表型向量；

可以是第j个预设标准表型对应的表型向量；T可以是转置符。基于表型相似度和预设相似度阈值，确定每个初始标准表型对应的各个目标标准表型。例如，预设相似度阈值可以是但不限于0.75。

S140、基于疾病与表型之间的关联关系和各个目标标准表型，确定各个目标疾病和每个目标疾病对应的目标标准表型数量。

其中，疾病与表型之间的关联关系可以是但不限于疾病与表型的包含关系。目标疾病可以是指包含目标标准表型的疾病。一个疾病可以包含至少一种表型。目标标准表型数量可以是指目标疾病中包含的目标标准表型。

具体地，针对每个目标标准表型，可以在疾病与表型之间的关联关系中确定与目标标准表型关联的至少一个疾病，并将确定出的疾病作为该目标标准表型对应的目标疾病。对各个目标标准表型对应的所有目标疾病进行去重处理，将去重后的目标疾病作为各个目标标准表型对应的目标疾病，并确定每个目标疾病中存在的目标标准表型的数量。

S150、基于目标标准表型数量和初始标准表型数量，对各个目标疾病进行排序，获取目标疾病排序结果。

其中，初始标准表型数量可以是指从患者临床信息中提取和标准化处理后的初始标准表型总数量。

具体地，针对每个目标疾病，可以将目标疾病对应的目标标准表型数量和初始标准表型数量进行融合处理，并基于融合处理结果对各个目标疾病进行排序，获取目标疾病排序结果。

示例性地，S150可以包括：确定每个目标疾病对应的目标标准表型数量与初始标准表型数量之间的第一比值；基于每个所述目标疾病对应的第一比值，对各个目标疾病进行排序，获得目标疾病排序结果。

其中，第一比值可以是指目标标准表型数量与初始标准表型数量的比值。一个第一比值对应一个目标疾病。

具体地，针对每个目标疾病，可以确定目标疾病对应的目标标准表型数量和初始标准表型数量的第一比值；可以将所有的第一比值按由大到小或是由小到大进行排序，并基于第一比值的排序结果，确定每个第一比值对应的目标疾病的排序结果。例如，可以基于公式

，确定第一比值。其中，

可以是指第一比值；

可以是指第l个目标疾病对应的目标标准表型数量；N可以是患者临床信息对应的初始标准表型数量。

S160、基于疾病与致病基因之间的关联关系和目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

其中，疾病与致病基因之间的关联关系可以是但不限于疾病与致病基因的包含关系。一个疾病可以对应至少一个致病基因。

具体地，针对每个目标疾病，可以在疾病与致病基因之间的关联关系中确定与目标疾病关联的至少一个致病基因，并基于目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

本发明实施例的技术方案，通过获取患者临床信息；对患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个初始标准表型进行向量化处理，获得初始标准表型对应的表型向量；基于每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个初始标准表型与每个预设标准表型之间的表型相似度，并基于表型相似度和预设相似度阈值，确定每个初始标准表型对应的各个目标标准表型；基于疾病与表型之间的关联关系和各个目标标准表型，确定各个目标疾病和每个目标疾病对应的目标标准表型数量；基于目标标准表型数量和初始标准表型数量，对各个目标疾病进行排序，获取目标疾病排序结果；基于疾病与致病基因之间的关联关系和目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果，从而可以实现致病基因的自动排序，并提高了确定致病基因的准确性和效率，进而可以基于致病基因排序结果，按需求对排序靠前的致病基因进行侧重研究，保证了后续研究方向的准确性，同时也提高了后续研究的效率。

在上述技术方案的基础上，“基于每个所述目标疾病对应的第一比值，对各个目标疾病进行排序，获得目标疾病排序结果”还包括：若存在具有相同第一比值的至少两个当前目标疾病，基于疾病与表型之间的关联关系和当前目标疾病，确定每个当前目标疾病对应的当前标准表型总数量；获取每个当前目标疾病对应的各个当前目标标准表型，并将各个当前目标标准表型对应的表型相似度进行融合处理，确定每个当前目标疾病对应的当前总表型相似度；基于当前标准表型总数量与当前总表型相似度，对各个当前目标疾病进行排序，获取当前目标疾病排序结果。

其中，当前目标疾病可以是指第一比值相同的目标疾病。当前标准表型总数量可以是指目标疾病中包含的表型总数量。当前目标标准表型可以是指当前目标疾病中的目标标准表型。表型相似度可以是指初始标准表型与预设标准表型之间的表型相似度。当前总表型相似度可以是指当前目标疾病中各个当前目标标准表型的相似度之和。

具体地，若检测到存在具有相同第一比值的至少两个当前目标疾病，则基于疾病与表型之间的关联关系确定每个当前目标疾病对应的当前标准表型总数量；获取每个当前目标疾病对应的各个当前目标标准表型，并将各个当前目标标准表型对应的表型相似度进行融合处理，确定每个当前目标疾病对应的当前总表型相似度；将当前标准表型总数量与当前总表型相似度进行融合处理，基于融合结果的大小对当前目标疾病进行排序，可以确定当前目标疾病的排序结果。

在上述技术方案的基础上，“基于当前标准表型总数量与当前总表型相似度，对各个当前目标疾病进行排序，获取当前目标疾病排序结果”可以包括：确定每个所述当前目标疾病对应的当前总表型相似度与当前标准表型总数量之间的第二比值；基于每个所述当前目标疾病对应的第二比值，对各个当前目标疾病进行排序，获取当前目标疾病排序结果。

其中，第二比值可以是指当前目标疾病对应的当前总表型与当前标准表型总数量的比值。一个第二比值对应一个目标疾病。

具体地，针对每个当前目标疾病，可以确定当前目标疾病对应的当前总表型相似度与当前标准表型总数量的第二比值；可以将所有的第二比值按由大到小或是由小到大进行排序，并基于第二比值的排序结果，确定每个第二比值对应的当前目标疾病的排序结果。针对当前目标疾病的排序结果对目标疾病的排序结果进行更新，确定更新后的目标疾病排序结果，并基于更新后的目标疾病排序结，确定致病基因的排序结果，从而可以进一步提高致病基因排序结果的准确性。例如，可以基于公式

确定第二比值。其中，

可以是指第二比值；

可以是指当前总表型相似度；

可以是指当前标准表型总数量。

实施例二

图2为本发明实施例二提供的一种致病基因排序方法的流程图，本实施例在上述实施例的基础上，对患者临床信息中的表型进行处理的过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例提供的基于致病基因排序方法具体包括以下步骤：

S210、获取患者临床信息。

S220、基于命名实体识别方式，对患者临床信息中的字符进行标注，获得标注后的患者临床标注信息，并对患者临床标注信息进行表型字符提取，获得提取出的各个初始表型。

其中，命名实体识别方式可以是但不限于NER（Named Entity Recognition）。患者临床标注信息可以是指带有标注信息的患者临床信息。初始表型可以是指在患者临床信息中的表型描述。一个患者表型信息可以包含至少一个初始表型。

具体地，可以预先设置多个表型字符，以便在基于命名实体识别方式对患者临床信息中的字符进行标注时，可以将患者临床信息中的字符和预先设置的表型字符进行匹配和标注。对匹配失败的字符，可以采用不可提取字符进行标注；对匹配成功的字符，可以采用可提取字符进行标注，获得标注后的患者临床标注信息。例如，患者临床信息为该患者智力发育异常，则“该”、“患”和“者”均为非表型，可以用“O”进行标注；“智”作为表型的词首字符，可以用“B”进行标注；“力”、“发”、“育”和“异”作为表型的词中字符，可以用“M”进行标注；“常”作为表型的词尾字符，可以用“E”进行标注。可以基于标注信息对患者临床标注信息进行表型字符提取，获得提取出的各个初始表型。例如，可以将标注字符“O”对应的字符进行剔除，剩下标注信息为“B”、“M”和“E”的字符；依次将第一个“B”、第一个“E”以及这两者之间的“M”对应的字符进行提取和合并处理；再对第二个“B”、第二个“E”以及这两者之间的“M”对应的字符进行提取和合并处理，直至最后一组字符提取完毕，可以获得提取出的各个初始表型。

需要说明的是，在表型提取的过程中，可能存在表型嵌套的情况。例如，患者临床信息为“该患者运动、语言、智力发育异常”，则提取结果可能是“智力发育异常”(对应的标准表型为：HP: 0001249, Intellectual disability)或“运动、语言、智力发育异常”(对应的标准表型为：HP:0001263, Global developmental delay)。在本文中，表型的提取结果越全面，后续的致病基因排序结果就越准确。因此，可以采用统一处理嵌套和非嵌套表型的方式（GlobalPointe），以获得患者临床信息对应的所有表型。

需要说明的是，可以将上述命名实体识别方式训练成表型提取模型，以便通过表型提取模型对患者临床信息中的表型进行提取。其中，可以采用标注出患者临床信息中的一个或多个表型作为模型训练的基础，并通过F1分数（F1 score）对模型每次输出的结果进行打分评价；该F1分数评价指标是以分数大为优；分数越小，表明该输出结果越差，并基于分数对模型进行不断迭代和优化，直至本次模型输出结果对应的分数全部超过预设分数阈值，表明该模型已经训练完毕。

S230、基于语义识别方式和预设标准表型，对每个初始表型进行标准化处理，获得初始标准表型。

其中，预设标准表型可以是指预设标准表型库中的表型。初始表型与初始标准表型一一对应。语义识别方式可以是但不限于自然语言处理（NLP，Neural LanguageProcessing）领域中实体对齐方式。

具体地，针对每个初始表型，可以基于语义识别方式，可以将初始表型的语义与每个预设标准表型的语义进行相似度对比，并将与该初始表型语义相似度最高的预设标准表型作为该初始表型对应的初始标准表型。

示例性地，S230中“基于语义识别方式和预设标准表型，对初始表型进行标准化处理”可以包括：针对每个初始表型，对初始表型进行语义识别处理，确定该初始表型对应的语义识别结果；

基于该初始表型对应的语义识别结果与每个预设标准表型对应的语义，确定该初始表型与每个预设标准表型之间的初始相似度；

对初始相似度进行比较，将最大初始相似度对应的预设标准表型作为该初始表型对应的标准表型。

其中，语义识别结果可以是指初始表型对应的语义。

具体地，针对每个初始表型，可以基于NLP的表型对齐方式，将初始表型转化为对应的向量，将该初始表型转化后对应的向量与预设标准表型库中的标准表型对应的向量进行相似度计算；将每个标准表型与该初始表型的计算结果进行比较，并将预设标准表型库中最大相似的标准表型作为初始表型对应的标准表型。还可以针对每个初始表型，依据统一的语义转化方式，将初始表型和预设标准表型转化成对应的语义信息，并将该初始表型对应的语义信息和预设标准表型对应的语义信息进行比较，将语义最相近的预设标准表型作为该初始表型对应的标准表型。

需要说明的是，可以将上述语义识别方式训练成表型标准化模型，以便通过表型标准化模型对提取出的患者临床信息中的表型进行标准化处理，从而确定每个初始表型对应的标准表型。其中，可以采用HPO和人类在线孟德尔遗传数据库（OMIM，Online MendelianInheritance in Man）中标注过成对的真实样本数据与使用对比学习框架（SimCSE）中丢弃（dropout）算法进行数据增强后的增强样本数据作为表型标准化模型的训练数据，以便表型标准化模型可以针对辅助生殖所在垂直领域的表型，更加准确的将口语化的表型标准化成HPO中表型标注的描述。上述算法非本发明重点，在此不进行详细说明。

S240、对每个初始标准表型进行向量化处理，获得初始标准表型对应的表型向量。

示例性地，S240中可以包括：将所述初始标准表型拆分成多个连续的单独字符；在第一个字符之前添加起始标记符，并在最后一个字符之后添加结束标记符，生成初始标准表型对应的初始字符串；对初始字符串进行向量化处理，获取向量化处理后的初始向量，并将初始向量作为初始标准表型对应的表型向量。

其中，起始标记符可以与结束标记符进行配合使用，以便区分每个完成的初始标准表型的标记符。初始字符串可以是指每个初始标准表型对应的字符串。初始字符串可以包括：起始标记符、初始标准表型的每个字符和结束标记符。初始向量可以是指初始标准表型对应的向量。

具体地，可以以每个初始标准表型为一个单位，将初始标准表型拆分成多个按单位区分的单独字符；确定每个初始标准表型的第一个字符和最后一个字符，以便在第一个字符之前添加起始标记符，在最后一个字符之后添加结束标记符，并将标点符号对应的字符进行剔除，生成初始标准表型对应的初始字符串；可以基于预设向量化处理方式，对每个初始字符串进行向量化处理，获取向量化处理后的初始向量，并将初始向量作为初始标准表型对应的表型向量。例如，初始标准表型为“无胎心胎芽2次，孕2次，无胎心”，可以将初始标注表型进行标记符添加操作，获得“CLS无胎心胎芽2次孕2次无胎心SEP”作为初始字符串；基于预设向量化处理方式，对初始字符进行向量化处理可以得到初始字符串中每个字符对应的向量融合处理后的初始向量。

需要说明的是，可以将上述预设向量化处理方式训练成表型向量化模型，以便通过表型向量化模型对初始字符串进行向量化处理，从而实现利用表型向量化模型将语义相同但描述不同表型划分到同样的向量空间。其中，表型向量化模型也可以是训练完成的自编码语言（Bert，Bidirectional Encoder Representation from Transformers）模型。在对Bert模型训练时，需要充分考虑表型前后的语义关联，并在训练时需要不断对模型参数进行了调整，以使通过该模型可以更加准确的确定初始向量。

S250、基于每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个初始标准表型与每个预设标准表型之间的表型相似度，并基于表型相似度和预设相似度阈值，确定每个初始标准表型对应的各个目标标准表型。

S260、基于疾病与表型之间的关联关系和各个目标标准表型，确定各个目标疾病和每个目标疾病对应的目标标准表型数量。

S270、基于目标标准表型数量和初始标准表型数量，对各个目标疾病进行排序，获取目标疾病排序结果。

S280、基于疾病与致病基因之间的关联关系和目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

本发明实施例的技术方案，通过利用基于命名实体识别方式，对患者临床信息中的字符进行标注，获得标注后的患者临床标注信息，并对患者临床标注信息进行表型字符提取，获得提取出的各个初始表型；基于语义识别方式和预设标准表型，对每个初始表型进行标准化处理，获得初始标准表型；将所述初始标准表型拆分成多个连续的单独字符；在第一个字符之前添加起始标记符，并在最后一个字符之后添加结束标记符，生成初始标准表型对应的初始字符串；对初始字符串进行向量化处理，获取向量化处理后的初始向量，并将初始向量作为初始标准表型对应的表型向量，从而可以更加准确的获取每个表型对应的表型向量，并通过预设处理方式或是预设处理模型可以更加准确和快速的确定获取向量所需的基础数据，进一步提高了致病基因排序的准确性和效率。

以下是本发明实施例提供的致病基因排序装置的实施例，该装置与上述各实施例的致病基因排序方法属于同一个发明构思，在致病基因排序装置的实施例中未详尽描述的细节内容，可以参考上述致病基因排序方法的实施例。

实施例三

图3发明实施例三提供的一种致病基因排序装置的结构示意图。如图3示，该装置具体包括：信息获取模块310、表型向量获取模块320、目标标准表型确定模块330、目标疾病确定模块340、目标疾病排序模块350、和致病基因排序模块360。

其中，信息获取模块310，用于获取患者临床信息；表型向量获取模块320，用于对患者临床信息中的表型进行提取和标准化处理，确定各个初始标准表型，并对每个初始标准表型进行向量化处理，获得初始标准表型对应的表型向量；目标标准表型确定模块330，用于基于每个初始标准表型对应的表型向量和每个预设标准表型对应的表型向量，确定每个初始标准表型与每个预设标准表型之间的表型相似度，并基于表型相似度和预设相似度阈值，确定每个初始标准表型对应的各个目标标准表型；目标疾病确定模块340，用于基于疾病与表型之间的关联关系和各个目标标准表型，确定各个目标疾病和每个目标疾病对应的目标标准表型数量；目标疾病排序模块350，用于基于目标标准表型数量和初始标准表型数量，对各个目标疾病进行排序，获取目标疾病排序结果；致病基因排序模块360，用于基于疾病与致病基因之间的关联关系和目标疾病排序结果，对致病基因进行排序，确定致病基因排序结果。

可选地，表型向量获取模块320可以包括：

初始表型确定子模型，用于基于命名实体识别方式，对患者临床信息中的字符进行标注，获得标注后的患者临床标注信息，并对患者临床标注信息进行表型字符提取，获得提取出的各个初始表型；

初始标准表型确定子模块，用于基于语义识别方式和预设标准表型，对每个初始表型进行标准化处理，获得初始标准表型。

可选地，初始标准表型确定子模块具体用于：针对每个初始表型，对初始表型进行语义识别处理，确定该初始表型对应的语义识别结果；基于该初始表型对应的语义识别结果与每个预设标准表型对应的语义，确定该初始表型与每个预设标准表型之间的初始相似度；对初始相似度进行比较，将最大初始相似度对应的预设标准表型作为该初始表型对应的标准表型。

可选地，表型向量获取模块320具体用于：将初始标准表型拆分成多个连续的单独字符；在第一个字符之前添加起始标记符，并在最后一个字符之后添加结束标记符，生成初始标准表型对应的初始字符串；对初始字符串进行向量化处理，获取向量化处理后的初始向量，并将初始向量作为初始标准表型对应的表型向量。

可选地，目标疾病排序模块350具体用于：确定每个目标疾病对应的目标标准表型数量与初始标准表型数量之间的第一比值；基于每个所述目标疾病对应的第一比值，对各个目标疾病进行排序，获得目标疾病排序结果。

可选地，该装置还包括：

当前标准表型总数量确定模块，用于若存在具有相同第一比值的至少两个当前目标疾病，基于疾病与表型之间的关联关系和当前目标疾病，确定每个当前目标疾病对应的当前标准表型总数量；

当前总表型相似度确定模块，用于获取每个当前目标疾病对应的各个当前目标标准表型，并将各个当前目标标准表型对应的表型相似度进行融合处理，确定每个当前目标疾病对应的当前总表型相似度；

当前目标疾病排序模块，用于基于当前标准表型总数量与当前总表型相似度，对各个当前目标疾病进行排序，获取当前目标疾病排序结果。

可选地，当前目标疾病排序模块具体用于：确定每个当前目标疾病对应的当前总表型相似度与当前标准表型总数量之间的第二比值；基于每个所述当前目标疾病对应的第二比值，对各个当前目标疾病进行排序，获取当前目标疾病排序结果。

本发明实施例所提供的致病基因排序装置可执行本发明任意实施例所提供的致病基因排序方法，具备执行致病基因排序方法相应的功能模块和有益效果。

值得注意的是，上述致病基因排序装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如致病基因排序方法。

在一些实施例中，致病基因排序方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的致病基因排序方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行致病基因排序方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种致病基因排序方法，其特征在于，包括：

获取患者临床信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述患者临床信息中的表型进行提取和标准化处理，包括：

基于命名实体识别方式，对所述患者临床信息中的字符进行标注，获得标注后的患者临床标注信息，并对所述患者临床标注信息进行表型字符提取，获得提取出的各个初始表型；

基于语义识别方式和预设标准表型，对每个所述初始表型进行标准化处理，获得初始标准表型。

3.根据权利要求2所述的方法，其特征在于，所述基于语义识别方式和预设标准表型，对所述初始表型进行标准化处理，包括：

针对每个所述初始表型，对所述初始表型进行语义识别处理，确定该初始表型对应的语义识别结果；

对所述初始相似度进行比较，将最大初始相似度对应的预设标准表型作为该初始表型对应的标准表型。

4.根据权利要求1所述的方法，其特征在于，所述对每个所述初始标准表型进行向量化处理，获得所述初始标准表型对应的表型向量，包括：

将所述初始标准表型拆分成多个连续的单独字符；

在第一个字符之前添加起始标记符，并在最后一个字符之后添加结束标记符，生成初始标准表型对应的初始字符串；

对初始字符串进行向量化处理，获取向量化处理后的初始向量，并将所述初始向量作为所述初始标准表型对应的表型向量。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标标准表型数量和初始标准表型数量，对各个所述目标疾病进行排序，获取目标疾病排序结果，包括：

确定每个所述目标疾病对应的目标标准表型数量与初始标准表型数量之间的第一比值；

基于每个所述目标疾病对应的第一比值，对各个目标疾病进行排序，获得目标疾病排序结果。

6.根据权利要求5所述的方法，其特征在于，所述基于每个所述目标疾病对应的第一比值，对各个目标疾病进行排序，获得目标疾病排序结果，还包括：

若存在具有相同第一比值的至少两个当前目标疾病，基于疾病与表型之间的关联关系和所述当前目标疾病，确定每个当前目标疾病对应的当前标准表型总数量；

获取每个当前目标疾病对应的各个当前目标标准表型，并将各个当前目标标准表型对应的表型相似度进行融合处理，确定每个当前目标疾病对应的当前总表型相似度；

基于所述当前标准表型总数量与所述当前总表型相似度，对各个所述当前目标疾病进行排序，获取当前目标疾病排序结果。

7.根据权利要求6所述的方法，其特征在于，所述基于所述当前标准表型总数量与所述当前总表型相似度，对各个所述当前目标疾病进行排序，获取当前目标疾病排序结果，包括：

确定每个所述当前目标疾病对应的当前总表型相似度与当前标准表型总数量之间的第二比值；

基于每个所述当前目标疾病对应的第二比值，对各个当前目标疾病进行排序，获取当前目标疾病排序结果。

8.一种致病基因排序装置，其特征在于，包括：

信息获取模块，用于获取患者临床信息；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的致病基因排序方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的致病基因排序方法。