CN114388084A

CN114388084A - 一种人类表型本体术语提取系统

Info

Publication number: CN114388084A
Application number: CN202011128859.2A
Authority: CN
Inventors: 段志峰
Original assignee: Guangzhou Yuanguji Technology Co ltd
Current assignee: Guangzhou Yuanguji Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-04-22

Abstract

一种人类表型本体术语提取系统，所述系统具有通用的计算机硬件设备，以及常规的输入/输出装置，并能运行通行的操作系统以便能接入网络资源，包括第一系统和第二系统；所述第一系统和第二系统同步运行如下流程：当输入内容为病人的临床报告为不规范表型术语数据时，本发明所述系统自动提取报告中关于病人的临床症状数据，并通过计算机语言将临床症状转换成标准表型术语编号；所述人类表型本体术语提取系统还包括利用计算机语言计算所述第一系统和第二系统的结果，并进行对比的步骤。本发明的人类表型本体术语提取系统，通过设置第一系统和第二系统，二者实现横向的对比，能够提高准确率。

Description

一种人类表型本体术语提取系统

技术领域

本发明涉及信息处理技术领域，具体涉及一种人类表型本体术语提取系统。

背景技术

分子生物学的快速发展与人类基因组计划的实施，使人们对遗传病的认识达到前所未有的高度越来越多的疾病被证实与遗传相关包括许多危害人类健康的常见病如心脑血管疾病、高血压、癌症等。临床医学与分子遗传学相互渗透、相互结合形成了新的分子医学。同时，随着信息科学的发展,计算机在遗传学的发展中起到了不可替代的作用；计算机的应用开辟了一个新的遗传学研究领域；可以说,以网络计算机技术为基础的在线数据库更改变了研究人员、医务人员和公众获得相关遗传数据信息的方式和手段。

一般情况下，病人的临床症状都是以非标准化语言呈现的。要实现与变异数据的整合，首先需要把非标准化临床症状转化为可被计算机识别的标准化临床表型，如基于人类表型本体论(HPO)数据库所构建的标准化表型术语。人类表型本体术语(HumanPhenotype Ontology，HPO)提供了人类疾病中遇到的表型异常的标准化词汇。HPO数据库以树状结构存储人类表型(症状)术语，比如：左心房异常，其父节点为心房异常。该数据库中还存储了每一个表型术语(HPO)，其与OMIM数据库中疾病的对应关系。把非标准化临床症状转化为HPO标准化表型可通过医生或遗传分析师阅读临床报告，进行人工操作来实现，也可通过使用计算机工具如Phenolyzer₉等来自动实现。在有了病人的标准化表型后，可通过与OMIM数据库中定义的每个疾病的标准化表型进行相似性对比，筛选相似性最高的疾病，再通过在OMIM数据库中的疾病-基因关系，挑选候选致病性基因；同时，结合变异数据筛选之后获得候选致病性变异位点，来最终挑选最有可能的致病性基因。

现有技术中，在实际情况中，由于不同的医生在症状描述信息中对同一种人类表型标准用语对应的症状的描述多种多样，因此这为症状后续的临床研究和交流带来不便，同时也使对该症状进行数据分析和挖掘更加困难。因此建立一套高效、准确的一种人类表型本体术语提取系统尤为重要。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供一种人类表型本体术语提取系统，以达到人类表型本体术语提取速度快、准确度高的效果。

本发明采取的技术方案是，提供一种人类表型本体术语提取系统，所述系统具有通用的计算机硬件设备，以及常规的输入/输出装置，并能运行通行的操作系统以便能接入网络资源，包括第一系统和第二系统；所述第一系统和第二系统同步运行如下流程：当输入内容为病人的临床报告为不规范表型术语数据时，本发明所述系统自动提取报告中关于病人的临床症状数据，并通过计算机语言将临床症状转换成标准表型术语编号；所述人类表型本体术语提取系统还包括利用计算机语言计算所述第一系统和第二系统的结果，并进行对比的步骤。具体的比较方法可以利用现有技术中的计算机运算方式进行匹配对比，若二者结果相同，则进一步保证了结果的准确性，若二者结果不同，则进行提示，可利用人工进行辅助，保证了结果的准确性。

进一步的，所述第一系统采用如下方式来实现病人临床报告到标准化表型术语数据的转换：S1：根据标点符号，将临床报告根据标点分割成一系列短语；对于每一个短语，在移除若干无意义词汇后，使用公开的或收费的自然语言处理工具标明词性，将短语划分为几个基础语意单元；S2：在每个基础语意单元中提取名词以及每个名词前最近的关键词；随后，在标准表型数据库根据每个HPO词条及其同义词，寻找其在该基础语意单元内所可匹配的关键词的个数，并保留可匹配该基础语意单元最多关键词的HPO词条；如一基础语意单元保留了大于一个HPO词条，则检查所保留的HPO词条之间的关系；如其中一HPO词条为另一词条在HPO树状结构的子节点，则仅保留父节点；在其他情况下，首先选择保留最接近HPO树状结构中根节点的HPO词条，然后选择其他所有保留的HPO词条的最近共享父节点作为保留的HPO词条。这样，每个基础语意单元最多保留2个HPO词条；最后，合并所有基础语意单元所选择的HPO词条，输出作为该临床报告所对应的标准表型(HPO)；S3：合并所有基础语意单元所选择的HPO词条，输出作为该临床报告所对应的标准表型。

进一步的，每个所述基础语意单元最多保留2个HPO词条。

进一步的，所述第二系统运行方式如下：

T1：获得症状描述信息：对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组，对该分词组中的任一分词列表，在所述症状描述信息中查询该分词列表中的分词，将在所述症状描述信息中出现的该分词列表中的分词确定为共有词：确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置，根据该分词列表中共有词的数量和该分词列表中分词的数量，确定该分词列表与所述症状描述信息的第一相似度，根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度；

通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度；

T2：根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度；

T3：确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。

进一步的，所述分词组中的各分词列表中的分词不同，同一分词列表中的各分词的字数相同；在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，所述第二系统还包括：确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇；检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则对所述相邻词汇进行标记。

进一步的，在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，所述第二系统还包括：确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇：判断所述描述词汇与所述人类表型标准用语是否一致，如果一致，则确定所述人类表型标准用语与所述描述词汇为完全匹配，如果不一致，则确定所述人类表型标准用语与所述描述词汇为模糊匹配；

所述通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度，包括：通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第三相似度；将所述第三相似度乘以可调权重因子，确定该人类表型标准用语与所述症状描述信息的第二相似度；

所述根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度，包括：根据各共有词在所述症状描述信息中的位置，确定该分词列表在所述症状描述信息中的第一位置向量；根据各共有词在该人类表型标准用语中的位置，确定该分词列表在该人类表型标准用语中的第二位置向量；

根据各分词列表的第一位置向量和第二位置向量，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

进一步的，根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度。具体的，可以利用现有技术中的公式进行计算得出。

本发明的有益效果：本发明的人类表型本体术语提取系统，通过设置第一系统和第二系统，二者实现横向的对比，能够提高准确率；且二者同步进行，不会影响提取效率。且第一系统和第二系统基本是计算机系统进行分析，且对比也是采用计算机语言进行对比，准确度更高，分析时间短，提高疾病检测的准确度。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施方式，对本发明进行进一步的详细说明。应当理解的是，此处所描述的具体实施方式仅用以解释本发明，并不限定本发明的保护范围。

实施例

本实施例提供一种人类表型本体术语提取系统，所述系统具有通用的计算机硬件设备，以及常规的输入/输出装置，并能运行通行的操作系统以便能接入网络资源，包括第一系统和第二系统；所述第一系统和第二系统同步运行如下流程：当输入内容为病人的临床报告为不规范表型术语数据时，本发明所述系统自动提取报告中关于病人的临床症状数据，并通过计算机语言将临床症状转换成标准表型术语编号；所述人类表型本体术语提取系统还包括利用计算机语言计算所述第一系统和第二系统的结果，并进行对比的步骤。

进一步的，每个所述基础语意单元最多保留2个HPO词条。

进一步的，所述第二系统运行方式如下：

本发明实施例提供了一种设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线：其中，处理器、存储器通过总线完成相互间的通信：处理器用于调用存储器中的程序指令，以执行上述的人类表型标准用语确定方法。本文中的设备可以是服务器、PC、PAD、子机等。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术末实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CDROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transi torymedia)，如调制的数据信号和载波。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种人类表型本体术语提取系统，其特征在于，所述系统具有通用的计算机硬件设备，以及常规的输入/输出装置，并能运行通行的操作系统以便能接入网络资源，包括第一系统和第二系统；所述第一系统和第二系统同步运行如下流程：

当输入内容为病人的临床报告为不规范表型术语数据时，本发明所述系统自动提取报告中关于病人的临床症状数据，并通过计算机语言将临床症状转换成标准表型术语编号；

所述人类表型本体术语提取系统还包括利用计算机语言计算所述第一系统和第二系统的结果，并进行对比的步骤。

2.根据权利要求1所述的人类表型本体术语提取系统，其特征在于，所述第一系统采用如下方式来实现病人临床报告到标准化表型术语数据的转换：

S1：根据标点符号，将临床报告根据标点分割成一系列短语；对于每一个短语，在移除若干无意义词汇后，使用公开的或收费的自然语言处理工具标明词性，将短语划分为几个基础语意单元；

S2：在每个基础语意单元中提取名词以及每个名词前最近的关键词；随后，在标准表型数据库根据每个HPO词条及其同义词，寻找其在该基础语意单元内所可匹配的关键词的个数，并保留可匹配该基础语意单元最多关键词的HPO词条；

S3：合并所有基础语意单元所选择的HPO词条，输出作为该临床报告所对应的标准表型。

3.根据权利要求2所述的人类表型本体术语提取系统，其特征在于，每个所述基础语意单元最多保留2个HPO词条。

4.根据权利要求1所述的人类表型本体术语提取系统，其特征在于，所述第二系统运行方式如下：

5.根据权利要求4所述的人类表型本体术语提取系统，其特征在于，所述分词组中的各分词列表中的分词不同，同一分词列表中的各分词的字数相同；在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，所述第二系统还包括：确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇；检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则对所述相邻词汇进行标记。

6.根据权利要求4所述的人类表型本体术语提取系统，其特征在于，在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，所述第二系统还包括：确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇：判断所述描述词汇与所述人类表型标准用语是否一致，如果一致，则确定所述人类表型标准用语与所述描述词汇为完全匹配，如果不一致，则确定所述人类表型标准用语与所述描述词汇为模糊匹配；

7.根据权利要求6所述的人类表型本体术语提取系统，其特征在于，根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度。