CN117422074A

CN117422074A - 一种临床信息文本标准化的方法、装置、设备及介质

Info

Publication number: CN117422074A
Application number: CN202311372303.1A
Authority: CN
Inventors: 尹泽宇; 姜玥; 栗海波
Original assignee: Suzhou Semek Gene Technology Co ltd
Current assignee: Suzhou Semek Gene Technology Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-19

Abstract

本申请公开了一种临床信息文本标准化的方法、装置、设备及介质，涉及高通量测序与变异检测技术领域，包括：将待转换临床信息中文文本进行中英文转换和文本处理，得到医疗英文词汇集合；利用目标哈希表检索医疗英文词汇集合，得到字符串匹配成功的第一目标医疗英文词汇与对应第一标准人类表型本体论术语以及第二目标医疗英文词汇；将第二目标医疗英文词汇、总标准人类表型本体论术语文件输入至预训练语言模型，以便预训练语言模型输出与第二目标医疗英文词汇对应的第二标准人类表型本体论术语；基于第一标准人类表型本体论术语、第二标准人类表型本体论术语确定待转换临床信息中文文本的标准人类表型本体论术语。实现临床信息中文文本的标准化。

Description

一种临床信息文本标准化的方法、装置、设备及介质

技术领域

本发明涉及高通量测序与变异检测技术领域，特别涉及一种临床信息文本标准化的方法、装置、设备及介质。

背景技术

人类表型本体HPO(Human Phenotype Ontology，人类表型本体论)词条的提取方法主要有如下两种：基于规则的方法和基于深度学习的方法。基于规则的方法主要通过构建词汇表+编写正则表达式等规则，根据规则去匹配识别文本中的HPO术语。这类方法通常适用于简单的人类表型本体HPO词条转换场景。但是常规的临床信息文本存在着语言表达本体众多难以穷举规则、无法考虑上下文语意导致错误识别等问题。目前的主要HPO术语提取方法是基于深度学习的方法。基于深度学习的方法常规使用标注好的数据训练序列标注模型，通过训练完成的模型对HPO术语标注预测结果，能够有效利用文本的语义对HPO术语进行提取。

目前基于深度学习的方法存在着如下的技术局限性：标注训练数据短缺、上下文语义建模能力不足以及端到端系统耗时长的问题。目前公开的标注HPO数据集还比较小，大多在几万条左右，小数据集会导致模型学习不充分，对Low frequency(低频特征)的长尾现象学习不足。而大规模的标注工作需要医学专业背景，费时费力，扩充数据集困难。此外，现有模型对长距离依赖语义理解还不足，不能很好利用上下文信息。在电子病历长文本中，同一症状词在不同语境下含义不同会导致错误的HPO抽取。现有的深度学习模型除了上述问题外，需要将文本特征与HPO术语逐一匹配，消耗大量的计算资源，从而导致速度慢，耗费计算资源大的问题。

综上，如何实现保证准确地甄别出临床信息中文文本中的HPO术语，快速对临床信息中文文本进行HPO术语提取，实现临床信息中文文本标准化是本领域有待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种临床信息文本标准化的方法、装置、设备及介质，能够实现保证准确地甄别出临床信息中文文本中的HPO术语，快速对临床信息中文文本进行HPO术语提取，实现临床信息中文文本标准化。其具体方案如下：

第一方面，本申请公开了一种临床信息文本标准化方法，包括：

通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本；

对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合；

利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇；

将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语；

基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。

可选的，所述对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合，包括：

对所述临床信息英文文本进行文本切分，以获取句子形式的目标临床信息英文文本；

识别所有所述目标临床信息英文文本中与医学领域关联的文本片段，以得到目标文本片段；

对所述目标文本片段进行短语恢复处理、停用词过滤处理和N-gram提取处理，以得到独立的医疗英文词汇；

基于所有所述独立的医疗英文词汇构建医疗英文词汇集合。

可选的，所述利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇之前，还包括：

从人类表型本体论库中筛选出与疾病症状描述相关的人类表型本体论术语，以得到基于所述人类表型本体论术语构建的总标准人类表型本体论术语文件；

基于所述总标准人类表型本体论术语文件中的各个所述人类表型本体论术语编号与对应疾病症状的医疗英文词汇构建目标哈希表。

可选的，所述将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语，包括：

通过预设双层卷积神经网络并按照表型异常分类规则将所述总标准人类表型本体论术语文件中的标准人类表型本体论术语分为不同的根节点，以得到根节点结构以及所述根节点结构下的叶节点结构；

对所述第二目标医疗英文词汇进行根节点判定，确定所述第二目标医疗英文词汇所属的目标根节点，然后对所述第二目标医疗英文词汇进行叶节点结构判断，以得到对应的若干个候选人类表型本体论术语；

基于所述第二目标医疗英文词汇和所述对应的若干个候选人类表型本体论术语构建相应的若干候选医疗英文句子；

将所述若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型输出对应的第二标准人类表型本体论术语。

可选的，所述将所述若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型输出对应的第二标准人类表型本体论术语，包括：

将包含分类标签、第二目标医疗英文词汇、第一分句标签、候选人类表型本体论术语、第二分句标签的若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型的分词器对所述若干候选医疗英文句子进行切分，以得到相应的词片段，并将所述词片段映射至目标维度的词向量矩阵中，并基于所述词向量矩阵获取与所述分类标签对应的目标向量，以选择预估评分最大的所述目标向量对应的所述候选人类表型本体论术语作为所述第二目标医疗英文词汇的第二标准人类表型本体论术语，然后输出所述第二标准人类表型本体论术语。

可选的，所述将包含分类标签、第二目标医疗英文词汇、第一分句标签、候选人类表型本体论术语、第二分句标签的若干候选医疗英文句子输入至预训练语言模型之前，还包括：

基于历史临床信息中文文本获取对应的历史医疗英文词汇，并为所述历史医疗英文词汇标注相应的标准人类表型本体论术语，以得到携带标准人类表型本体论术语标签的历史医疗英文词汇集合；

利用所述历史医疗英文词汇集合分别训练双层卷积神经网络和微调后的BioBERT模型，以得到预设双层卷积神经网络和预训练语言模型。

可选的，所述利用所述历史医疗英文词汇集合分别训练双层卷积神经网络和微调后的BioBERT模型，以得到预设双层卷积神经网络和预训练语言模型之前，还包括：

利用疾病表型公开语料库对预训练的BioBERT模型进行微调，以得到针对疾病表型的微调后的BioBERT模型。

第二方面，本申请公开了一种临床信息中文文本标准化装置，包括：

文本转换模块，用于通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本；

集合生成模块，用于对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合；

第一匹配模块，用于利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇；

第二匹配模块，用于将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语；

统计模块，用于基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的临床信息文本标准化方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的临床信息文本标准化方法的步骤。

由此可见，本申请公开了一种临床信息文本标准化方法，包括：通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本；对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合；利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇；将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语；基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。可见，通过大语言模型对临床信息中文文本进行中英文转换，获得临床信息英文文本，为提取HPO术语提供准备，然后对文本进行切分、识别处理，得到医疗英文词汇构建的医疗英文词汇集合，能够去除非医疗内容的词汇，筛选出临床信息英文文本中表征医疗信息相关的医疗英文词汇，然后将基于目标哈希表遍历获取到的医疗英文词汇集合。得到医疗英文词汇集合中与目标哈希表中标准人类表型本体论术语完全一致的字符串，并输出该医疗英文词汇与对应的标准人类表型本体论术语作为第一目标医疗英文词汇与第一标准人类表型本体论术语。然后对未匹配成功的医疗英文词汇通过预训练语言模型进行自动匹配识别，快速输出对应的第二目标医疗英文词汇，然后统计第一标准人类表型本体论术语、第二目标医疗英文词汇以及各自对应的医疗英文词汇，以得到待转换临床信息中文文本的目标标准人类表型本体论术语，实现临床信息中文文本的标准化处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种临床信息文本标准化方法流程图；

图2为本申请公开的一种临床信息记录的医疗词汇集合获取方法流程图；

图3为本申请公开的一种基于HPO本体文件的字符串匹配方法流程图；

图4为本申请公开的一种具体的临床信息文本标准化方法流程图；

图5为本申请公开的一种基于预训练语言模型的语义匹配方法流程图；

图6为本申请公开的一种临床信息文本标准化的最佳阈值获取方法流程图；

图7为本申请公开的一种HPO阈值分别为β＝0.6、θ＝0.9时的HPO术语提取实验结果图；

图8为本申请公开的一种HPO阈值分别为α＝0.8、θ＝0.9时的HPO术语提取实验结果图；

图9为本申请公开的一种HPO阈值分别为α＝0.8、β＝0.6时的HPO术语提取实验结果图；

图10为本申请公开的一种临床信息的电子病历文本图；

图11为本申请公开的一种临床信息的电子病历文本图的HPO术语提取结果图；

图12为本申请公开的一种临床信息文本标准化装置结构示意图；

图13为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人类表型本体HPO词条的提取方法主要有如下两种：基于规则的方法和基于深度学习的方法。基于规则的方法主要通过构建词汇表+编写正则表达式等规则，根据规则去匹配识别文本中的HPO术语。这类方法通常适用于简单的人类表型本体HPO词条转换场景。但是常规的临床信息文本存在着语言表达本体众多难以穷举规则、无法考虑上下文语意导致错误识别等问题。目前的主要HPO术语提取方法是基于深度学习的方法。基于深度学习的方法常规使用标注好的数据训练序列标注模型，通过训练完成的模型对HPO术语标注预测结果，能够有效利用文本的语义对HPO术语进行提取。

目前基于深度学习的方法存在着如下的技术局限性：标注训练数据短缺、上下文语义建模能力不足以及端到端系统耗时长的问题。目前公开的标注HPO数据集还比较小，大多在几万条左右，小数据集会导致模型学习不充分，对Low frequency的长尾现象学习不足。而大规模的标注工作需要医学专业背景，费时费力，扩充数据集困难。此外，现有模型对长距离依赖语义理解还不足，不能很好利用上下文信息。在电子病历长文本中，同一症状词在不同语境下含义不同会导致错误的HPO抽取。现有的深度学习模型除了上述问题外，需要将文本特征与HPO术语逐一匹配，消耗大量的计算资源，从而导致速度慢，耗费计算资源大的问题。

为此，本申请公开了一种临床信息文本标准化方案，能够实现保证准确地甄别出临床信息中文文本中的HPO术语，快速对临床信息中文文本进行HPO术语提取，实现临床信息中文文本标准化。

参照图1所示，本发明实施例公开了一种临床信息文本标准化方法，包括：

步骤S11：通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本。

本实施例中，利用训练后的GPT(Generative Pretrained Transformer，生成式预训练变换器)3.5版本大语言模型对待转换临床信息中文文本进行中英文转化，以得到临床信息英文文本。具体的，利用大语言模型GPT3.5公布的API接口对输入的待转换临床信息中文文本进行转换，将中文文本转化为规范的临床信息英文文本。

步骤S12：对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合。

本实施例中，对所述临床信息英文文本进行文本切分，以获取句子形式的目标临床信息英文文本；识别所有所述目标临床信息英文文本中与医学领域关联的文本片段，以得到目标文本片段；对所述目标文本片段进行短语恢复处理、停用词过滤处理和N-gram(N元语法模型)提取处理，以得到独立的医疗英文词汇；基于所有所述独立的医疗英文词汇构建医疗英文词汇集合。可以理解的是，如图2所示，根据预设标点符号切分规则对临床信息英文文本进行文本切分，得到单句临床信息英文文本。其中，所述预设标点符号切分规则为在句号、感叹号、分号等标点符号位置进行文本切分，得到若干句子形式的目标临床信息英文文本。对于每个目标临床信息英文文本，采用自然语言处理命名体识别工具Stanza(自然语言处理工具)来识别目标临床信息英文文本内的所有与医学相关的文本片段。为了避免Stanza提取中可能存在遗漏的文本片段，额外根据目标临床信息英文文本内的连词和标点符号将句子切分为多个医疗词汇集合。需要注意的是，在切分文本片段的同时需要对切分的文本片段进行否定检测，具体步骤如下：构建一个否定词库，包含“no”、“not”、“none”、“false”等否定词。对每个目标临床信息英文文本进行否定词匹配，找出目标临床信息英文文本中的否定词。判定文本片段前后5个词的窗口是否有否定词，如果窗口内存在否定词，则舍弃该文本片段，否则，保留该目标文本片段。然后对所有目标文本片段进行短语恢复、停止词过滤和N-gram提取。当一个目标文本片段包含“and”、“or”和“/”等连词时，进行词组恢复，将目标文本片段恢复为两个独立的医疗英文词汇。例如，“Heart and headabnormalities”恢复为“heart abnormalities”和“head abnormalities”。停用词和标点符号剔除是NLTK(Natural Language Toolkit，自然语言处理工具包)中由“stopwords.words(‘english’)”定义的词，直接从目标文本片段中过滤出来。对停用词过滤后的每个目标文本片段进行N-gram提取，将所有N-gram的单词组合成新的独立的医疗英文词汇集合。其中，N-gram提取是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。可见，对于非结构化的待转换临床信息中文文本，需要对其进行预处理。以临床信息文本作为基础，对文本内容进行中英文转换、切分、文本清洗以及N-gram抽取，从而生成HPO术语转化需要的医疗英文词汇集合。

步骤S13：利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇。

本实施例中，基于目标哈希表检索医疗英文词汇集合，具体的，通过将医疗英文词汇集合中每一个医疗英文词汇与目标哈希表进行匹配，来获取到医疗英文词汇在目标哈希表中记录过的对应HPO术语，然后统计该对应HPO术语的HPO术语编号。当整个医疗英文词汇集合遍历完成后，输出两部分结果，一部分为医疗英文词汇在目标哈希表中找到对应的HPO术语编号，该部分的医疗英文词汇即为第一目标医疗英文词汇，相应的与该第一目标英文词汇对应的HPO术语编号对应的HPO术语即为第一标准人类表型本体论术语；另一部分为医疗英文词汇在目标哈希表中未找到对应的HPO术语编号，该部分的医疗英文词汇即为第二目标医疗英文词汇。

本实施例中，所述利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇之前，还包括：从人类表型本体论库中筛选出与疾病症状描述相关的人类表型本体论术语，以得到基于所述人类表型本体论术语构建的总标准人类表型本体论术语文件；基于所述总标准人类表型本体论术语文件中的各个所述人类表型本体论术语编号与对应疾病症状的医疗英文词汇构建目标哈希表。可以理解的是，参照图3所示，从HPO官方网站(https://hpo.jax.org/app/data/ontology)下载的文件hp.obo进行筛选，以筛选出所有HPO库中与疾病症状描述相关的HPO术语，并基于该HPO术语构建总标准人类表型本体论术语文件，也即HPO本体文件。根据HPO本体文件，使用HPO术语的名称/同义词定义构建英文文本与HPO编号一一对应的目标哈希表，例如：“Fever”：“HP:0001945”。

步骤S14：将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语。

本实施例中，将与目标哈希表未匹配成功的第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入到预训练语言模型中，以便该预训练语言模型输出与该第二目标医疗英文词汇对应的第二标准人类表型本体论术语。

步骤S15：基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。

本实施例中，将第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、第二目标医疗英文词汇对应的第二标准人类表型本体论术语进行合并，以得到待转换临床信息中文文本对应的标准人类表型本体论术语，实现了临床信息中文文本的标准化处理。

参照图4所示，本发明实施例公开了一种具体的临床信息文本标准化方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本。

步骤S22：对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合。

步骤S23：利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇。

其中，步骤S21、S22、S23中更加详细的处理过程请参照前述公开的实施例内容，在此不再进行赘述。

步骤S24：通过预设双层卷积神经网络并按照表型异常分类规则将总标准人类表型本体论术语文件中的标准人类表型本体论术语分为不同的根节点，以得到根节点结构以及所述根节点结构下的叶节点结构。

本实施例中，如图5所示，HPO以表型异常HP:0000118为基础将总标准人类表型本体论术语共分为23类不同的根节点，其中，每个大类中存在着若干具有递归逻辑的子HPO。针对该结构，分别构建了两种知识库用于后续的快速HPO候选测生成。首先，第一个知识库，也即根节点知识库，由23个根节点对应的HPO组成，其中有23条HPO信息，每条信息中包含其HPO术语和HPO英文文本信息。第二个知识库由23个子知识库组成，所述子知识库即为叶节点知识库，每个子知识库中包含了由对应HPO根节点衍生的若干叶子节点，即对应HPO根节点下的所有HPO术语，该知识库的每条叶子节点信息会包含对应的HPO术语、HPO英文文本信息和上下层级关系。

步骤S25：对所述第二目标医疗英文词汇进行根节点判定，确定所述第二目标医疗英文词汇所属的目标根节点，然后对所述第二目标医疗英文词汇进行叶节点结构判断，以得到对应的若干个候选人类表型本体论术语；基于所述第二目标医疗英文词汇和所述对应的若干个候选人类表型本体论术语构建相应的若干候选医疗英文句子。

本实施例中，如图5所示，将第二目标医疗英文词汇送入一个用于HPO根节点分类的模块。该模块由卷积神经网络组成，包括一个文本编码器和一个HPO编码器。文本编码器使用fastText(快速的文本分类器)将医疗词汇集合中的输入词嵌入到向量中，然后使用一维卷积将其投影到特征空间中。使用最大池化操作将投影向量聚合为单个向量，然后应用全连接层。然后，应用ReLU(Rectified Linear Units，线性修正单元激活函数)激活函数和L2范数归一化来产生表示输入第二目标医疗英文词汇的编码向量o_i∈R^d。该HPO编码器依据根节点知识库创建一个的矩阵，其中，d表示特征空间的维度，R表示实数集，N₁对应于23个HPO根节点的数量，额外的一行指的是一个拟标签，表明没有临床相关性。M由Kaiming均匀初始化进行初始化。文本编码和HPO编码后，将向量o_i与矩阵M相乘，得到分类向量/>并通过Sigmoid(S型生长曲线)激活函数结合阈值α判断该医疗片段属于23个大类HPO术语集中的具体位置。

本实施例中，如图5所示，根据分类向量c_i送入一个用于生成候选HPO术语的模块，该模块由23个卷积神经网络组成，对应23个不同大类的HPO术语集合。在每个CNN(Convolutional Neural Networks，卷积神经网络)中，文本编码器与第一级CNN相同，而HPO编码器不同。该层级CNN中的HPO编码器基于23个叶节点知识库集成了HPO术语的父子关系。它首先创建一个矩阵其中，N₂表示23个HPO术语集合中单个HPO子集合中HPO项的数量，额外的行引用一个虚拟标签，表示与该HPO子图无关。同时，采用如下公式迭代构造祖先矩阵L∈R^N×N：

其中，矩阵L的第i行α_i表示HPO的节点i，P(i)表示为节点i的父节点集。

然后得到矩阵H＝L×K来表示HPO子图。其中，H表示HPO子图矩阵，L表示祖先矩阵，K表示HPO子集合中HPO项的矩阵编码。将向量o_i与矩阵H的乘积得到分类向量c₂∈R^N2+1，应用于Softmax激活函数，通过阈值β得到若干个候选HPO术语。然后基于第二目标医疗英文词汇和对应的若干个候选HPO术语构建相应的若干候选医疗英文句子。

步骤S26：将所述若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型输出对应的第二标准人类表型本体论术语。

本实施例中，将包含分类标签、第二目标医疗英文词汇、第一分句标签、候选人类表型本体论术语、第二分句标签的若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型的分词器对所述若干候选医疗英文句子进行切分，以得到相应的词片段，并将所述词片段映射至目标维度的词向量矩阵中，并基于所述词向量矩阵获取与所述分类标签对应的目标向量，以选择预估评分最大的所述目标向量对应的所述候选人类表型本体论术语作为所述第二目标医疗英文词汇的第二标准人类表型本体论术语，然后输出所述第二标准人类表型本体论术语。可以理解的是，如图5所示，对第二目标医疗英文词汇和每个医疗词汇的候选HPO术语按预设形式构造的若干候选医疗英文句子输入至预训练语言模型，其中，构建的候选医疗英文句子的形式如下：{[CLS],第二目标医疗英文词汇,[SEP],候选HPO术语,[SEP]}。其中[CLS]是分类标签，[SEP]是分句标签，其中，第一个[SEP]表示为第一分句标签，第二个[SEP]表示为第二分句标签。并使用分词器WordPiece对上述若干候选医疗英文句子进行切分，得到k个词片段。

本实施例中，如图5所示，将k个词片段输入微调后的BioBERT(BiologyBidirectional Encoder Representations from Transformers，生物医学变换器的双向编码表示模型)中，映射到维度为d的词向量矩阵E∈R^K×d。微调后BERT编码器变换从E产生输出矩阵E₁。从输出矩阵E₁中提取对应于[CLS]标签的目标向量y∈R^K，并将其应用于Softmax函数以产生最终的分类标签，所述分类标签具体可以包括：不相关的、来自祖先的和相等的。其中，第二目标医疗英文词汇和每个候选HPO术语形成候选医疗英文句子对供BERT评估。所有预估分数大于阈值θ的句子对都被选中。选择的句子对根据其标签分为两组：标签为{2}的相等关系和标签为{1}的祖先关系。如果存在标签{2}组，则将得分最高的句子对对应的HPO术语分配给该第二目标医疗英文词汇。否则，将标签{1}组中排名最高的句子对对应的HPO术语分配给该第二目标医疗英文词汇。如果两个组都不存在，则丢弃该第二目标医疗英文词汇。

本实施例中，如图5所示，整合上述基于目标哈希表匹配得到的第一HPO术语和BioBERT得到的第二HPO术语，整合方式如下：在文本分割中的N-gram提取可能会产生重叠的目标医疗英文词汇，这些目标医疗英文词汇被分配给不同的HPO术语。在这些情况下，将使用与较长的目标医疗英文词汇相对应的HPO术语作为最终答案，因为较长的CTS通常代表更具体的表型描述。例如，“周围神经病变”和“神经病变”是两个重叠的医疗词汇，但较长的医疗词汇显然与更具体的HPO术语有关。

本实施例中，所述利用所述历史医疗英文词汇集合分别训练双层卷积神经网络和微调后的BioBERT模型，以得到预设双层卷积神经网络和预训练语言模型之前，还包括：利用疾病表型公开语料库对预训练的BioBERT模型进行微调，以得到针对疾病表型的微调后的BioBERT模型。可以理解的是，使用BC5CDR和NCBI(National Center for BiotechnologyInformation)两个公开的疾病表型相关的语料库针对预训练的BioBERT进行微调，得到针对疾病表型的微调模型BioBERT。BioBERT是基于BERT框架，对医疗领域大规模语料进行训练的语言模型，其中BERT框架由12个从端到端线性连接的变压器编码器组成，使用自注意机制来整合整个输入序列的信息。

本实施例中，所述将包含分类标签、第二目标医疗英文词汇、第一分句标签、候选人类表型本体论术语、第二分句标签的若干候选医疗英文句子输入至预训练语言模型之前，还包括：基于历史临床信息中文文本获取对应的历史医疗英文词汇，并为所述历史医疗英文词汇标注相应的标准人类表型本体论术语，以得到携带标准人类表型本体论术语标签的历史医疗英文词汇集合；利用所述历史医疗英文词汇集合分别训练双层卷积神经网络和微调后的BioBERT模型，以得到预设双层卷积神经网络和预训练语言模型。可以理解的是，选用历史电子病历样本中的临床信息文本并切分为医疗词汇集合，并为每个医疗词汇集合手动注释HPO术语。然后，将携带标准人类表型本体论术语标签的历史医疗英文词汇集合作为实验数据，并按照一定的比例将实验数据随机分成训练集和测试集用来测试HPO提取方法的性能。参照图6所示，临床信息中文文本标准化的最佳阈值获取步骤如下：首先将实验数据随机分成的训练集分别按照专业人员抽取和本发明方法自动抽取两种方式进行数据抽取，以获得相应的医疗英文词汇，然后分别在标准文本-HPO映射、本发明的预测文本-HPO映射下，分别得到相应的映射结果，将两种方式的映射结果输入至常规指标评估模型中，以便该常规指标评估模型输出最佳HPO提取的阈值设置。其中，基于双层卷积神经网络和生物领域模型来获取该HPO提取方法在一级CNN、二级CNN和BERT的评分阈值α、β和θ。实验详细过程如下：

1.数据获取：

样本来源：历史电子病历数据和OMIM相关文本；

样本总数：500条；

2.临床信息文本的标准HPO和预测HPO获取：

按照上述模块描述的详细步骤，将样本来源数据中的临床信息文本进行清洗、分词和HPO术语提取，从而分别得到每条电子病历中的HPO术语，整理该方法得到的HPO术语和手动注释标准HPO术语进行后续的测试评估。

3.最佳阈值获取：

利用不同阈值进行组合，验证HPO提取模型在提取HPO术语时的最佳组合。验证方法为：将矩阵内的数据按照7比3的比例随机分成训练集和测试集，将训练集用于训练和构建HPO提取模型，将测试集用于对构建的HPO提取模型进行测试和验证，并最终以Precision(精确度)、Recall(召回率)、F1_Score这3个指标对不同阈值的HPO术语提取性能进行评估，其中这3个评价参数的值越大，其HPO术语提取的能力越强。

选用固定其中两个HPO阈值，变动另一个HPO阈值的方式来控制变量，具体的实验结果如下图7、图8、图9所示：

当指定β＝0.6，θ＝0.9时的HPO术语提取实验结果如图7所示；

当指定α＝0.8，θ＝0.9时的HPO术语提取实验结果如图8所示；

当指定α＝0.8，β＝0.6时的HPO术语提取实验结果如图9所示。

由上图不难得出结论，当阈值α＝0.8，β＝0.6，θ＝0.9时，该方法的HPO术语提取的能力最强，三个指标最高。

为了验证本发明提出的方法对HPO术语总体性能的影响，对分别去除各个模块进行消融实验，通过三个指标来体现各模块的效用。实验结果如下表1所示：

表1

算法名称	Precision(％)	Recall(％)	F1_Score(％)
				仅字典模块	90.17	57.66	70.34
W/O CNN	88.23	66.92	76.11
				W/O BERT	85.28	79.41	82.24
W/O Finetune	91.17	75.86	82.81
				本发明方法	93.43	77.13	84.50

其中，上表中，“仅字典模块”是指本方法中单独使用基于目标映射表的部分得到的实验结果；“W/O CNN”是指在本方法中不采用双层级CNN快速筛选模型的实验结果；“W/OBioBERT”是指本方法不采用BioBERT进行候选HPO生成的实验结果；“W/O Finetune”意味着直接使用预训练的BioBERT模型，不经过NCBI等相关语料库的微调。“本发明方法”是指完整的该方法。根据上表的实验结果，不难看出本方法在三个指标上取得了最高的综合性能。

根据以上实验得出以下结论，本发明中所选的模块必须全部纳入方法中才能得到最佳的人类表型本体HPO词条提取能力。最后，针对该发明内容，得到了3个最佳阈值，用来获取最佳的提取能力。

步骤S27：基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。

本实施例中，通过将以第二目标医疗英文词汇、总HPO术语文件和生物信息预料为基础，结合双层卷积神经网络和预训练模型BERT，构建医疗词汇集合与HPO术语快速匹配的深度学习模型，快速生成的第二目标医疗英文词汇-第二标准HPO术语以及基于目标哈希表匹配得到的第一目标医疗英文词汇-第一标准HPO术语进行合并，得到与待转换临床信息中文文本的标准人类表型本体论术语。图10为待转换临床信息中文文本，图11为在最佳阈值下的对图10中临床信息中文文本标准化为HPO的标准化结果。

由此可见，使用在疾病表征领域内的生物信息微调的语言模型识别医疗记录文本中的HPO术语，实现了自动、高效、准确地提取临床信息文本中的HPO术语。并且基于本发明的处理流程、挖掘出的指标参数(特征)以及对应的阈值，能够自动、快速、准确、高效地提出文本中存在的人类表型本体HPO词条。而且对服务器计算资源要求较低，一台普通的8核心64G内存的服务器，能够允许同时运行几十个电子病历文本的处理任务。该方法具有较高的普适性，对于无任何相关专业技术背景的人员也能进行准确地核查判定，对人员技术要求较低。流程部署简单，使用操作方便，只需部署相关计算节点即可完成全流程分析。

参照图12所示，本发明实施例还相应公开了一种临床信息文本标准化装置，包括：

文本转换模块11，用于通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本；

集合生成模块12，用于对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合；

第一匹配模块13，用于利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇；

第二匹配模块14，用于将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语；

统计模块15，用于基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。

由此可见，本申请公开了通过预设大语言模型将待转换临床信息中文文本进行中英文转换，以得到临床信息英文文本；对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合；利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇；将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语；基于所述第一目标医疗英文词汇与对应的第一标准人类表型本体论术语、所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语确定所述待转换临床信息中文文本的标准人类表型本体论术语。可见，通过大语言模型对临床信息中文文本进行中英文转换，获得临床信息英文文本，为提取HPO术语提供准备，然后对文本进行切分、识别处理，得到医疗英文词汇构建的医疗英文词汇集合，能够去除非医疗内容的词汇，筛选出临床信息英文文本中表征医疗信息相关的医疗英文词汇，然后将基于目标哈希表遍历获取到的医疗英文词汇集合。得到医疗英文词汇集合中与目标哈希表中标准人类表型本体论术语完全一致的字符串，并输出该医疗英文词汇与对应的标准人类表型本体论术语作为第一目标医疗英文词汇与第一标准人类表型本体论术语。然后对未匹配成功的医疗英文词汇通过预训练语言模型进行自动匹配识别，快速输出对应的第二目标医疗英文词汇，然后统计第一标准人类表型本体论术语、第二目标医疗英文词汇以及各自对应的医疗英文词汇，以得到待转换临床信息中文文本的目标标准人类表型本体论术语，实现临床信息中文文本的标准化处理。

进一步的，本申请实施例还公开了一种电子设备，图13是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图13为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的临床信息文本标准化方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的临床信息文本标准化方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的临床信息文本标准化方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器RAM(Random Access Memory)、内存、只读存储器ROM(Read Only Memory)、电可编程EPROM(Electrically Programmable Read Only Memory)、电可擦除可编程EEPROM(ElectricErasable Programmable Read Only Memory)、寄存器、硬盘、可移动磁盘、CD-ROM(CompactDisc-Read Only Memory，紧凑型光盘只读储存器)、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种临床信息文本标准化的方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种临床信息文本标准化方法，其特征在于，包括：

2.根据权利要求1所述的临床信息文本标准化方法，其特征在于，所述对所述临床信息英文文本进行文本切分处理和文本识别处理，以得到医疗英文词汇构建的医疗英文词汇集合，包括：

基于所有所述独立的医疗英文词汇构建医疗英文词汇集合。

3.根据权利要求1所述的临床信息文本标准化方法，其特征在于，所述利用基于标准人类表型本体论术语编号与医疗英文词汇构建的目标哈希表检索所述医疗英文词汇集合，以得到字符串匹配成功的第一目标医疗英文词汇与对应的第一标准人类表型本体论术语以及未匹配成功的第二目标医疗英文词汇之前，还包括：

4.根据权利要求3所述的临床信息文本标准化方法，其特征在于，所述将所述第二目标医疗英文词汇以及总标准人类表型本体论术语文件输入至预训练语言模型，以便所述预训练语言模型输出与所述第二目标医疗英文词汇对应的第二标准人类表型本体论术语，包括：

5.根据权利要求4所述的临床信息文本标准化方法，其特征在于，所述将所述若干候选医疗英文句子输入至预训练语言模型，以便所述预训练语言模型输出对应的第二标准人类表型本体论术语，包括：

6.根据权利要求5所述的临床信息文本标准化方法，其特征在于，所述将包含分类标签、第二目标医疗英文词汇、第一分句标签、候选人类表型本体论术语、第二分句标签的若干候选医疗英文句子输入至预训练语言模型之前，还包括：

7.根据权利要求6所述的临床信息文本标准化方法，其特征在于，所述利用所述历史医疗英文词汇集合分别训练双层卷积神经网络和微调后的BioBERT模型，以得到预设双层卷积神经网络和预训练语言模型之前，还包括：

8.一种临床信息文本标准化装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的临床信息文本标准化方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的临床信息文本标准化方法的步骤。