CN116804998A

CN116804998A - 基于医学语义理解的医学术语检索方法和系统

Info

Publication number: CN116804998A
Application number: CN202311059563.3A
Authority: CN
Inventors: 刘硕; 杨雅婷; 白焜太; 宋佳祥; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-09-26

Abstract

本申请公开了基于医学语义理解的医学术语检索方法和系统，包括：获取原始文本并进行预处理；将预处理后的原始文本输入至所述bert模型得到语义向量表示；将预处理后的原始文本输入至所述TextRank模块提取关键词；基于所述语义向量表示将所述关键词进行均值化处理，得到所述关键词的语义向量表示；将所述关键词的语义向量表示输入至所述映射算法模块，映射出标准词作为检索结果。本发明能够根据用户输入的文本生成医疗领域的标准词，且生成的标准词准确度高。

Description

基于医学语义理解的医学术语检索方法和系统

技术领域

本申请涉及自然语言处理领域，特别涉及一种基于医学语义理解的医学术语检索方法和系统。

背景技术

在用户输入检索词进行相关内容检索的场景中，检索应用后台会从用户输入的检索词中提取用户的检索关键词，并根据关键词匹配检索内容返回给用户，所以，检索词的提取在检索应用中是关键性的一步，直接决定检索结果的精确度。

目前检索系统在搜索引擎等领域有着广泛的应用，在医疗领域，随着智能问诊和医学数据库的发展，需要结合用户输入进行检索的系统重要性也日益显著，现有技术中，检索词的提取通常基于以下几个常用方法：一、基于TFIDF方法，TFIDF是一种统计方法，用以评估关键词对于语料库中的其中一个文档的重要程度，然后排序选取重要性最高的几个词作为关键词。TFIDF词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。二、主题模型(TopicModel)是以无监督学习的方式对文档的隐含语义结构进行聚类的统计模型，其中LDA(Latent Dirichlet Allocation)算法是主题模型的一种。LDA根据对词的共现信息的分析，拟合出词——文档——主题的分布，从而将词、文本映射到一个语义空间中。三、基于监督学习，基于监督学习是一种将关键词抽取当作分类问题，即对每个候选关键词判断是否为关键词的二分类问题。常用的分类算法LR、朴素贝叶斯、SVM、GBDT、神经网络等分类算法都可以使用。但是以上方法针对关键词的提取都存在各自的缺陷，例如，TFIDF是一种基于统计的方法，仅仅考虑词的统计性质。主题模型抽取的关键词一般过于宽泛，不能较好反映文章主题，存在关键词的冷启动问题和马太效应。基于监督学习需要人工标注训练集合，费时费力，因此不适合网络上的大规模应用。

发明内容

（一）申请目的

基于此，为了提出一种有效提取关键词，降低关键词提取成本的医学术语检索方法，本申请公开了以下技术方案。

（二）技术方案

本申请公开了基于医学语义理解的医学术语检索方法的方法，包括：

获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练过程包括：

S1、获取原始文本并进行预处理；

S2、将预处理后的原始文本输入至所述bert模型得到语义向量表示；

S3、将预处理后的原始文本输入至所述TextRank模块提取关键词，再对所述关键词进行分类预测，得到实体类关键词；

S4、基于所述语义向量表示将所述实体类关键词进行均值化处理，得到实体类关键词的语义向量表示；

S5、将所述实体类关键词的语义向量表示输入至所述映射算法模块，映射出标准词作为检索结果。

在一种可能的实施方式中，对原始文本进行预处理的过程为：

对所述原始文本进行分词处理，并使用所述bert模型的词表将分词处理后的所述原始文本转化为id文件。

在一种可能的实施方式中，获取语义向量表示的过程包括：

embedding层：通过embedding权重矩阵和预处理后的矩阵相称，得出embedding词向量作为输入数据的embedding矩阵表示；

多头注意力机制层：对所述embedding矩阵表示分别经过三个线性层做矩阵特征提取，经过矩阵乘法计算得出每个输入数据融合了注意力信息的向量表达；

前向计算层：将多头注意力机制层每个输入经过两层线性层，并经过激活层激活后输出每个数据的语义向量表示。

在一种可能的实施方式中，利用交叉熵CrossEntropy计算损失函数，采用交叉熵损失函数训练所述bert模型，所述交叉熵损失函数表示为：

其中，p(x)为当前输入的真实标签label，q(x)为模型对每个标签label的预测值。

在一种可能的实施方式中，将预处理后的原始文本输入至所述TextRank模块提取关键词的过程包括：

对预处理后原始文本按照整句进行分割，表示为；

对于每个句子，对其进行分词和词性标注，剔除停用词，保留指定词性的词，表示为/>，其中/>为句子i中保留下的词；

构建词图G=（V），其中V为节点集合，由中的词组成，再采用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词，K取值2；

迭代计算各节点的权重，直至收敛，各节点的权重计算公式为：

其中，d为可调的权重值，范围在0，1之间，In(Vi)表示节点Vi的前驱节点集合；Out (Vi)表示节点Vi的后驱节点集合；用于表示两个节点之间的边连接具有不同的重要程度；

对节点的权重进行倒序排序，从中得到最重要的t个单词，作为top-t重要词；

基于所述top-t重要词，在原始文本中进行标记，若形成了相邻词组，则组合成重要词；

将预处理后的原始文本中的每个句子分别看作一个节点，如果两个节点有相似性，则该两个节点之间存在一条无向有权边，衡量两个节点之间相似性的公式为：

其中，代表两个句子，/>代表句子中的重要词；分子部分的意思是同时出现在两个句子中的同一个重要词的数量，分母是对句子中重要词的个数求对数后求和；

循环计算任意两个节点之间的相似度，根据阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，对所述节点连接图进行计算，得到每个重要词的TextRank值即每个重要词权重；

对所述TextRank值进行排序并获取排序在前的多个TextRank值对应的多个重要词，作为关键词。

在一种可能的实施方式为，对所述关键词进行分类预测，得到实体类关键词，预测过程包括：

将所述关键词中的每个字符向量输入线性层进行是否是实体的分类预测，线性层的公式为

其中，x为预处理后的原始文本中的每个字符进过bert模型获得的语义向量表示，A为线性层的权重矩阵，b为线性层的偏置矩阵，y为经过线性层之后得到的预测结果；

将所述预测结果输入softmax函数映射为0或1的数值，softmax函数的公式为：

其中，exp(x ) 是表示 e为底的指数函数（e 是纳皮尔常数 2.7182 …）；n表示表示假设输出层共有 n 个神经元，ak表示计算的当前的输入字符，计算第 k 个神经元的输出 yk ；softmax 函数的分子是输入字符 ak 的指数函数，分母是所有输入信号的指数函数的和。

在一种可能的实施方式中，所述映射算法模块映射出标准名词作为检索结果的过程包括：

将所述实体类关键词和知识库中的标准词进行两两组合，基于所述实体类关键词的语义向量表示和标准词的语义向量表示计算两者之间的余弦相似度，其中余弦相似度计算公式为：

其中，A、B分别为实体类关键词、标准词，、/>分别为A、B的语义向量表示；

将所述余弦相似度按照从大到小的顺序排列，计算余弦相似度最大的标准词作为检索结果输出。

本发明的第二方面提供基于医学语义理解的医学术语检索系统，特征在于，获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练单元包括：

预处理单元，用于获取原始文本并进行预处理；

语义向量表示单元，用于将预处理后的原始文本输入至所述bert模型得到语义向量表示；

关键词提取单元，用于将预处理后的原始文本输入至所述TextRank模块提取关键词，再对所述关键词进行分类预测，得到实体类关键词；

均值化处理单元，用于基于所述语义向量表示将所述关键词进行均值化处理，得到实体类关键词的语义向量表示；

结果映射单元，用于将所述实体类关键词的语义向量表示输入至所述映射算法模块，映射出标准词作为检索结果。

本发明的第三方面提供一种计算机设备，所述计算机设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时权利实现上述的医学术语检索方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的基于医学语义理解的医学术语检索方法。

（三）有益效果

本申请公开的基于医学语义理解的医学术语检索方法，通过bert模型对原始文本进行语义向量表示，通过TextRank获取原始文本的关键词，有效结合上下文语义进行向量化表示，解决向量表达过程中语义表达能力不足的问题，通过映射算法输出标准词，提高了检索结果的准确性。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的基于医学语义理解的医学术语检索方法的流程示意图。

图2是本申请公开的基于医学语义理解的医学术语检索系统的结构框图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1详细描述本申请公开的基于医学语义理解的医学术语检索方法实施例。如图1所示，本实施例公开的方法获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练过程包括：

S1、获取原始文本并进行预处理；

本发明通过bert模型对原始文本进行语义向量表示，通过TextRank获取原始文本的关键词，有效结合上下文语义进行向量化表示，解决向量表达过程中语义表达能力不足的问题，通过映射算法输出标准词，提高了检索结果的准确性。

优选的，对原始文本进行预处理的过程为：

获取语义向量表示的过程包括：

embedding层：通过embedding权重矩阵和预处理后的矩阵相称，得出embedding词向量作为输入数据的embedding矩阵表示，向量维度为768维；

多头注意力机制层：对所述embedding矩阵表示分别经过三个线性层做矩阵特征提取，经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表达；

前向计算层：将多头注意力机制层每个输入经过两层线性层，并经过激活层激活后输出每个数据的语义向量表示，向量维度为768维。

利用交叉熵CrossEntropy计算损失函数，采用交叉熵损失函数训练所述bert模型，所述交叉熵损失函数表示为：

其中，其中p(x)为当前输入的真实标签label，q(x)为模型对每个标签label的预测值。在至少一个实施例中，假设一个三分类任务，某样本的正确标签是第一类，则p = [1,0, 0], 模型预测值假设为[0.5, 0.4, 0.1], 则交叉熵计算如下：

其中，采用交叉熵损失函数训练bert模型的过程包括：

、采用Adam算法优化Adam算法，即调整bert模型的参数，判断交叉熵损失函数计算结果是否达到最小值，若是，则结束训练；

若否，则判断迭代次数是否达到最大迭代次数，若达到，则完成bert模型的训练，若未达到，则返回（1）中，且迭代次数加1。

优选的，将预处理后的原始文本输入至所述TextRank模块提取关键词的过程包括：

对预处理后的原始文本按照整句进行分割，表示为；

对于每个句子，对其进行分词和词性标注，剔除停用词，保留指定词性的词，如名词、动词、形容词等，表示为/>，其中/>为句子i中保留下的词；

循环计算任意两个节点之间的相似度，根据阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，对所述节点连接图进行计算，得到每个重要词的TextRank值即重要词权重；

优选的，对所述关键词进行分类预测，得到实体类关键词，预测过程包括：

具体的，对所述关键词进行是否为实体还是关系的判断，映射结果为1，表示该关键词为实体，结果为0，则表示该关键词为关系。

优选的，所述映射算法模块映射出标准名词作为检索结果的过程包括：

优选的，对所述语义向量表示进行实体分类预测，预测过程包括：

本申请提供了基于医学语义理解的医学术语检索系统，如图2所示，获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练单元包括：

预处理单元，用于获取原始文本并进行预处理；

在一个实施例中，提供一种计算机设备，该计算机设备可以是服务器。

该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述基于医学语义理解的医学术语检索方法。

在一个实施例中，提供一种计算机可读存储介质，包括存储器、处理器及存储在存储器上并可以在处理器上执行的计算机程序，处理器执行计算机程序以实现上述基于医学语义理解的医学术语检索方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，均仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制。

在本文中，“第一”、“第二”等仅用于彼此的区分，而非表示它们的重要程度及顺序等。

本文中的模块、单元或组件的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块和/或单元可以结合或集成于另一个系统中。作为分离部件说明的模块、单元、组件在物理上可以是分开的，也可以是不分开的。作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个具体地方，也可以分布到网格单元中。因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于医学语义理解的医学术语检索方法，其特征在于，获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练过程包括：

S1、获取原始文本并进行预处理；

2.如权利要求1所述的医学术语检索方法，其特征在于，对原始文本进行预处理的过程为：

3.如权利要求1所述的医学术语检索方法，其特征在于，获取语义向量表示的过程包括：

4.如权利要求1所述的医学术语检索方法，其特征在于，利用交叉熵CrossEntropy计算损失函数，采用交叉熵损失函数训练所述bert模型，所述交叉熵损失函数表示为：

5.如权利要求1所述的医学术语检索方法，其特征在于，将预处理后的原始文本输入至所述TextRank模块提取关键词的过程包括：

对预处理后的原始文本按照整句进行分割，表示为；

其中，d为可调的权重值，范围在0，1之间，In(Vi)表示节点Vi的前驱节点集合；Out(Vi)表示节点Vi的后驱节点集合；/>用于表示两个节点之间的边连接具有不同的重要程度；

其中，/>代表两个句子，/>代表句子中的重要词；分子部分的意思是同时出现在两个句子中的同一个重要词的数量，分母是对句子中重要词的个数求对数后求和；

6.如权利要求1所述的医学术语检索方法，其特征在于，对所述关键词进行分类预测，得到实体类关键词，预测过程包括：

其中，exp(x ) 表示 e为底的指数函数（e 是纳皮尔常数2.7182 …）；n表示表示假设输出层共有 n 个神经元，ak表示计算的当前的输入字符，计算第 k 个神经元的输出 yk ；softmax 函数的分子是输入字符 ak 的指数函数，分母是所有输入信号的指数函数的和。

7.如权利要求1所述的医学术语检索方法，其特征在于，所述映射算法模块映射出标准名词作为检索结果的过程包括：

其中，A、B分别为实体类关键词、标准词，/>、/>分别为A、B的语义向量表示；

8.基于医学语义理解的医学术语检索系统，特征在于，获取原始文本并进行预处理，将预处理后的原始文本输入到训练好的命名实体识别模型识别出原始文本中的关键信息，所述命名实体识别模型包括bert模型、TextRank模块、映射算法模块；

所述命名实体识别模型的训练单元包括：

预处理单元，用于获取原始文本并进行预处理；

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于医学语义理解的医学术语检索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于医学语义理解的医学术语检索方法。