CN116564539B

CN116564539B - 基于信息抽取和实体归一的医学相似病例推荐方法和系统

Info

Publication number: CN116564539B
Application number: CN202310836858.0A
Authority: CN
Inventors: 刘硕; 杨雅婷; 白焜太; 宋佳祥; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-24
Anticipated expiration: 2043-07-10
Also published as: CN116564539A

Abstract

本发明公开了基于信息抽取和实体归一的医学相似病例推荐方法和系统，通过对病情描述文本进行实体分割，获取其中的疾病术语信息，然后从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词，最后将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，减轻了性能要求，降低推荐耗时，更有利于诊断的高效进行，从而快速准确地分析出高相似度的病例向医生进行推荐。

Description

基于信息抽取和实体归一的医学相似病例推荐方法和系统

技术领域

本发明属于医学数据分析领域，具体涉及基于信息抽取和实体归一的医学相似病例推荐方法和系统。

背景技术

目前临床辅助诊疗系统的重要一环是辅助诊断，辅助诊断系统中，基于当前患者信息进行相似的病历推荐给医生，是辅助医生诊断的有效手段，使得当前医生在诊断患者当前病情信息时有参考信息，所以医生在为患者进行诊断治疗的过程中，相似病例及其相似病例的疗法，对患者的诊断治疗具有不可或缺的作用，是医生为患者快速确诊，查找病因，临床医治的重要参考。

现有技术中，相似病例的获取，一般通过患者的病例信息对数据库中的病例数据进行匹配。所以现有技术中的病例数据的比较是全量和实时的比较，对性能要求高，耗时过长，不利于诊断的高效进行，所以现有的病例获取无法快速准确地分析出高相似度的病例向医生进行推荐。

发明内容

针对上述现有技术的不足，本申请提供于信息抽取和实体归一的医学相似病例推荐方法和系统。

第一方面本申请提出了基于信息抽取和实体归一的医学相似病例推荐方法，包括以下步骤：

从接诊室的病例数据录入终端中获取接诊患者的病情描述文本；

对所述病情描述文本进行实体分割，获取病情描述文本中的疾病术语信息；

从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词；

将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。

在一些实施例中，所述对所述病情描述文本进行实体分割，获取病情描述文本中的疾病术语信息，包括：

计算所述病情描述文本中疾病术语的TF值，计算公式为：

其中，表示当前疾病术语在病情描述文本中出现的次数，i表示第i个疾病术语，j表示第j个病情描述文本，k表示疾病术语总数，/>表示当前疾病术语在病情描述文本中出现的频率；

计算所述病情描述文本中疾病术语的IDF值，计算公式为：

其中，表示所有病情描述文本的数量，/>表示包含疾病术语的病情描述文本数量，/>表示指定的一个疾病术语；

根据TF-IDF模型计算得到病情描述文本中每个指定的疾病术语的权重，设定权重阈值，筛选出高于所述权重阈值的疾病术语作为病情表述文本中的疾病术语信息。

在一些实施例中，所述从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词，包括：

将所述历史病例信息输入第一bert模型中，得到历史病例信息中每个字符的第一向量表示；

结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测，得到实体识别分类预测结果；

将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值，根据所述映射数值和对应词表得到疾病关键词。

在一些实施例中，所述结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测，得到实体识别分类预测结果；所述交叉熵损失函数为：

其中，p(x)表示当前输入的真实标签label，q(x)表示模型对每个标签label的预测值；表示p和q之间的交叉熵；

所述第一线性层公式为：

其中L为历史病例信息中的每个字符经过第一bert模型获得的768维度的向量表示，A为第一线性层的权重矩阵，b为第一线性层的偏置矩阵，y为经过第一线性层之后得到的结果；

在一些实施例中，所述将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值，根据所述映射数值和对应词表得到疾病关键词，所述softmax函数公式为：

其中，表示/>的指数函数，n表示输出层共有n个神经元，/>表示计算的当前输入字符，/>表示第h个神经元的输出，所以，softmax函数的分子是当前输入字符/>的指数函数，分母是所有输入信号的指数函数的和。

在一些实施例中，所述将所述疾病术语信息和所述疾病关键词进行归一化处理，包括：

对所述疾病术语信息和来自所述疾病关键词进行拼接，拼接格式为：cls+疾病术语信息+sep+疾病关键词+sep，cls和sep是英文字符，cls用于提示模型开头，sep用于提示模型中间和结尾，然后输入第二bert模型中得到拼接结果的第二向量表示；

将拼接结果的第二向量表示经过第二线性层进行0，1分类，其中0代表不是指代的同一内容，1代表指代的是同一内容，通过分类结果进行判断是否指代相同内容的二分类任务；

基于判断结果完成所述疾病术语信息和所述疾病关键词的归一化处理。

在一些实施例中，所述第一bert模型和所述第二bert模型的结构一致，包括：

embedding层，通过embedding权重矩阵和输入数据映射的id进行矩阵相称，得出embedding词向量作为输入数据的embedding矩阵表示，向量维度为768维；

多头注意力机制层，对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取，经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示；

前向计算层，将多头注意力机制层每个输入经过两层线性层，并经过激活层激活后输出每个数据最终的768维向量表示。

在一些实施例中，所述第二线性层的计算公式为：

其中h为拼接结果的第二向量表示，为第二线性层的权重矩阵，j为线性层的偏置矩阵。y_out为经过第二线性层之后得到的结果。

在一些实施例中，所述根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，包括：

经过归一化处理后，筛选出历史病例信息中包含疾病术语信息的病例；

对筛选出的病例进行统计排序，统计疾病术语信息中出现疾病关键词的次数；

统计出的次数进行累加，基于累加结果对筛选出的病例按照疾病关键词的次数进行排序，按照由高到低的次数出现顺序给进行病例推荐。

第二方面本申请提出基于信息抽取和实体归一的医学相似病例推荐系统，包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块；

所述患者文本获取模块，用于从接诊室的病例数据录入终端中获取接诊患者的病情描述文本；

所述疾病术语信息获取模块，用于对所述病情描述文本进行实体分割，获取病情描述文本中的疾病术语信息；

所述疾病关键词获取模块，用于从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词；

所述病例分析推荐模块，用于将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。

第三方面，本申请提出了一种计算机装置，计算机装置包括：

处理器，处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。

第四方面，本申请提出了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一方法的步骤。

本发明的有益效果：

通过对病情描述文本进行实体分割，获取其中的疾病术语信息，然后从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词，最后将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，减轻了性能要求，降低推荐耗时，更有利于诊断的高效进行，从而快速准确地分析出高相似度的病例向医生进行推荐。

附图说明

图1为本发明的总体流程图。

图2为本发明的系统原理框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制；相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

第一方面本申请提出了基于信息抽取和实体归一的医学相似病例推荐方法，如图1所示，包括步骤S100-S400：

S100：从接诊室的病例数据录入终端中获取接诊患者的病情描述文本；

从各个诊室的医务人员的操作终端中获取对应诊室的接诊患者的病情描述文本。

S200：对所述病情描述文本进行实体分割，获取病情描述文本中的疾病术语信息；

计算所述病情描述文本中疾病术语的TF值，计算公式为：

计算所述病情描述文本中疾病术语的IDF值，计算公式为：

将TF值和IDF值相乘就会得到，每篇病情描述文本中每个词的TF-IDF的值，值越大，则可认为重要程度越高，可作为病情描述文本的关键词，我们使用tf-idf模型来计算病情描述文本中的每个词汇的权重，根据权重的大小排序，我们设定阈值0.5，选取权重高于阈值的词汇作为病情描述文本中的关键词信息。

S300：从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词；

例如：设定一个三分类任务，某样本的正确标签是第一类，则p = [1, 0, 0], 模型预测值假设为[0.5, 0.4, 0.1], 则交叉熵计算如下：

设定输入历史病例信息为E，ei~en为历史病例信息的文本E中的字符，在经过bert模型输出后获得768维度的第一向量表示，之后我们对这每个字符向量经过第一线性层进行是否是实体的分类预测，预测结果经过softmax函数映射为0~1之间的数值。

所述第一线性层公式为：

至此，我们提取出来了病情描述文本和历史病例信息中各自的疾病关键实体信息，比如病情描述文本中提取出“肺炎”，历史病例信息中提取的关键信息为“肺部炎症”，接下来，我们对这两部分的疾病信息进行实体归一，来判断两者是否指代的是同一内容。

S400：将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐。

在一些实施例中，所述第二线性层的计算公式为：

其中，相似病例推荐的具体步骤包括：将患者的病情描述文本text-a中提取出来关键词t1,t2,t3...,与历史病例信息中每个病例中提取的关键词对比，首先把历史病例信息的关键词中包含疾病术语信息t1,t2,t3...的病例筛选出来，之后再统计每个被筛选出来的病例中分别出现t1、t2、t3的次数count1、count2、count3...,把每个病例中的count1、count2、count3...直接相加得出病情描述文本的疾病术语信息在每个历史病例信息中总的出现频次count_total，把历史病例信息按照各自的count_total进行由高到低排序，同时把这些历史病例信息按照顺序推荐给医生，完成相似病历推荐的任务。

第二方面本申请提出基于信息抽取和实体归一的医学相似病例推荐系统，如图2所示，包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块；

第四方面，本申请提出了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述任一方法的步骤示例性地，计算机程序可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备可以包括但不仅限于处理器和存储器。本领域技术人员可以理解，计算机设备可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是计算机设备的内部存储单元，例如，计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅是本发明优选的实施方式，需指出的是，对于本领域技术人员在不脱离本技术方案的前提下，作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。

Claims

1.基于信息抽取和实体归一的医学相似病例推荐方法，其特征在于：包括以下步骤：

从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词，包括：将所述历史病例信息输入第一bert模型中，得到历史病例信息中每个字符的第一向量表示；

结合交叉熵损失函数和第一线性层公式对每个字符向量进行实体识别分类预测，得到实体识别分类预测结果；所述交叉熵损失函数为：

其中，p(x)表示当前输入的真实标签label，q(x)表示模型对每个标签label的预测值；/>表示p和q之间的交叉熵；

所述第一线性层公式为：

将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值，根据所述映射数值和对应词表得到疾病关键词；

将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，包括：对所述疾病术语信息和来自所述疾病关键词进行拼接，拼接格式为：cls+疾病术语信息+sep+疾病关键词+sep，cls和sep是英文字符，cls用于提示模型开头，sep用于提示模型中间和结尾，然后输入第二bert模型中得到拼接结果的第二向量表示；

将拼接结果的第二向量表示经过第二线性层进行0，1分类，其中0代表不是指代的同一内容，1代表指代的是同一内容，通过分类结果进行判断是否指代相同内容的二分类任务，其中，所述第二线性层的计算公式为：

其中h为拼接结果的第二向量表示，/>为第二线性层的权重矩阵，j为线性层的偏置矩阵，y_out为经过第二线性层之后得到的结果；

2.根据权利要求1所述的方法，其特征在于：所述对所述病情描述文本进行实体分割，获取病情描述文本中的疾病术语信息，包括：

计算所述病情描述文本中疾病术语的TF值，计算公式为：

其中，/>表示当前疾病术语在病情描述文本中出现的次数，i表示第i个疾病术语，j表示第j个病情描述文本，k表示疾病术语总数，/>表示当前疾病术语在病情描述文本中出现的频率；

计算所述病情描述文本中疾病术语的IDF值，计算公式为：

其中，/>表示所有病情描述文本的数量，表示包含疾病术语/>的病情描述文本数量，/>表示指定的一个疾病术语；

3.根据权利要求2所述的方法，其特征在于：所述将所述实体识别分类预测经过softmax函数得到0~1之间的映射数值，根据所述映射数值和对应词表得到疾病关键词，所述softmax函数公式为：

其中，/>表示/>的指数函数，n表示输出层共有n个神经元，/>表示计算的当前输入字符，/>表示第h个神经元的输出，所以，softmax函数的分子是当前输入字符/>的指数函数，分母是所有输入信号的指数函数的和。

4.根据权利要求3所述的方法，其特征在于：所述第一bert模型和所述第二bert模型的结构一致，包括：

5.根据权利要求4所述的方法，其特征在于：所述根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，包括：

6.基于信息抽取和实体归一的医学相似病例推荐系统，其特征在于：包括患者文本获取模块、疾病术语信息获取模块、疾病关键词获取模块、病例分析推荐模块；

所述疾病关键词获取模块，用于从历史病例数据库中获取历史病例信息并进行文本分割信息抽取，得到历史病例信息中的疾病关键词，包括：将所述历史病例信息输入第一bert模型中，得到历史病例信息中每个字符的第一向量表示；

所述第一线性层公式为：

所述病例分析推荐模块，用于将所述疾病术语信息和所述疾病关键词进行归一化处理，根据处理结果筛选出包含疾病术语信息的历史病例进行相似病例推荐，包括：对所述疾病术语信息和来自所述疾病关键词进行拼接，拼接格式为：cls+疾病术语信息+sep+疾病关键词+sep，cls和sep是英文字符，cls用于提示模型开头，sep用于提示模型中间和结尾，然后输入第二bert模型中得到拼接结果的第二向量表示；