CN117194604B

CN117194604B - 一种智慧医疗病患问诊语料库构建方法

Info

Publication number: CN117194604B
Application number: CN202311461028.0A
Authority: CN
Inventors: 陈淑珍
Original assignee: Linyi University
Current assignee: Linyi University
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-01-30
Anticipated expiration: 2043-11-06
Also published as: CN117194604A

Abstract

本发明涉及医疗问诊数据处理技术领域，具体涉及一种智慧医疗病患问诊语料库构建方法，该方法包括：采集医疗问诊数据，根据各词出现的概率以及与疾病种类词语共同出现的概率构建词症关联指数；结合患者问诊数据中各句每个词语与各类病症之间的词症关联指数得到各句对应病症种类的句症关联指数；构建病症权重共现矩阵及病症种类关联共现矩阵，得到各句对应疾病种类的双词修正指数序列；根据句症关联指数序列和双词修正指数序列得到各句的修正句症关联指数序列；结合BERT神经网络对患者问诊数据进行分类并更新智慧医疗病患问诊语料库。本发明可实现医疗问诊语料库的构建，准确对病症类别特性进行表征。

Description

一种智慧医疗病患问诊语料库构建方法

技术领域

本申请涉及医疗问诊数据处理技术领域，具体涉及一种智慧医疗病患问诊语料库构建方法。

背景技术

随着自然语言处理技术的发展，在医疗问诊领域也将有所应用，例如，可以构建病患问诊语料库。它可以帮助医生更快速、准确的了解病患的症状和病情，提高问诊效率；也可以通过对病患问诊语料库的挖掘和分析，可以发现疾病之间的关联性、病因与病症的关系等重要信息，为医学领域的科学研究和临床实践提供支持；还可以为开发智能化的教育工具和培训系统，帮助医学生和医护人员学习和熟悉各种疾病的问诊流程、辨别关键症状以及制定初步的诊断方案等。总而言之，智慧医疗病患问诊语料库的构建可以提升医疗服务效率，支持医学研究和教育，推动医疗智能化发展，从而更好地为患者提供高质量的医疗服务。

通常的病患问诊语料库有着包含的症状疾病类型比较广泛，构建规模比较庞大等特点。常规技术构建的语料库通常具有适应性限制、分类处理困难等问题。其中，对于分类处理问题，常规技术由于无法很好的理解语义和上下文信息，以及在病患领域特有的一些文本特征，导致其构建的数据库对于复杂的医疗问诊数据不能被充分利用或无法正确分类。

发明内容

为了解决上述技术问题，本发明提供一种智慧医疗病患问诊语料库构建方法，以解决现有的问题。

本发明的一种智慧医疗病患问诊语料库构建方法采用如下技术方案：

本发明一个实施例提供了一种智慧医疗病患问诊语料库构建方法，该方法包括以下步骤：

采集病患问诊以及相关疾病的医学描述数据作为医疗问诊数据，对数据进行分词处理；

根据患者问诊数据中各词出现的次数及总词数得到患者问诊数据中各词的出现概率；获取患者问诊数据中各词与确诊疾病种类词语共同出现的概率；根据患者每条问诊数据中所述各词的出现概率以及所述共同出现的概率构建词症关联指数；结合患者问诊数据中各句每个词语与各类病症之间的词症关联指数得到各句对应病症种类的句症关联指数；将各句与每个病症之间所得到的句症关联指数组成各句的句症关联指数序列；通过患者问诊数据中各名词或动词出现的概率构建病症权重共现矩阵；对于患者问诊数据中的形容词，采用病症权重共现矩阵的获取方法得到病症种类关联共现矩阵；根据病症权重共现矩阵及病症种类关联共现矩阵各元素之间的关系得到各句对应疾病种类的双词修正指数序列；根据句症关联指数序列和双词修正指数序列得到各句的修正句症关联指数序列；

根据患者问诊数据中句子的修正句症关联指数序列结合BERT神经网络模型对患者问诊数据进行分类；结合各患者问诊数据类别更新智慧医疗病患问诊语料库。

进一步地，所述根据患者问诊数据中各词出现的次数及总词数得到患者问诊数据中各词的出现概率，包括：

统计各词在患者问诊数据中出现的次数，记为各词的单一次数，统计患者问诊数据的总词数，将各词的所述单一次数与患者问诊数据中总词数的比值作为各词的出现概率。

进一步地，所述获取患者问诊数据中各词与确诊疾病种类词语共同出现的概率，包括：

统计患者问诊数据中各词语与确诊疾病种类的词语共同出现的次数，记为各词的共有次数，将各词的所述共有次数与单一次数的比值作为各词与确诊疾病种类词语共同出现的概率。

进一步地，所述根据患者每条问诊数据中所述各词的出现概率以及所述共同出现的概率构建词症关联指数，包括：

计算各词的单一次数与确诊疾病种类的词语的单一次数的乘积，计算各词与确诊疾病种类词语共同出现的概率除以所述乘积的比值，将以2为底数的所述比值的对数的计算结果作为各词与确诊疾病种类之间的词症关联指数。

进一步地，所述结合患者问诊数据中各句每个词语与各类病症之间的词症关联指数得到各句对应病症种类的句症关联指数，包括：

对于患者问诊数据中的各句；

计算句中各词的与确诊疾病种类之间的词症关联指数，将句中所有词与第i种确诊疾病种类之间的词症关联指数的均值作为该句的第i个病症种类的句症关联指数。

进一步地，所述通过患者问诊数据中各名词或动词出现的概率构建病症权重共现矩阵，包括：

计算患者问诊数据中各名词或动词的出现概率，将任意两个名词或动词的出现概率的乘积作为病症权重共现矩阵中各元素。

进一步地，所述根据病症权重共现矩阵及病症种类关联共现矩阵各元素之间的关系得到各句对应疾病种类的双词修正指数序列，包括：

对于第i个疾病种类，统计第i个疾病种类的词与患者问诊数据句子中各名词或者动词组成的二元组在病症权重共现矩阵中的元素，计算病症权重共现矩阵中所有所述二元组的元素均值；统计第i个疾病种类的词与患者问诊数据句中各形容词或副词组成的二元组在病症种类关联共现矩阵中的元素，计算病症种类关联共现矩阵中的所有所述元素的均值；

将各句两个均值的乘积作为各句对应的第i个疾病种类的双词修正指数，将各句对应的所有疾病种类的双词修正指数组成双词修正指数序列。

进一步地，所述根据句症关联指数序列和双词修正指数序列得到各句的修正句症关联指数序列，包括：

将句症关联指数序列和双词修正指数序列对应位置元素的乘积作为各句的修正句症关联指数序列的各元素。

进一步地，所述根据患者问诊数据中句子的修正句症关联指数序列结合BERT神经网络模型对患者问诊数据进行分类，包括：

BERT神经网络模型输入是患者问诊数据以及修正句症关联指数序列，输出为患者问诊数据的类别，其中，损失函数采用交叉熵损失函数，优化器采用Adam，患者问诊数据类别包括“呼吸系统疾病”、“循环系统疾病”、“消化系统疾病”、“泌尿生殖系统疾病”、“内分泌系统疾病”、“神经系统疾病”、“免疫系统疾病”。

进一步地，所述结合各患者问诊数据类别更新智慧医疗病患问诊语料库，包括：

定期更新语料库，加入新的患者问诊数据，结合BERT神经网络模型获取新的患者问诊数据类别，不断更新智慧医疗病患问诊语料库。

本发明至少具有如下有益效果：

本发明通过对患者问诊数据进行分析，将数据按照病症种类进行分类以方便后续存储查询等操作。首先为每条问诊数据通过计算每个词与病症种类标签的点间互信息得到其句症关联指数，可以根据患者问诊数据中词的特征对文本进行更精细的分类。然后，通过计算两个词之间的共现矩阵，计算双词修正指数序列，用于修正句症关联指数，由于双词修正指数序列考虑到两个词对病症分类共同作用的情况与现实中一个病症种类对应的多种症状相符，可以更准确的表征其病症的类别特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的一种智慧医疗病患问诊语料库构建方法的流程图；

图2为医疗问诊语料库构建过程示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种智慧医疗病患问诊语料库构建方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种智慧医疗病患问诊语料库构建方法的具体方案。

本发明一个实施例提供的一种智慧医疗病患问诊语料库构建方法，具体的，提供了如下的一种智慧医疗病患问诊语料库构建方法，请参阅图1，该方法包括以下步骤：

步骤S001，获取患者问诊数据，并进行预处理。

在构建医疗患者问诊数据库时，可以借助临床中包含详细疾病描述和诊断结果的医疗记录和电子病历数据等作为原始数据，其中每条问诊记录采用一个确诊的疾病种类作为标签，这里将疾病的种类分为“呼吸系统疾病”、“循环系统疾病”、“消化系统疾病”、“泌尿生殖系统疾病”、“内分泌系统疾病”、“神经系统疾病”、“免疫系统疾病”类，这些数据可以为问诊系统提供有价值的信息。但是，在使用这些数据的过程中，需要注意隐私保护的问题，确保患者信息得到充分保护。为了完成数据库中包含的病症种类，我们也可以从医学权威书籍、研究报告和期刊等渠道获得相关疾病的描述和诊断方法，以提高数据的准确性和可靠性。

在进行文本处理的时候，第一步要做的便是分词。在中文文本分词中，即将句子文本分为一个或多字组成的词，然后在词与词之间加上空格或其他边界标记，其中分词的结果不是唯一的。这里采用中文分词工具jieba对上述文本数据进行分词。需要说明的是，后续均是在医疗问诊数据也即患者问诊数据的基础上进行分析的。

步骤S002：对医疗问诊数据进行分析，提取医疗问诊数据特征。

医学是一个庞大复杂的学科，其中包含多种不同类型的数据。在医疗过程中，医生一般需要详细的对病人的体征和状态进行询问和查询，并对问诊过程进行详细记录。而医疗领域的数据通常包含各种疾病类型、检查报告和诊断结果等相关数据。在将这些数据进行存储时，需要将不同类型的问题进行分类处理，以便后续对数据进行存储和查询等。在对数据进行分类时，一般可以使用特定的深度学习的算法或者方法，以确保不同类型的问题可以被准确的归类。但是由于数据的复杂性，一般的分类模型通常不能很好的将数据进行分类，因此我们在此构建患者问诊数据独有的特征以帮助分类模型进行更好的分类。

1）通过点间互信息（PMI）计算医疗问诊数据中每个词与医生确诊疾病种类之间的词症关联指数。

在分析不同的症状应该归类于哪些数据时，我们可以通过分析在患者问诊数据中哪些词语与最终的疾病种类存在强相关性。这里通过采用点间互信息（PMI）方法进行衡量上述指标，其中点间互信息来源于信息论，主要是衡量两个具体事件关联强度的统计量，值越大表明两件事的关联性越强，值越小，表明两件事的关联性越弱。

这里我们可以通过计算所有患者问诊数据中的每个词与医生确诊的疾病种类之间的点间互信息PMI，具体如下：

A）在计算患者问诊数据中患者自述部分的词与医生确诊的疾病种类之间的点间互信息时，首先需要对患者问诊数据进行去除停用词处理，即去除介词、连词等没有实际意义但是重复率极高的词，这里采用哈工大停用词表进行去停用词操作。

B）获取语料中每个词的概率，词的概率由统计的方式计算，即统计患者问诊数据中的一个词x在整个语料中出现的次数，并除以语料的总词数作为该词在语料中的概率，记作P(x)，如下：

其中，P(x)表示在患者问诊数据中词x的出现概率；Count(x)表示统计词x在患者问诊数据中出现的次数，记为词x的单一次数；表示患者问诊数据的总词数。

同样的，以此方式获取患者问诊数据中每个词的概率，并获取确诊疾病种类的词在患者问诊数据中出现的概率记作P(y)。

最后，计算在患者问诊数据中词x与确诊疾病种类的词y共同出现的概率记作P(x,y)，计算如下：

其中，为患者问诊数据中词x与确诊疾病种类的词y共同出现的次数，记为词x的共有次数，P(x,y)表示患者问诊数据中词x与确诊疾病种类的词y共同出现的概率。

C)计算每个词与确诊疾病种类。

通过计算词x与疾病种类y之间的点间互信息，可以表明x与y之间的相互关系，即患者问诊数据中症状描述与疾病种类之间的相关性，如下。

其中，表示词症关联指数，用于表征患者问诊数据中词x与医生确诊的疾病种类为y之间的点间互信息；表示在患者问诊数据中词x与疾病种类同时出现的概率；P(x)表示患者问诊数据中词x出现的概率；P(y)表示确诊疾病种类的词在患者问诊数据中出现的概率。

当患者问诊数据中的词x与医生确诊疾病种类为y同时出现的概率越高，则表明词 x与疾病y关联性越强。其中log为单调递增函数，当时，患者问诊数据中词x与医生确诊的疾病名称为y之间的点间互信息为0，表示没有相关性。

2）根据患者问诊数据，构建每条问诊数据的句症关联指数序列。

根据患者问诊数据，通过上述步骤1）方法计算每个词与各类病症之间的词症关联指数，从而获取每句话与病症种类之间的句症关联指数，具体如下：

其中，表示当前问诊句子的第i个病症种类的句症关联指数，代表着当前问诊句子与第i个疾病种类之间的关联关系；表示当前问诊句子的总词数；表示当前问诊句子第j个词与第i个疾病种类之间的词症关联指数。以此类推，我们可以获取当前问诊句子与每个疾病种类的句症关联指数，将当前问诊句子的所有句症关联指数组成句症关联指数序列。

3) 构建基于词性的双词共现矩阵。

在进行患者问诊数据的归类时，由于同一种类的疾病通常会由多个症状引起，单从每个词来判断其疾病的种类显然有所偏差。而在患者问诊数据中进行特征提取时，与疾病名称相关的词有多种，其中名词和动词多与疾病的名字和症状呈现相关性，如：“头痛”、“感冒”、“发烧”、“肺炎”等。而形容词、副词多半为程度词，表明症状的轻重缓急，如：“剧烈的”、“严重的”、“持续的”、“突然”、“反复”等。

为区分患者问诊数据中的词性，这里通过隐马尔可夫HMM词性标注模型为每个词标注词性。通常在病症的描述中，程度词往往代表着发病的可能性，程度越强发病的可能性越高，而疾病的名字往往与疾病的种类有关。对于一条问诊数据，我们分别通过名词和动词构建病症权重共现矩阵，以及通过形容词构建病症种类关联共现矩阵，具体如下：

其中，表示患者问诊数据中的名词或动词的第u个词与第v个词的共现概率，用于表征病症权重共现矩阵中位置的元素；表示一条患者问诊数据中的名词或动词数量；表示在一条患者问诊数据中第u个名词或动词的概率；表示在一条患者问诊数据中第v个名词或动词的概率。其中，。

同样的，本实施例采用病症权重共现矩阵相同的获取方法，结合患者问诊数据中的形容词构建病症种类关联共现矩阵：

其中，表示患者问诊数据中的形容词或副词的第s个词与第t个词的共现概率，用于表征病症种类关联共现矩阵中位置的元素；表示一条患者问诊数据中的形容词或副词数量；表示在一条患者问诊数据中第s个形容词或副词的概率；表示在一条患者问诊数据中第t个形容词或副词的概率。

4）通过步骤3）中的病症权重共现矩阵和病症种类关联共现矩阵，计算句症关联指数序列的双词修正指数序列。双词修正指数表达式具体为：

其中，表示当前问诊句子的第i个的疾病种类的双词修正指数；表示一条患者问诊数据中的名词或动词数量；表示第i个疾病种类的词与患者问诊数据中名词或动词的第v个词的共现概率，用于表征病症权重共现矩阵中位置的元素；表示一条患者问诊数据中的形容词或副词数量；表示第i个疾病种类的词与患者问诊数据中形容词或副词的第v个词的共现概率，用于表征病症种类关联共现矩阵中位置的元素。同理我们可以获取当前问诊句子的其他疾病种类的双词修正指数，从而得到双词修正指数序列。

5）根据句症关联指数序列和双词修正指数序列，为每一条患者问诊数据计算修正句症关联指数序列。

其中，表示当前问诊句子的第i个病症种类的经过双词修正指数修正的修正句症关联指数；表示当前问诊句子的第i个病症种类的句症关联指数；表示当前问诊句子的第i个病症种类的双词修正指数。为方便理解需要说明的是，每条患者问诊数据对应一句患者问诊句子，本实施例不在一一进行解释说明。

至此，我们可以为每条病患问诊句子计算其修正句症关联指数序列，可以分别表示该句子被分为各疾病种类的概率。

步骤S003，根据提取的医疗问诊数据特征进行分类，并构建相关患者问诊数据库。

通过患者问诊数据和上述步骤计算的其对应的修正句症关联指数序列，以及其对应的疾病种类的标签作为训练集，采用BERT+FC模型作为文本分类模型，将患者问诊数据进行分类。

输入是患者问诊数据以及修正句症关联指数序列，经过多层Transformer编码器将每个词转换为对应的向量表示，然后经过一个全连接层（FC）将BERT的输出映射到分类标签上，对输入句子进行分类。其中，在全连接层之前加入修正句症关联指数序列参与模型参数的训练，以调整模型最终的分类结果。其中损失函数采用交叉熵损失函数，优化器采用 Adam。

将训练好的BERT+FC文本分类模型用于将更多的患者问诊数据进行分类，以构建智慧医疗病患问诊语料库，并不断更新语料库。医疗问诊语料库构建过程示意图如图2所示，具体如下：

收集患者问诊数据：与医疗机构合作获取病患问诊语料，并从医学权威书籍期刊等渠道获取相应的病患问诊语料。

指定分类标准：这里将所有疾病分为“呼吸系统疾病”、“循环系统疾病”、“消化系统疾病”、“泌尿生殖系统疾病”、“内分泌系统疾病”、“神经系统疾病”、“免疫系统疾病”7类。

数据标注：将获取的语料通过上述BERT+FC分类模型为每个患者问诊数据标注疾病种类标签。

构建语料库：采用JSON格式将文本数据进行存储，每个样本都包含病患的问诊信息和对应的疾病种类。

持续更新：定期更新语料库，加入新的病例数据，并根据用户反馈和系统评估结果不断更新训练BERT+FC文本分类模型。

其中在处理医疗数据时，要遵守相关的隐私保护法规，并确保数据的安全性和匿名性。

综上所述，本发明实施例通过对患者问诊数据进行分析，将数据按照病症种类进行分类以方便后续存储查询等操作。首先为每条问诊数据通过计算每个词与病症种类标签的点间互信息得到其句症关联指数，可以根据患者问诊数据中词的特征对文本进行更精细的分类。然后，通过计算两个词之间的共现矩阵，计算双词修正指数序列，用于修正句症关联指数，由于双词修正指数序列考虑到两个词对病症分类共同作用的情况与现实中一个病症种类对应的多种症状相符，可以更准确的表征其病症的类别特征。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种智慧医疗病患问诊语料库构建方法，其特征在于，该方法包括以下步骤：

根据患者问诊数据中句子的修正句症关联指数序列结合BERT神经网络模型对患者问诊数据进行分类；结合各患者问诊数据类别更新智慧医疗病患问诊语料库；

所述根据患者每条问诊数据中所述各词的出现概率以及所述共同出现的概率构建词症关联指数，包括：计算各词的单一次数与确诊疾病种类的词语的单一次数的乘积，计算各词与确诊疾病种类词语共同出现的概率除以所述乘积的比值，将以2为底数的所述比值的对数的计算结果作为各词与确诊疾病种类之间的词症关联指数；

所述结合患者问诊数据中各句每个词语与各类病症之间的词症关联指数得到各句对应病症种类的句症关联指数，包括：对于患者问诊数据中的各句；计算句中各词的与确诊疾病种类之间的词症关联指数，将句中所有词与第i种确诊疾病种类之间的词症关联指数的均值作为该句的第i个病症种类的句症关联指数；

所述通过患者问诊数据中各名词或动词出现的概率构建病症权重共现矩阵，包括：计算患者问诊数据中各名词或动词的出现概率，将任意两个名词或动词的出现概率的乘积作为病症权重共现矩阵中各元素；

所述根据病症权重共现矩阵及病症种类关联共现矩阵各元素之间的关系得到各句对应疾病种类的双词修正指数序列，包括：对于第i个疾病种类，统计第i个疾病种类的词与患者问诊数据句子中各名词或者动词组成的二元组在病症权重共现矩阵中的元素，计算病症权重共现矩阵中所有所述二元组的元素均值；统计第i个疾病种类的词与患者问诊数据句中各形容词或副词组成的二元组在病症种类关联共现矩阵中的元素，计算病症种类关联共现矩阵中的所有所述元素的均值；将各句两个均值的乘积作为各句对应的第i个疾病种类的双词修正指数，将各句对应的所有疾病种类的双词修正指数组成双词修正指数序列；

所述根据句症关联指数序列和双词修正指数序列得到各句的修正句症关联指数序列，包括：将句症关联指数序列和双词修正指数序列对应位置元素的乘积作为各句的修正句症关联指数序列的各元素。

2.如权利要求1所述的一种智慧医疗病患问诊语料库构建方法，其特征在于，所述根据患者问诊数据中各词出现的次数及总词数得到患者问诊数据中各词的出现概率，包括：

3.如权利要求2所述的一种智慧医疗病患问诊语料库构建方法，其特征在于，所述获取患者问诊数据中各词与确诊疾病种类词语共同出现的概率，包括：

4.如权利要求1所述的一种智慧医疗病患问诊语料库构建方法，其特征在于，所述根据患者问诊数据中句子的修正句症关联指数序列结合BERT神经网络模型对患者问诊数据进行分类，包括：

5.如权利要求4所述的一种智慧医疗病患问诊语料库构建方法，其特征在于，所述结合各患者问诊数据类别更新智慧医疗病患问诊语料库，包括：