CN117195877A

CN117195877A - 一种电子病历的词向量生成方法、系统、设备及存储介质

Info

Publication number: CN117195877A
Application number: CN202311461713.3A
Authority: CN
Inventors: 王晓康; 柳叶; 王坚强
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2023-12-08
Anticipated expiration: 2043-11-06
Also published as: CN117195877B

Abstract

本发明涉及医学病历数据处理的技术领域，具体涉及一种电子病历的词向量生成方法、系统、设备及存储介质，其方法包括：从医疗机构获取若干电子病历并进行预处理，得到标准数据；将所述标准数据输入所述BRET模型中，得到模型词向量；将所述模型词向量输入所述词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；对所述电子病历进行转化处理，得到静态词嵌入向量；获取自适应权重融合策略；基于所述动态词嵌入向量、所述静态词嵌入向量以及所述自适应权重融合策略，得到增强词嵌入向量。本申请具有提升词嵌入向量的信息表达能力的效果。

Description

一种电子病历的词向量生成方法、系统、设备及存储介质

技术领域

本发明涉及医学病历数据处理的技术领域，具体涉及一种电子病历的词向量生成方法、系统、设备及存储介质。

背景技术

电子病历作为医疗机构对门诊、住院患者临床诊疗和指导干预的医疗服务工作记录，其文本信息内蕴含着巨大的潜在价值，是智慧诊疗、临床辅助决策等医学应用的数据基础，但是，电子病历中的文本信息常常是多源异构的并具备一定特殊性，常用的方法很难适用于电子病历中文本信息的处理。

相关技术中，对电子病历的处理通常采用词嵌入向量生成方法，词嵌入向量方法涉及分词和词向量整合等相关内容，常见分词方法有机械分词法、基于N-gram（N元语法）的分词法以及基于HMM（隐马尔可夫模型）的分词法等，而词向量整合则是在分词后对具有相似含义的词语进行标准化的过程，通过规则匹配和计算相似度，即利用工人智慧和已有的规则库，通过计算词语向量之间的相似度，将相似的词向量进行融合。

针对上述相关技术，现有词向量生成方法未考虑到词笔画中丰富的语义信息，无法实现词上下文内容和中文笔画结构信息的有效融合，使得获取的词向量内容不够准确，难以适用于电子病历中词向量的有效生成。

发明内容

本发明要解决的技术问题是使通过电子病历获得的词向量更加准确，本申请提供一种电子病历的词向量生成方法、系统、设备及存储介质。

一种电子病历的词向量生成方法，包括：

从医疗机构获取若干电子病历并进行预处理，得到标准数据；

将所述标准数据输入所述BRET模型中，得到模型词向量；

将所述模型词向量输入所述词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；

对所述电子病历进行转化处理，得到静态词嵌入向量；

获取自适应权重融合策略；

基于所述动态词嵌入向量、所述静态词嵌入向量以及所述自适应权重融合策略，得到增强词嵌入向量。

可选的，从医疗机构获取若干电子病历并进行预处理，得到标准数据包括：

获取头部标识以及尾部标识；

在每份所述电子病历前添加所述头部标识以及将每份所述电子病历中的句号用所述尾部标识替换得到所述标准数据。

可选的，所述将所述模型词向量输入所述词嵌入向量模型，得到不同语义环境下的动态词嵌入向量包括：

获取预设词表；

基于所述预设词表，将所述电子病历中的汉字转换为语料编码；

基于所述语料编码以及转码编码器中的第一规则得到词嵌入向量；

基于所述语料编码以及转码编码器中的第二规则得到位置向量；

基于所述语料编码以及转码编码器中的第三规则得到段落向量；

基于所述词嵌入向量、所述位置向量、所述段落向量以及转换公式，得到注意力信息矩阵；

对所述注意力信息矩阵进行残差连接和正则化，得到词向量矩阵；

基于所述词向量矩阵以及所述词嵌入向量模型，得到不同语义环境下的所述动态词嵌入向量。

可选的，所述对所述电子病历进行转化处理，得到静态词嵌入向量包括：

获取预设的笔画以及所述笔画对应的笔画编号；

基于预设规则，将所述语料划分为汉字和词语；

获取所述汉字和所述词语的排列顺序；

基于所述汉字、所述词语以及所述排列顺序，得到笔画序列；

基于所述笔画序列以及所述笔画编号，得到笔画序列信息；

基于所述笔画序列信息，得到所述静态词嵌入向量。

可选的，所述基于所述笔画序列信息，得到所述静态词嵌入向量包括：

基于所述笔画序列信息，计算笔画向量和上下文词向量之间的相似度；

基于所述笔画序列信息，计算所述词语属于上下文的存在概率；

基于所述相似度、存在概率以及预设损失函数，得到训练结果；

基于所述训练结果，遍历所述笔画序列信息，得到所述静态词嵌入向量。

可选的，所述基于所述动态词嵌入向量、所述静态词嵌入向量以及所述自适应权重融合策略，得到增强词嵌入向量包括：

基于所述自适应权重融合策略，获取所述动态词嵌入向量对应的动态权重以及所述静态词嵌入向量对应的静态权重；

基于所述动态权重、所述静态权重以及融合公式，得到所述增强词嵌入向量。

可选的，所述基于所述动态权重、所述静态权重以及融合公式，得到所述增强词嵌入向量包括：

所述融合公式为：

，其中，/>表示专家，/>表示专家权重也就是所述动态权重和所述静态权重，且/>，/>表示专家结果。/>表示专家网络，/>表示门控网络，所述动态词嵌入向量和所述静态词嵌入向量为专家结果，专家为得到所述动态词嵌入向量和所述静态词嵌入向量的两个模型。

一种电子病历的词向量生成系统，包括：

数据获取模块，用于从医疗机构获取若干电子病历并进行预处理，得到标准数据；

数据处理模块，用于将所述标准数据输入所述BRET模型中，得到词向量；

输出模块，用于将所述模型词向量输入所述词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；

转化模块，用于对所述电子病历进行转化处理，得到静态词嵌入向量；

获取模块，用于获取自适应权重融合策略；

融合模块，用于基于所述动态词嵌入向量、所述静态词嵌入向量以及所述自适应权重融合策略，得到增强词嵌入向量。

本发明还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项一种电子病历的词向量生成方法。

本发明还提出了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上任一项所述的一种电子病历的词向量生成方法。

本发明的有益效果是：通过上下文信息对目标词语赋予含义，同时利用汉字内部笔画结构所蕴含的丰富语义信息融入词嵌入向量生成过程，获取动态和静态信息相融合的词嵌入向量，可以有效提升词嵌入向量的信息表达能力，同时，可以为后续实现人机交互的医学辅助决策提供理论支撑和信息推荐。

附图说明

图1是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图；

图2是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图；

图3是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图；

图4是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图；

图5是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图；

图6是本申请实施例的一种电子病历的词向量生成方法的其中一种实施方式的流程示意图。

具体实施方式

一种电子病历的词向量生成方法，如图1所示，包括：

S100、从医疗机构获取若干电子病历并进行预处理，得到标准数据。

具体的，对电子病历进行预处理目的是清洗、规范和转换电子病历数据，同时将医疗机构中若干份病历分成每一份便于处理。标准数据即为处理后的电子病历，标准数据以便于后续的分析和建模。

S110、将标准数据输入BRET模型中，得到模型词向量。

具体的，BRET（Biomedical Relation Extraction Toolkit）是一个用于生物医学关系抽取的工具包，BRET提供了一系列的工具和功能，可以帮助用户进行生物医学关系抽取的各个步骤，包括数据预处理、特征提取、关系分类等。它提供了一些预训练模型和模型训练的接口，可以根据具体的任务需求进行模型的选择和调整。模型词向量为将标准数据通过BRET模型后得到模型输出结果。

S120、将模型词向量输入词嵌入向量模型，得到不同语义环境下的动态词嵌入向量。

具体的，模型词向量嵌入模型为考虑到一份电子病历中，上下文之间可能存在关联性，因此通过词向量嵌入模型将上下文之间有关联的词向量联系起来，得到动态词嵌入向量。

S130、对电子病历进行转化处理，得到静态词嵌入向量。

具体的，静态词嵌入向量为将从医疗机构获取的电子病历数据化，也就是将电子病历中的文字用数字表示出来，得到静态词嵌入向量。

S140、获取自适应权重融合策略。

具体的，自适应权重融合策略为将动态词嵌入向量和静态词嵌入向量按照一定的预设规则融合起来的方法。

S150、基于动态词嵌入向量、静态词嵌入向量以及自适应权重融合策略，得到增强词嵌入向量。

具体的，增强词嵌入向量由于是融合了动态词嵌入向量和静态词嵌入向量，因此增强词嵌入向量即考虑了文本的上下文语义信息，同时得到的词向量也更加准确。

在本实施例的其中一种实施方式中，如图2，步骤S320即从医疗机构获取若干电子病历并进行预处理，得到标准数据包括：

S200、获取头部标识以及尾部标识。

具体的，医疗机构中存在若干份简历，头部标识用于区分每一份电子简历，尾部标识为用于区分一份电子简历中的每一句话。

S210、在每份电子病历前添加头部标识以及将每份电子病历中的句号用尾部标识替换得到标准数据。

具体的，在每一份电子病历前添加头部标识可以很好的将每一份电子病历区分开，只要当检测到头部标识，就标识后面的数据是一份电子简历，尾部标识替换电子简历中的句号，因此只要检测到尾部标识即可得到此处是一句话的结尾。

在本实施例的其中一种实施方式中，如图3，步骤S120即将模型词向量输入词嵌入向量模型，得到不同语义环境下的动态词嵌入向量包括：

S300、获取预设词表。

具体的，预设词表为根据医疗习惯，将一些特定医疗用语和字区分出来。

S310、基于预设词表，将电子病历中的汉字转换为语料编码。

具体的，从预设设置的预设词表中，将电子病历中的词语和字转化为语料编码，即通过Transformer编码器中的Token Embedding，获得每个单词的词嵌入向量。

S320、基于语料编码以及转码编码器中的第一规则得到词嵌入向量。

具体的，通过Transformer编码器中的Segment Embedding，获得每个句子的词嵌入向量。

S330、基于语料编码以及转码编码器中的第二规则得到位置向量。

具体的，第二规则为通过Transformer编码器中的Positional embedding，利用正余弦函数对每个单词进行位置标记，具体计算公式如下：

,

，

其中，表示单词在句子中的位置，/>是词嵌入向量的维度序号，表示词嵌入向量的维度。通过位置标志，获得与/>维度相同的位置向量。

S340、基于语料编码以及转码编码器中的第三规则得到段落向量。

具体的，第三规则为将向量、/>和/>融合，获得词嵌入向量/>，其具体计算方式如下：

。词嵌入向量/>即为段落向量。

S350、基于词嵌入向量、位置向量、段落向量以及转换公式，得到注意力信息矩阵。

具体的，将词嵌入向量输入，利用辅助矩阵/>、/>和/>获得其对应的三个核心概念/>，/>和/>，用于注意力信息的计算，具体计算公式如下：

；

其中，、/>和/>为已知矩阵，在BRET模型中，辅助矩阵是通过对词嵌入向量进行线性变换得到的。

S360、对注意力信息矩阵进行残差连接和正则化，得到词向量矩阵。

具体的，将获取的，/>，/>，进一步计算融合了电子病历中所有注意力信息的矩阵Attention，具体计算如下：

，

其中，表示/>向量的维度，/>。基于Transformer中的Add&Norm两个操作，进行残差连接和正则化操作，得到关于电子病历的词向量矩阵。

S370、基于词向量矩阵以及词嵌入向量模型，得到不同语义环境下的动态词嵌入向量。

具体的，利用BERT模型中的Marked language model（MLM）和Next sentenceprediction（NSP）两种任务进行并行式训练，以优化参数，使得模型具有较好的上下文信息融合机制，可以轻松捕捉长距离词语的依赖，以确保训练后的句子符合正常的语言表达。

在模型参数修改完成得到优化模型后，将词向量矩阵通过优化完成的模型输出得到动态词嵌入向量。

在本实施例的其中一种实施方式中，如图4，步骤S130即对电子病历进行转化处理，得到静态词嵌入向量包括：

S400、获取预设的笔画以及笔画对应的笔画编号。

具体的，预设的笔画为以及笔画对应的笔画编号为将笔画统一为五个基本类别，即横、竖、撇、捺和折，以作为构成汉字的最小单位，并将其编号，“横”对应编号1，“竖”对应编号2，“撇”对应编号3，“捺”对应编号4，“折”对应编号5。将所有的汉字通过这5个编号来表示。

S410、基于预设规则，将语料划分为汉字和词语。

具体的，将一些医疗用语中专用的词语和单独的汉字区分开来，使得词语成为一个整体，预设规则为根据医疗领域使用习惯建立的数据库，可以看成特定医学领域词典。

S420、获取汉字和词语的排列顺序。

S430、基于汉字、词语以及排列顺序，得到笔画序列。

具体的，具体的，针对每一份电子病历，将划分后汉字和词语拆分为笔画，并按照先后顺序，拼接成为一个笔画序列。

S440、基于笔画序列以及笔画编号，得到笔画序列信息。

具体的，将有顺序的笔画序列按照提前设定后的编号，得到笔画序列信息，此时完成了将电子病历数字化的操作。通常在使用的时候，会将笔画序列设置专门的大小为n的滑动窗口显示。

S450、基于笔画序列信息，得到静态词嵌入向量。

具体的，将笔画序列信息通过静态词嵌入向量模型，即可得到静态词嵌入向量。

在本实施例的其中一种实施方式中，如图5，步骤S440即基于笔画序列信息，得到静态词嵌入向量包括：

S500、基于笔画序列信息，计算笔画向量和上下文词向量之间的相似度。

具体的，笔画向量是指书写或绘画过程中，用来描述笔触轨迹的数学表示，它通常用二维向量来表示，在二维平面上记录了笔触的位置和方向信息。对于手写文字或绘画，每一笔都可以被表示为一个序列的笔画向量。每个笔画向量包含了两个关键信息：位置和方向。位置表示笔触在笔画中的具体坐标位置，而方向则表示笔触的运动方向。通过记录和分析一系列的笔画向量，可以还原出整个笔迹的形状和运动轨迹。笔画向量是根据字的笔画和笔画顺序生成的。

具体的，基于上述笔画序列信息，计算笔画向量和上下文词向量之间的相似度，具体计算如下：

；

其中，表示当前词语/>对应的一个/>元笔画向量，/>表示当前词语对应的上下文词语/>的向量。/>表示汉字或词语/>所对应的/>元笔画向量的集合。

将其对应的笔画向量和上下文词向量进行相似度计算。常用的方法包括余弦相似度、欧氏距离等。

S510、基于笔画序列信息，计算词语属于上下文的存在概率。

具体的，存在概率为计算词语属于中心词/>上下文的概率，具体计算公式如下：

；

其中，表示中心词所对应的向量，/>表示词语/>对应的向量，/>表示全体词库。

S520、基于相似度、存在概率以及预设损失函数，得到训练结果。

具体的，设计适用于电子病历文本信息的损失函数，用于进行反向传播以训练神经网络的参数，总体损失函数计算公式如下：

；

其中，和/>表示中心词和上下文，/>表示训练语料库的全部文本，/>表示当前中心词滑窗内的所有词语集合，/>表示/>函数，/>，表示随机选取的词语，称之为负例样本，/>表示负例样本的个数，/>表示负例样例/>按照词频分布进行的采样，其中语料库中出现次数越多的词语越容易被采样到，/>为计算词语/>属于中心词/>上下文的概率的期望值。

训练结果为上述操作和计算后，对静态词嵌入向量模型修改参数，得到优化的静态词嵌入向量模型。

优化静态词向量模型后，可以使模型识别笔画字形的能力更加准确。

S530、基于训练结果，遍历笔画序列信息，得到静态词嵌入向量。

具体的，在优化参数后，将笔画序列信息与已有的数据库中储存的静态词嵌入向量比较，得到笔画序列信息对应的静态词嵌入向量。

在本实施例的其中一种实施方式中，如图6，步骤S440即基于动态词嵌入向量、静态词嵌入向量以及自适应权重融合策略，得到增强词嵌入向量包括：

S600、基于自适应权重融合策略，获取动态词嵌入向量对应的动态权重以及静态词嵌入向量对应的静态权重。

具体的，自适应权重融合策略为将动态词嵌入向量和静态词嵌入向量融合起来得到增强词嵌入向量的规则，动态权重代表动态词嵌入向量在融合中的占比，静态权重为静态词嵌入向量在融合中的占比。

S610、基于动态权重、静态权重以及融合公式，得到增强词嵌入向量。

具体的，将基于上下文的词嵌入向量生成模型和基于笔画的词嵌入向量生成模型视为两个专家，其生成的词嵌入向量视为专家结果，利用自适应权重融合策略，将两类词嵌入向量通过下述公式进行融合，以获得信息增强的增强词嵌入向量。

融合公式为：，其中，/>表示专家，/>表示专家权重，且/>，/>表示专家结果。/>表示专家网络，/>表示门控网络，门控网络/>可以根据输入数据生成一个专家权重的分布，最终输出所有专家结果的信息融合结果。

一种电子病历的词向量生成系统，包括：

数据处理模块，用于将标准数据输入BRET模型中，得到模型词向量；

输出模块，用于将模型词向量输入词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；

转化模块，用于对电子病历进行转化处理，得到静态词嵌入向量；

获取模块，用于获取自适应权重融合策略；

融合模块，用于基于动态词嵌入向量、静态词嵌入向量以及自适应权重融合策略，得到增强词嵌入向量。

本申请实施例还公开一种电子设备，包括存储器、处理器，存储器储存有能够在处理器上运行的计算机程序，处理器加载并执行计算机程序时，采用了一种电子病历的词向量生成方法。

其中，终端设备可以采用台式电脑、笔记本电脑或者云端服务器等计算机设备，并且，终端设备包括但不限于处理器以及存储器，例如，终端设备还可以包括输入输出设备、网络接入设备以及总线等。

其中，处理器可以采用中央处理单元（CPU），当然，根据实际的使用情况，也可以采用其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以采用微处理器或者任何常规的处理器等，本申请对此不做限制。

其中，存储器可以为终端设备的内部存储单元，例如，终端设备的硬盘或者内存，也可以为终端设备的外部存储设备，例如，终端设备上配备的插接式硬盘、智能存储卡（SMC）、安全数字卡（SD）或者闪存卡（FC）等，并且，存储器还可以为终端设备的内部存储单元与外部存储设备的组合，存储器用于存储计算机程序以及终端设备所需的其他程序和数据，存储器还可以用于暂时地存储已经输出或者将要输出的数据，本申请对此不做限制。

其中，通过本终端设备，将上述实施例中的一种电子病历的词向量生成方法存储于终端设备的存储器中，并且，被加载并执行于终端设备的处理器上，方便使用。

本申请实施例还公开一种计算机可读存储介质，并且，计算机可读存储介质存储有计算机程序，其中，计算机程序被处理器执行时，采用了上述实施例中的一种电子病历的词向量生成方法。

其中，计算机程序可以存储于计算机可读介质中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间件形式等，计算机可读介质包括能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM）、随机存取存储器（RAM）、电载波信号、电信信号以及软件分发介质等，需要说明的是，计算机可读介质包括但不限于上述元器件。

其中，通过本计算机可读存储介质，将上述实施例中的一种电子病历的词向量生成方法存储于计算机可读存储介质中，并且，被加载并执行于处理器上，以方便上述方法的存储及应用。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的保护范围限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请中一个或多个实施例旨在涵盖落入本申请的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种电子病历的词向量生成方法，其特征是，包括：

将所述标准数据输入BRET模型中，得到模型词向量；

将所述模型词向量输入词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；

对所述电子病历进行转化处理，得到静态词嵌入向量；

获取自适应权重融合策略；

2.如权利要求1所述的一种电子病历的词向量生成方法，其特征是，从医疗机构获取若干电子病历并进行预处理，得到标准数据包括：

获取头部标识以及尾部标识；

3.如权利要求1所述的一种电子病历的词向量生成方法，其特征是，所述将所述模型词向量输入所述词嵌入向量模型，得到不同语义环境下的动态词嵌入向量包括：

获取预设词表；

4.如权利要求1所述的一种电子病历的词向量生成方法，其特征是，所述对所述电子病历进行转化处理，得到静态词嵌入向量包括：

获取预设的笔画以及所述笔画对应的笔画编号；

基于预设规则，将所述电子病历中的语料划分为汉字和词语；

获取所述汉字和所述词语的排列顺序；

基于所述笔画序列以及所述笔画编号，得到笔画序列信息；

基于所述笔画序列信息，得到所述静态词嵌入向量。

5.如权利要求4所述的一种电子病历的词向量生成方法，其特征是，所述基于所述笔画序列信息，得到所述静态词嵌入向量包括：

6.如权利要求1所述的一种电子病历的词向量生成方法，其特征是，所述基于所述动态词嵌入向量、所述静态词嵌入向量以及所述自适应权重融合策略，得到增强词嵌入向量包括：

7.如权利要求6所述的一种电子病历的词向量生成方法，其特征是，所述基于所述动态权重、所述静态权重以及融合公式，得到所述增强词嵌入向量包括：

所述融合公式为：

，其中，/>表示专家，/>表示专家权重也就是所述动态权重和所述静态权重，且/>，/>表示专家结果，/>表示专家网络，/>表示门控网络，所述动态词嵌入向量和所述静态词嵌入向量为专家结果，专家为得到所述动态词嵌入向量和所述静态词嵌入向量的两个模型。

8.一种电子病历的词向量生成系统，其特征是，包括：

数据处理模块，用于将所述标准数据输入BRET模型中，得到模型词向量；

输出模块，用于将所述词向量输入词嵌入向量模型，得到不同语义环境下的动态词嵌入向量；

获取模块，用于获取自适应权重融合策略；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的方法。

10.一种计算机存储介质，其特征是，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的方法。