CN113724819A

CN113724819A - 医疗命名实体识别模型的训练方法、装置、设备及介质

Info

Publication number: CN113724819A
Application number: CN202111014588.2A
Authority: CN
Inventors: 莫智文
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-30
Anticipated expiration: 2041-08-31
Also published as: CN113724819B

Abstract

本申请为人工智能及数字医疗技术领域，本申请提供了一种医疗命名实体识别模型的训练方法、装置、设备及介质，其中，所述方法包括：利用预先生成的词典对获取的文本信息进行实体标注，得到第一实体及第一实体类别，并生成参考标注结果；将文本信息及参考标注结果发送给审核端，并接收审核端对第一实体及第一实体类别进行修订后的第二实体及第二实体类别，并生成训练集；将文本信息及训练集输入医疗命名实体识别模型中进行训练；当确定目标训练结果满足要求时，完成医疗命名实体识别模型的训练。本申请通过词典标注及修订的结合方式，在确保准确率的同时，提高了标注的效率，进而提高医疗命名实体识别模型的训练效率。

Description

医疗命名实体识别模型的训练方法、装置、设备及介质

技术领域

本申请涉及人工智能及数字医疗技术领域，具体而言，本申请涉及一种医疗命名实体识别模型的训练方法、装置、设备及介质。

背景技术

命名实体识别技术是自然语言处理的重要领域之一，命名实体识别技术是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中实体的边界和类别。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

随着神经网络的发展，可通过医疗命名实体识别模型对电子病历的实体进行识别，但现有对医疗命名实体识别模型进行训练时，一般都要通过人工标注电子病历的实体，以生成训练集，利用训练集对医疗命名实体识别模型进行训练，训练效率较低。

发明内容

本申请的主要目的为提供一种医疗命名实体识别模型的训练方法、装置、设备及介质，以提高医疗命名实体识别模型的训练效率。

为了实现上述发明目的，本申请提供一种医疗命名实体识别模型的训练方法，所述医疗命名实体识别模型包括CRF层，其训练方法包括以下步骤：

获取电子病历的文本信息，利用预先生成的词典对所述文本信息进行实体标注，得到所述词典标注的第一实体及所述第一实体对应的第一实体类别，并根据所述第一实体及第一实体类别生成参考标注结果；

将所述文本信息及参考标注结果发送给审核端，并接收所述审核端对所述第一实体及第一实体类别进行修订后的第二实体及所述第二实体对应的第二实体类别；

根据所述第二实体及第二实体类别生成训练集；

将所述文本信息及训练集输入医疗命名实体识别模型中进行训练；

获取所述医疗命名实体识别模型每次训练后的目标训练结果；其中，所述CRF层用于根据预设筛选规则对所述医疗命名实体识别模型每次训练后的训练结果进行筛选，得到目标训练结果；

判断所述目标训练结果是否满足要求；

当确定所述目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。

优选地，所述利用预先生成的词典对所述文本信息进行实体标注，包括：

将所述文本信息按照不同划分方式划分为多个词；

利用所述词典对所述多个词进行筛选，从所述多个词中筛选出所述词典中含有的目标实体，并计算所述目标实体的字符串长度；

在确定所述文本信息同一位置的第一实体时，将不同划分方式下对应字符串长度最长的目标实体作为所述文本信息的第一实体。

优选地，所述医疗命名实体识别模型还包括BERT层及BiLSTM层，所述将所述文本信息及训练集输入医疗命名实体识别模型中进行训练，包括：

将所述文本信息按照语句顺序切分成多个字，将所述多个字分别转换成第一向量；

将所述第一向量输入所述BERT层中，得到第一向量对应的第二向量；

将所述第二向量输入所述BiLSTM层中，输出所述第二向量对应的类别及每个类别对应的分数；

将所述第二向量对应的类别及每个类别对应的分数输入所述CRF层中，筛选出分数最高的类别作为所述第二向量对应的目标类别，将所述目标类别作为目标训练结果。

优选地，所述判断所述目标训练结果是否满足要求，包括：

查询所述第二向量在所述训练集中对应的第二实体类别，得到第二目标实体类别；

逐一比较第二实体类别与第二目标实体类别，计算所述第二实体类别与所述第二目标实体类别相一致的比例，判断所述比例是否大于预设比例；

若是，则判定所述目标训练结果满足要求。

优选地，所述逐一比较第二实体类别与第二目标实体类别，包括：

利用预先训练好的Word2Vec词向量模型将所述第二目标实体类别及所述目标类别分别转换成词向量；

计算所述第二目标实体类别的词向量与所述目标类别的词向量的余弦距离；

判断所述余弦距离是否大于预设阈值；

若是，则判定所述第二目标实体类别与所述目标类别一致。

进一步地，所述利用预先生成的词典对所述文本信息进行实体标注之前，还包括：

从公开的数据集中收集电子病历文本作为原始文本；

对所述原始文本进行预处理，对预处理后的所述原始文本进行实体标注，生成所述词典；其中，所述预处理包括去除所述原始文本的停用字和无用符号。

优选地，所述获取电子病历的文本信息，包括：

通过爬虫工具获取医疗网站的知识数据；

从所述知识数据中筛选出电子病历，形成所述电子病历的文本信息。

本申请还提供一种医疗命名实体识别模型的训练装置，所述医疗命名实体识别模型包括CRF层，训练装置包括：

标注模块，用于获取电子病历的文本信息，利用预先生成的词典对所述文本信息进行实体标注，得到所述词典标注的第一实体及所述第一实体对应的第一实体类别，并根据所述第一实体及第一实体类别生成参考标注结果；

发送模块，用于将所述文本信息及参考标注结果发送给审核端，并接收所述审核端对所述第一实体及第一实体类别进行修订后的第二实体及所述第二实体对应的第二实体类别；

生成模块，用于根据所述第二实体及第二实体类别生成训练集；

训练模块，用于将所述文本信息及训练集输入医疗命名实体识别模型中进行训练；

获取模块，用于获取所述医疗命名实体识别模型每次训练后的目标训练结果；其中，所述CRF层用于根据预设筛选规则对所述医疗命名实体识别模型每次训练后的训练结果进行筛选，得到目标训练结果；

判断模块，用于判断所述目标训练结果是否满足要求；

完成模块，用于当确定所述目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本申请所提供的一种医疗命名实体识别模型的训练方法、装置、设备及介质，通过获取电子病历的文本信息，利用预先生成的词典对文本信息进行实体标注，得到词典标注的第一实体及第一实体对应的第一实体类别，并根据第一实体及第一实体类别生成参考标注结果；将文本信息及参考标注结果发送给审核端，并接收审核端对第一实体及第一实体类别进行修订后的第二实体及第二实体对应的第二实体类别；根据第二实体及第二实体类别生成训练集；将文本信息及训练集输入医疗命名实体识别模型中进行训练；获取医疗命名实体识别模型每次训练后的目标训练结果；判断目标训练结果是否满足要求；当确定目标训练结果满足要求时，完成医疗命名实体识别模型的训练。本申请利用预先生成的词典对文本信息进行自动标注，并对词典自动标注的文本信息进行修订，由于预先通过自动标注的方式，减少了修订的处理量，因此通过词典标注及修订的结合方式，在确保准确率的同时，提高了标注的效率，进而提高医疗命名实体识别模型的训练效率；并经过CRF层对每次训练后的训练结果进行筛选，确保筛选得到的目标训练结果的准确性，也减少后续需要判断的训练结果的数量，提高处理效率。

附图说明

图1为本申请一实施例的医疗命名实体识别模型的训练方法的流程示意图；

图2为本申请一实施例的医疗命名实体识别模型的训练装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例可以基于人工智能及数字医疗技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

参考图1，本申请提出一种医疗命名实体识别模型的训练方法，以服务器为执行主体，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请中，该医疗命名实体识别模型的训练方法用于解决当前医疗命名实体识别模型的训练方式，需要通过人工标注电子病历的实体，以生成训练集，利用训练集对医疗命名实体识别模型进行训练，训练效率较低的技术问题，参照图1，其中一个实施例中，所述医疗命名实体识别模型包括CRF层，该医疗命名实体识别模型的训练方法包括如下步骤：

S11、获取电子病历的文本信息，利用预先生成的词典对所述文本信息进行实体标注，得到所述词典标注的第一实体及所述第一实体对应的第一实体类别，并根据所述第一实体及第一实体类别生成参考标注结果；

S12、将所述文本信息及参考标注结果发送给审核端，并接收所述审核端对所述第一实体及第一实体类别进行修订后的第二实体及所述第二实体对应的第二实体类别；

S13、根据所述第二实体及第二实体类别生成训练集；

S14、将所述文本信息及训练集输入医疗命名实体识别模型中进行训练；

S15、获取所述医疗命名实体识别模型每次训练后的目标训练结果；其中，所述CRF层用于根据预设筛选规则对所述医疗命名实体识别模型每次训练后的训练结果进行筛选，得到目标训练结果；

S16、判断所述目标训练结果是否满足要求；

S17、当确定所述目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。

如上述步骤S11所述，医疗命名实体识别又称作专名识别，是自然语言处理中常见的一项任务，用于对医学领域中的实体进行识别。医疗命名实体通常指的是文本中具有特别意义或者指代性非常强的实体，通常包括疾病名称、身体部位、症状及检验名称等。

本步骤获取电子病历的文本信息，文本信息中记录有病人的身份信息、诊断疾病、治疗方式等等。其中，获取的电子病历的文本信息需要通过数据脱敏,这些电子病历的文本信息是无标注的,即没有标注文本信息中实体及实体类型。因此，还需从网络上获取ICD-10国际疾病分类的第一词典,并从医院获取含有一些疾病名称、检验名称等信息的第二词典，将第一词典及第二词典合并后生成词典，利用该词典对文本信息进行实体标注，即标注出文本信息的所有医疗命名实体，包括对医疗命名实体的标注及医疗命名实体类别的标注，最终得到词典标注的第一实体及该第一实体所对应的第一实体类别。其中，标注的第一实体可包括:疾病名称、身体部位、症状及检验名称4种；第一实体类型包括疾病类型、症状类型、检验类型等等。例如，可按照该词典确定文本信息中哪些是诊断疾病的实体，哪些是身体部位的实体，以利用词典标注出文本信息中所有的医疗命名实体，得到第一实体。

其中，本实施例可采集AI平台相关数据，包含模型相关数据、API(ApplicationProgram Interface，应用程序接口)数据、SDK(Software Development Kit，软件开发工具包)数据、医生数据、医疗数据、疾病数据等等，然后将采集的所有数据作为样本数据，从样本数据中筛选出电子病历。

在一实施例中，所述样本数据可存储在医疗云(Medical cloud)，医疗云是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

如上述步骤S12所述，由于词典无法涵盖所有的医学领域的实体，尤其对于一些别名，则无法准确标注出其实体，因此词典标注时会出现错误的情况，因此还需要对文本信息中词典标注的参考标注结果进行修订。其中，参考标注结果包括第一实体及第一实体类别。

具体的，本步骤将词典标注的参考标注结果发送给审核端，可以由审核端的标注人员对词典标注的第一实体及第一实体类别进行人工修订，或审核端基于预先构建的审核标准表对第一实体及第一实体类别进行修订，该审核标准表记录有属于实体的要求，如实体中不能包括标点符号、语气词或副词等等。由于经过了词典标注，因此审核端修订的处理量较少，标注的效率也较高。其中，参考标注结果中包括了文本信息已词典标注出的第一实体及对应该第一实体的第一实体类别，并通过修订的方式，对词典标注的第一实体及对应的第一实体类别进行修订，得到修订后的文本信息的第二实体及第二实体类别。例如，将词典标注的第一实体A1及对应的第一实体类别B1发送给审核端，由审核端的标注人员对第一实体A1及第一实体类别B1进行人工修订，若检测到词典标注的第一实体A1存在错误，正确的第一实体为A2，则对第一实体A1进行人工修订，得到第二实体A2,而第一实体类别B1不存在错误，则直接将第一实体类别B1作为第二实体类别B2，最后得到第二实体A2及第二实体类别B2，并生成人工修订的标注结果；其中，标注结果中包括人工标注的第二实体及对应的第二实体类别。

如上述步骤S13所述，本步骤将第二实体及第二实体类别进行打包，生成训练集，以后续利用训练集对医疗命名实体识别模型进行训练。其中，第二实体及第二实体类别的数据量越多，则对医疗命名实体识别模型的训练效果越好，因此需要确保足够多的第二实体及第二实体类别。

如上述步骤S14-S17所述，本实施例将文本信息及训练集输入医疗命名实体识别模型中进行训练，并获取医疗命名实体识别模型每次训练后的训练结果，利用CRF层根据预设筛选规则对每次训练后的训练结果进一步筛选，筛选得到目标训练结果，判断目标训练结果是否满足要求，当确定目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。其中，预设筛选规则可包括筛选出每次训练时间最短的训练结果。

具体的，可构建损失函数，将训练集的第二实体类别输入至损失函数中，计算医疗命名实体识别模型每次训练后的损失值，并设定一个标准值作为设定阈值，通过将医疗命名实体识别模型每次训练后的损失值与设定阈值进行比较，若该损失值大于或等于设定阈值，就对医疗命名实体识别模型进行参数调整后，迭代训练下一轮，直至损失值小于设定阈值时为止，即认为医疗命名实体识别模型输出的结果是最优解，完成所述医疗命名实体识别模型的训练，得到训练合格的医疗命名实体识别模型，该医疗命名实体识别模型用于对文本信息进行医疗命名实体识别。

本申请所提供的一种医疗命名实体识别模型的训练方法，通过获取电子病历的文本信息，利用预先生成的词典对文本信息进行实体标注，得到词典标注的第一实体及第一实体对应的第一实体类别，并根据第一实体及第一实体类别生成参考标注结果；将文本信息及参考标注结果发送给审核端，并接收审核端对第一实体及第一实体类别进行修订后的第二实体及第二实体对应的第二实体类别；根据第二实体及第二实体类别生成训练集；将文本信息及训练集输入医疗命名实体识别模型中进行训练；获取医疗命名实体识别模型每次训练后的目标训练结果；判断目标训练结果是否满足要求；当确定目标训练结果满足要求时，完成医疗命名实体识别模型的训练。本申请利用预先生成的词典对文本信息进行自动标注，并对词典自动标注的文本信息进行修订，由于预先通过自动标注的方式，减少了修订的处理量，因此通过词典标注及修订的结合方式，在确保准确率的同时，提高了标注的效率，进而提高医疗命名实体识别模型的训练效率；并经过CRF层对每次训练后的训练结果进行筛选，确保筛选得到的目标训练结果的准确性，也减少后续需要判断的训练结果的数量，提高处理效率。

在一实施例中，在步骤S11中，所述利用预先生成的词典对所述文本信息进行实体标注，可具体包括：

S111、将所述文本信息按照不同划分方式划分为多个词；

S112、利用所述词典对所述多个词进行筛选，从所述多个词中筛选出所述词典中含有的目标实体，并计算所述目标实体的字符串长度；

S113、在确定所述文本信息同一位置的第一实体时，将不同划分方式下对应字符串长度最长的目标实体作为所述文本信息的第一实体。

如上述步骤S111所述，本步骤可先用词典对文本信息进行词典标注,词典标注的时候采用最大长度匹配算法。具体的，可将文本信息按照不同划分方式划分为多个词，划分方式包括：按照文本信息的语句顺序，并结合文本信息中各个词的词性对文本信息的词进行划分，得到多个词；或基于预设字段长度，将文本信息划分为相同预设字段长度的多个词；亦或对文本信息经过基本的预处理后，提取文本信息中的段信息，将每一段视为一个基本的文本块，对文本块做统计分析，根据块大小分布或预定义的块比率对文本信息进行块划分，得到多个词。

如上述步骤S112所述，可利用预先生成的词典对所述文本信息在不同划分方式下的所有词进行筛选，筛选出所述词典中才含有的词，将词典中才含有的词作为目标实体，并计算目标实体的字符串长度。其中，计算目标实体的字符串长度时，可以使用库函数strlen()，strlen声明在string.h中，原型为intstrlen(char*str)，功能为求目标实体的字符串长度，并返回目标实体的字符串长度。

如上述步骤S113所述，在确定文本信息同一位置的第一实体时，遍历不同划分方式下对应目标实体的字符串长度，将经过划分后，目标实体的字符串长度最长的划分方式作为该目标实体的最优划分方式，并将该目标实体作为所述文本信息的第一实体。例如，划分方式可包括采用不同的词典对文本信息进行实体标注，如文本信息为“当人们过度使用手机时，就会出现三手病”，对于文本信息中“就会出现三手病”这一位置，可能有包含“手”的词典,还有包含“三手病”的词典，假设先经过包含“手”的词典。当人们过度使用鼠标时，就会出现三手病[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B-身体,O,O]，然后再经过包含“三手病”的词典进行标注，当人们过度使用鼠标时，就会出现三手病，[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B-疾病,I-疾病,I-疾病,O]，由于“三手病”的字符串长度大于“手”的字符串长度，因此将“三手病”作为文本信息的第一实体。

在一实施例中，所述医疗命名实体识别模型还包括BERT层及BiLSTM层，在步骤S14中，所述将所述文本信息及训练集输入医疗命名实体识别模型中进行训练，可具体包括：

S141、将所述文本信息按照语句顺序切分成多个字，将所述多个字分别转换成第一向量；

S142、将所述第一向量输入所述BERT层中，得到第一向量对应的第二向量；

S143、将所述第二向量输入所述BiLSTM层中，输出所述第二向量对应的类别及每个类别对应的分数；

S144、将所述第二向量对应的类别及每个类别对应的分数输入所述CRF层中，筛选出分数最高的类别作为所述第二向量对应的目标类别，将所述目标类别作为目标训练结果。

其中，BERT层，用于通过Bert预训练模型将文本信息中的每个字转化为低维的向量，即通过双向Transformer的编码器同时获取文本信息的句子前后两个方向上的信息；BiLSTM层，用于提供每一个序列点完整的上下文信息，具体为：BiLSTM层的输入为BERT层输出序列(x1，x2，…，xn)，BiLSTM层用于对句子进行建模，捕获从前到后和从后到前的双向语义依赖，从而有效地结合上下文信息，还可根据上下文信息确定第二向量对应的类别，并计算每个类别对应的分数。CRF层，用于经过CRF有效地考虑序列前后的标签信息，并筛选出分数最高的类别作为所述第二向量对应的目标类别。

本实施例将标注好的训练集输入医疗命名实体识别模型的BERT层进行训练,训练之后传给BiLSTM层+CRF层,预测的最终结果就是类别序列中分数最高的，准确性较高，可以辅助医生诊断病情，节约时间。

具体的，文本信息会先切分成多个字,并在句子开头加上起始表标识[cls],对于文本分类任务，在文本前插入一个[CLS]符号，并将该符号对应的输出向量作为文本信息的语义表示，用于文本分类。此外，还需在每个语句的结尾添加结束标识[sep],对于该任务，除了添加[CLS]符号并将对应的输出作为文本信息的语义表示，还对输入的两句话用一个[SEP]符号作分割，并分别对两句话附加两个不同的文本向量以作区分。

然后将每个字会转成向量，得到第一向量，并经过BERT层训练得到新的向量,得到第二向量，由于BERT层具有很强的语义表征优势,利用BERT层获取语境化的向量来提高实体识别的性能。训练之后将第二向量传给BiLSTM层，输入是嵌入向量，输出表示该字对应各个类别的分数，所有经BiLSTM层输出的分数将作为CRF层的输入，进行学习约束，类别序列中分数最高的类别就是我们预测的最终结果，以提高医疗命名实体识别模型对实体类别的识别结果。

在一实施例中，在步骤S16中，所述判断所述目标训练结果是否满足要求，可具体包括：

S161、查询所述第二向量在所述训练集中对应的第二实体类别，得到第二目标实体类别；

S162、逐一比较第二实体类别与第二目标实体类别，计算所述第二实体类别与所述第二目标实体类别相一致的比例，判断所述比例是否大于预设比例；

S163、若是，则判定所述目标训练结果满足要求。

在本实施例中，将第二向量的实体类别作为第二实体类别，将第二向量对应的目标类别与第二实体类别进行比对，比较每个第二向量对应的目标类别与相应的每个第二实体类别的一致性，计算第二实体类别与第二目标实体类别相一致的比例，在该比例大于预设比例时，则判定目标训练结果满足要求。否则判定目标训练结果不满足要求，需要对医疗命名实体识别模型进行再次训练，直至输出的第二实体类别与第二向量对应的目标类别完全一致为止。

在一实施例中，在步骤S162中，所述逐一比较第二实体类别与第二目标实体类别，可具体包括：

S1621、利用预先训练好的Word2Vec词向量模型将所述第二目标实体类别及所述目标类别分别转换成词向量；

S1622、计算所述第二目标实体类别的词向量与所述目标类别的词向量的余弦距离；

S1623、判断所述余弦距离是否大于预设阈值；

S1624、若是，则判定所述第二目标实体类别与所述目标类别一致。

在本实施例中，第二目标实体类别与所述目标类别都以文字形式进行表示，可利用预先训练好的Word2Vec词向量模型将第二目标实体类别与所述目标类别分别转换成词向量，然后分别计算第二目标实体类别的词向量与所述目标类别的词向量的余弦距离，判断该余弦距离是否大于预设阈值；其中，该预设阈值为0.9。当余弦距离大于预设阈值时，则表明当前第二目标实体类别与目标类别一致，以通过向量比对的方式，提高类别判断的准确性。

其中，Word2Vec词向量模型是从大量文本中学习语义知识的一种模型，采用无监督的方式。其通过训练大量文本，将文本中的词用向量形式表示，这个向量我们称之为词向量，可以通过计算两个词的词向量之间的距离，从而得知两个词之间的联系。

在一实施例中，所述利用预先生成的词典对所述文本信息进行实体标注之前，还可包括：

从公开的数据集中收集电子病历文本作为原始文本；

具体地，本实施例中，原始文本所采用的语料来源于公开的数据集所收集的电子病历文本，统计数据集中所有原始文本中出现的字，并去除停用字、无关符号等，最后对预处理后的原始文本进行人工实体标注，标注出原始文本中的所有实体，并整理成词典。其中，无关符号包括标点符号、数学符号等等。

在一实施例中，所述获取电子病历的文本信息，可具体包括：

通过爬虫工具获取医疗网站的知识数据；

本实施例可通过爬虫工具分别爬取每个医疗网站的知识数据，以获取电子病历，并提取出电子病历的文本信息，得到所述电子病历的文本信息。其中，医疗网站包括医疗健康网站和中文百科医学网站，所述爬虫工具包括Scrapy，是Python开发的一个快速,高层次的屏幕抓取和网站抓取框架，用于抓取网站的页面，并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

参照图2，本申请实施例中还提供一种医疗命名实体识别模型的训练装置，所述医疗命名实体识别模型包括CRF层，训练装置包括：

标注模块11，用于获取电子病历的文本信息，利用预先生成的词典对所述文本信息进行实体标注，得到所述词典标注的第一实体及所述第一实体对应的第一实体类别，并根据所述第一实体及第一实体类别生成参考标注结果；

发送模块12，用于将所述文本信息及参考标注结果发送给审核端，并接收所述审核端对所述第一实体及第一实体类别进行修订后的第二实体及所述第二实体对应的第二实体类别；

生成模块13，用于根据所述第二实体及第二实体类别生成训练集；

训练模块14，用于将所述文本信息及训练集输入医疗命名实体识别模型中进行训练；

获取模块15，用于获取所述医疗命名实体识别模型每次训练后的目标训练结果；其中，所述CRF层用于根据预设筛选规则对所述医疗命名实体识别模型每次训练后的训练结果进行筛选，得到目标训练结果；

判断模块16，用于判断所述目标训练结果是否满足要求；

完成模块17，用于当确定所述目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。

医疗命名实体识别又称作专名识别，是自然语言处理中常见的一项任务，用于对医学领域中的实体进行识别。医疗命名实体通常指的是文本中具有特别意义或者指代性非常强的实体，通常包括疾病名称、身体部位、症状及检验名称等。

本实施例获取电子病历的文本信息，文本信息中记录有病人的身份信息、诊断疾病、治疗方式等等。其中，获取的电子病历的文本信息需要通过数据脱敏,这些电子病历的文本信息是无标注的,即没有标注文本信息中实体及实体类型。因此，还需从网络上获取ICD-10国际疾病分类的第一词典,并从医院获取含有一些疾病名称、检验名称等信息的第二词典，将第一词典及第二词典合并后生成词典，利用该词典对文本信息进行实体标注，即标注出文本信息的所有医疗命名实体，包括对医疗命名实体的标注及医疗命名实体类别的标注，最终得到词典标注的第一实体及该第一实体所对应的第一实体类别。其中，标注的第一实体可包括:疾病名称、身体部位、症状及检验名称4种；第一实体类型包括疾病类型、症状类型、检验类型等等。例如，可按照该词典确定文本信息中哪些是诊断疾病的实体，哪些是身体部位的实体，以利用词典标注出文本信息中所有的医疗命名实体，得到第一实体。

由于词典无法涵盖所有的医学领域的实体，尤其对于一些别名，则无法准确标注出其实体，因此词典标注时会出现错误的情况，因此还需要对文本信息中词典标注的参考标注结果进行修订。其中，参考标注结果包括第一实体及第一实体类别。

具体的，本实施例将词典标注的参考标注结果发送给审核端，可以由审核端的标注人员对词典标注的第一实体及第一实体类别进行修订，或审核端基于预先构建的审核标准表对第一实体及第一实体类别进行修订，该审核标准表记录有属于实体的要求，如实体中不能包括标点符号、语气词或副词等等。由于经过了词典标注，因此审核端修订的处理量较少，标注的效率也较高。其中，参考标注结果中包括了文本信息已词典标注出的第一实体及对应该第一实体的第一实体类别，并通过修订的方式，对词典标注的第一实体及对应的第一实体类别进行修订，得到修订后的文本信息的第二实体及第二实体类别。例如，将词典标注的第一实体A1及对应的第一实体类别B1发送给审核端，由审核端的标注人员对第一实体A1及第一实体类别B1进行人工修订，若检测到词典标注的第一实体A1存在错误，正确的第一实体为A2，则对第一实体A1进行人工修订，得到第二实体A2,而第一实体类别B1不存在错误，则直接将第一实体类别B1作为第二实体类别B2，最后得到第二实体A2及第二实体类别B2，并生成人工修订的标注结果；其中，标注结果中包括人工标注的第二实体及对应的第二实体类别。

此外，将第二实体及第二实体类别进行打包，生成训练集，以后续利用训练集对医疗命名实体识别模型进行训练。其中，第二实体及第二实体类别的数据量越多，则对医疗命名实体识别模型的训练效果越好，因此需要确保足够多的第二实体及第二实体类别。

本实施例将文本信息及训练集输入医疗命名实体识别模型中进行训练，并获取医疗命名实体识别模型每次训练后的目标训练结果，利用CRF层根据预设筛选规则对每次训练后的训练结果进一步筛选，筛选得到目标训练结果，判断目标训练结果是否满足要求，当确定目标训练结果满足要求时，完成所述医疗命名实体识别模型的训练。其中，预设筛选规则可包括筛选出每次训练时间最短的训练结果。

如上所述，可以理解地，本申请中提出的所述医疗命名实体识别模型的训练装置的各组成部分可以实现如上所述医疗命名实体识别模型的训练方法任一项的功能，具体结构不再赘述。

参照图3，本申请实施例中还提供一种计算机设备，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电子病历、参考标注结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗命名实体识别模型的训练方法。

上述处理器执行上述的医疗命名实体识别模型的训练方法，所述医疗命名实体识别模型包括CRF层，训练方法包括：

根据所述第二实体及第二实体类别生成训练集；

判断所述目标训练结果是否满足要求；

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种医疗命名实体识别模型的训练方法，所述医疗命名实体识别模型包括CRF层，训练方法包括步骤：

根据所述第二实体及第二实体类别生成训练集；

判断所述目标训练结果是否满足要求；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本申请的最大有益效果在于：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种医疗命名实体识别模型的训练方法，所述医疗命名实体识别模型包括CRF层，其特征在于，训练方法包括：

根据所述第二实体及第二实体类别生成训练集；

判断所述目标训练结果是否满足要求；

2.根据权利要求1所述的方法，其特征在于，所述利用预先生成的词典对所述文本信息进行实体标注，包括：

将所述文本信息按照不同划分方式划分为多个词；

3.根据权利要求1所述的方法，其特征在于，所述医疗命名实体识别模型还包括BERT层及BiLSTM层，所述将所述文本信息及训练集输入医疗命名实体识别模型中进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述判断所述目标训练结果是否满足要求，包括：

若是，则判定所述目标训练结果满足要求。

5.根据权利要求4所述的方法，其特征在于，所述逐一比较第二实体类别与第二目标实体类别，包括：

判断所述余弦距离是否大于预设阈值；

若是，则判定所述第二目标实体类别与所述目标类别一致。

6.根据权利要求1所述的方法，其特征在于，所述利用预先生成的词典对所述文本信息进行实体标注之前，还包括：

从公开的数据集中收集电子病历文本作为原始文本；

7.根据权利要求1所述的方法，其特征在于，所述获取电子病历的文本信息，包括：

通过爬虫工具获取医疗网站的知识数据；

8.一种医疗命名实体识别模型的训练装置，所述医疗命名实体识别模型包括CRF层，其特征在于，训练装置包括：

判断模块，用于判断所述目标训练结果是否满足要求；

9.一种计算机设备，其特征在于，包括：

处理器；

存储器，所述存储器上存储有计算机程序；

所述计算机程序被处理器执行时实现权利要求1至7任一项所述的医疗命名实体识别模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-7任一项所述的医疗命名实体识别模型的训练方法。