CN112836019B

CN112836019B - 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质

Info

Publication number: CN112836019B
Application number: CN202110195263.2A
Authority: CN
Inventors: 马博; 郭世伟; 马玉鹏; 杨雅婷; 周喜; 王磊
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2023-04-25
Anticipated expiration: 2041-02-19
Also published as: CN112836019A

Abstract

本发明公开了一种公共医疗卫生命名实体识别与实体链接的方法、装置、电子设备以及存储介质，包括：获取多个中文命名实体识别数据集，并训练得到一个群模型；通过实施特定的迁移学习方法得到一个细粒度的命名实体识别模型；抽取面向公共卫生与医疗知识图谱中的实体，并利用实体字符序列构建字典树实体匹配模型；将输入文本的多源字符序列表示输入到上述多种模型中得到识别出的命名实体集合，并将集合中的实体链接到知识图谱中的某一实体项；将所述输入文本的命名实体链接到对应知识图谱。根据本申请的技术既可以保证模型具备较高的识别率，又可以保证模型在较小样本的情况能够快速学习到新的实体类别，提高模型的适应能力。

Description

公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质

技术领域

本发明涉及命名实体识别、实体链接技术领域，尤其涉及一种公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质。

背景技术

近些年随着人工智能的发展，特别是深度学习技术的日益成熟，人工智能在各行各业中发挥越来越重要的作用。对于公共医疗卫生领域，自动化地识别出公共卫生事件中的专有名词和实体名词并链接到相应的知识图谱，以实现这些专有实体名词的自动化释义。对于遏制公众对突发性公共卫生事件的恐慌情绪，识别社交网络中谣言的传播，以及辅助公众对突发性公共卫生事件的理解有着积极作用。此外，解决医疗卫生领域的问题往往需要多部门，多学科的交叉协力。能够自动识别文本中有关专业名词，并自动化加以解释，会加速部门间或学科间的沟通，对于相关部门快速反应公共医疗卫生问题有着积极的作用。而在自动化识别和解释文本中专有名词的技术中，最为核心的是命名实体识别与链接技术。

现有公共医疗卫生命名实体识别与链接技术通常只在一个医疗类数据集上训练得到命名实体识别模型，这样训练出来的模型只能识别少量的实体类别，对于不在训练集中的实体类别将无法识别出来。或者将多个数据集合并成一个大的训练数据集，并在合并后的数据集上直接训练命名实体识别模型，但是由于合并后的数据集包含过多的实体类别，因此模型在识别实体类别时更容易出错，并且不能扩展到其他新的实体类别。

发明内容

本发明目的在于，提供了一种公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质。包括：获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；将所述输入文本的命名实体链接到对应知识图谱。通过多个数据集训练多个实体识别模型可以即保证识别更多类型的实体，又可以实现每个模型仅含有较少类型的实体，保证单个模型有较高的识别率，使用特定的迁移学习方法训练细粒度命名实体识别模型保证模型在较小样本的情况可以快速学习到新的实体类别，提高模型的适应能力。

本发明所述的一种公共医疗卫生命名实体识别与实体链接方法，按下列步骤进行：

a、获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

c、抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

d、获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

e、将所述输入文本的命名实体链接到对应知识图谱。

所述一种公共医疗卫生命名实体识别与实体链接方法，步骤a中所述在多个中文命名实体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集，合并成一个数据集第一集合D＝{d₁,d₂,…,d_M}，其中，M为中文命名实体识别数据集的数量， d₁,d₂,…,d_M表示不同的数据集；利用flat-transformer模型在M个不同中文命名实体识别数据集上进行训练，获得一个中文命名实体识别模型第二集合Q＝{R₁,R₂,…,R_M}，其中，M是中文命名实体识别数据集的数量，R₁,R₂,…,R_M表示训练得到的模型，将所述中文命名实体识别模型第二集合Q确定为所述群模型。

所述一种公共医疗卫生命名实体识别与实体链接方法，步骤b中多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；包括：

确定所述第一集合D中每个中文命名实体识别数据集中实体类型；

将所述每个中文命名实体识别数据集中的实体类型合并，得到一个命名实体类型第三集合T＝{t₁,t₂,…,t_N}，其中，N为所有中文命名实体识别数据集中实体类型的数量，t₁,t₂,…,t_N为实体类型；

将所述命名实体类型第三集合T中相似的实体类型进行合并，得到新命名实体类型第四集合T_new＝{t₁,t₂,…,t_V}，其中，V为合并命名实体类型后的命名实体类型数量，t₁,t₂,…,t_V为新的实体类型；

根据所述新命名实体类型第四集合T_new，从每一个实体类型中抽取c条数据样本，其中， c的取值为1000-2000，对于不足c条样本的实体类型，则抽取所有样本，将抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合D_new；

将所述抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合D_new确定为所述全数据集；

所述全数据集上实施特定的迁移学习方法，包括以下步骤：

步骤1：从所述全数据集中随机抽取i个实体类型；

步骤2：获取i个实体类型的所有样本，得到第六集合S＝{S₁,S₂,…,S_i}，其中，S₁,S₂,…,S_i为各个实体类型所包含的样本；

步骤3：判断样本集第六集合S的大小是否满足大于等于NM，其中，NM为一常数，取值范围3000以上，如果满足则执行后续步骤，否则返回步骤1；

步骤4：利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型；

步骤5：从所述全数据集中再采样一个实体类型j，与已有的i个实体类型合并，得到i+1个实体类型；

步骤6：从实体类型j中抽取少量样本得到第七集合S’，其中少量为几十到200以下；

步骤7：利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss₁，loss₂；

步骤8：根据loss＝loss₁+loss₂训练模型直到近似收敛；

步骤9：重复执行步骤6-8，直到实体类型j中所有样本均被采样参与训练，得到一个i+1 个实体类别的命名实体识别模型；

步骤10：重复执行步骤5-9，直到所有实体类别均被采样参与训练，得到一个包含所述V 个实体类别的命名实体识别模型，其中V为实体类别的数量，并利用V个实体类别的命名实体识别模型初始化步骤4中的flat-transformer参数；

步骤11：重复执行上述所有步骤，直到V个实体类别的命名实体识别模型收敛，确定所述V个实体类别的命名实体识别模型为细粒度命名实体识别模型。

所述一种公共医疗卫生命名实体识别与实体链接方法，步骤c中所述抽取面向公共卫生与医疗知识图谱中的实体，将实体按字符分割得到第一实体字符序列e＝{c₁,c₂,…,c_l}，其中 l表示当前实体中字符的个数，c₁,c₂,…,c_l表示字符；

将所述第一实体字符序列作为实体名词，按照字典树构建的方法构建实体名词树；确定所述实体名词树为所述字典树实体匹配模型。

所述一种公共医疗卫生命名实体识别与实体链接方法，步骤d中所述获取输入文本的多源字符序列表示，将当前输入文本的字符序列分别按照字符和词分割，得到第二字符序列和第一词序列；

将所述第二字符序列和第一词序列输入到预训练词嵌入表中，得到词嵌入向量；

将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示。

将所述当前多源字符序列中的词嵌入向量输入到所述群模型中，并得到由群模型识别出的实体；

将所述当前多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中，并得到匹配出的实体；

将所述当前多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中，并得到由细粒度命名实体识别模型识别出的实体；

将识别或匹配得到的实体合并得到当前输入文本的命名实体集合；

将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公共卫生与医疗知识图谱中相应的实体；

将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱中相应的实体；

将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序列，对于任意一个候选实体第八集合E_i＝{W_i,C_i}，其中，W_i表示第二词序列，C_i表示第三字符序列，i∈[1，n]，n为候选实体的个数；

对于任意一个候选实体第八集合E_i＝{W_i,C_i}，保留只在W_i中出现，很少在W_j中出现的词，得到第三词序列W_i ^new，保留只在C_i中出现的字，很少在第四字符序列C_j中出现的字，得到第五字符序列C_i ^new，对任意一个候选实体得到第九集合E_i ^new＝{W_i ^new,C_i ^new}，其中i，j∈[1，n]且i≠j；将所述当前输入文本按字符和词分割得到第六字符序列C_seq和第四词序列W_seq，分别计算E_i ^new中字符在C_seq中出现的次数，词在W_seq中出现的次数，选择E_i ^new出现次数最大的实体作为最佳候选实体；

将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应的最佳候选实体。

一种公共医疗卫生命名实体识别与实体链接装置，该装置是由群模型训练模块(501)、细粒度实体类型识别模块(502)、实体字典树模块(503)、指称-实体确定模块(504)和链接模块(505)组成，其中：

群模型训练模块(501)，用于获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

细粒度实体类型识别模块(502)，包括：第一确定子模块、相似实体类型合并子模块、全数据集生成子模块；用于将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

实体字典树模块(503)，用于抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

指称-实体确定模块(503)，用于获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

链接模块(504)，用于将所述输入文本的命名实体链接到对应知识图谱。

一种电子设备，包括至少一个多核处理器；至少一个GPU计算卡；以及与所述至少一个多核处理器通信连接的存储器，所述存储器存储有可被所述至少一个多核处理器执行的指令，所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个多核处理器能或所述至少一个GPU计算卡够执行权利要求1-5中任一项所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

根据本公开的一方面，提供了一种公共医疗卫生命名实体识别与实体链接方法，包括以下步骤：

获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

将所述输入文本的命名实体链接到对应知识图谱。

根据本公开的另一方面，提供了一种公共医疗卫生命名实体识别与实体链接装置，该装置包括：

群模型训练模块，用于获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

细粒度实体类型识别模块，用于将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

实体字典树模块，用于抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

指称-实体确定模块，用于获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

链接模块，用于将所述输入文本的命名实体链接到对应知识图谱。

根据本公开的又一方面，提供了一种电子设备，该设备包括：

至少一个多核处理器；至少一个GPU计算卡；以及与所述至少一个多核处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个多核处理器执行的指令，所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个多核处理器能或所述至少一个GPU计算卡够执行本申请实施例中任一项所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请实施例中任一项所述的方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的工作流程图；

图2为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的关于特定迁移学习方法的流程图；

图3为本发明提供的一种公共医疗卫生命名实体识别与实体链接方法的关于实体链接的工作流程图；

图4本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的示例流程示意图；

图5为本发明所提供的一种公共医疗卫生命名实体识别与实体链接装置的结构框图；

图6为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的电子设备及存储介质框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中，下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素；以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例

e、将所述输入文本的命名实体链接到对应知识图谱。

将所述抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合 D_new确定为所述全数据集；

所述全数据集上实施特定的迁移学习方法，包括以下步骤：

步骤1：从所述全数据集中随机抽取i个实体类型；

步骤5：从所述全数据集中再采样一个实体类型j，与已有的i个实体类型合并，得到i+1 个实体类型；

步骤8：根据loss＝loss₁+loss₂训练模型直到近似收敛；

一种公共医疗卫生命名实体识别与实体链接装置，该装置是由群模型训练模块501、细粒度实体类型识别模块502、实体字典树模块503、指称-实体确定模块504和链接模块505组成，其中：

群模型训练模块501，用于获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

细粒度实体类型识别模块502，包括：第一确定子模块、相似实体类型合并子模块、全数据集生成子模块；用于将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

实体字典树模块503，用于抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

指称-实体确定模块504，用于获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

链接模块505，用于将所述输入文本的命名实体链接到对应知识图谱。

图1是流程图，本实施例可适用于将文本中的命名实体识别出链接到知识图谱中对应的实体项上的情况，该方法可以由一种实体识别与链接装置来执行，该装置可以由软件和/或硬件的方式实现，参见图1，本申请实施例提供的实体识别方法包括：

步骤S101、获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型；

在一个实施例中，多个中文命名实体识别数据集可以来源于互联网中所有公开可获取的数据集，群模型是flat-transformer在多个不同数据集上获得的多个不同模型的集合；

示例性地，多个中文命名实体识别数据集可以是：Resume数据集、CCKS中文医学命名实体识别数据集；

步骤S102、将所述多个中文命名实体识别数据集合并成一个全数据集，在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

在一个实施例中，全数据集可以由多个中文命名实体识别数据集合并得到；其中合并主要通过查找多个数据集中不同的实体类型，合并不同数据集中不同实体类型到一个更大的数据集中。示例性地，可以将数据集A中的地点类型实体和数据集B中的病毒名称类实体合并到数据集C中；

在一个实施例中，细粒度命名实体识别模型可以识别二十种以上的实体类型；

示例性地，细粒度命名实体识别模型可以是包含较多专业医学类实体类型的实体识别模型，如：病毒，医疗检查；

图2是本申请实施例提供的另一种实体识别方法的流程图。本方案是在上述方案的基础上，对步骤实施特定的迁移学习方法的进一步说明；参见图2，本方案提供的方法包括步骤：

步骤S201：从所述全数据集中以概率随机抽取i个实体类型，其中x-μ表示实体类型的相关系数，若两个实体相关度sim(x，y)越大，则(x-μ)²越小；

步骤S202：获取i个实体类型的所有样本，S＝{S₁,S₂,…,S_i}，其中，S₁,S₂,…,S_i为各实体类型包含的样本；

步骤S203：判断样本集S的大小是否满足大于等于NM，其中，NM为一常数，取值范围3000以上，如果满足则执行后续步骤，否则返回步骤S201；

步骤S204：利用样本集S和flat-transformer训练得到一个命名实体识别模型；

步骤S205：从所述全数据集中以均匀分布再采样一个实体类型j，与已有的i个实体类型合并，得到i+1个实体类型；

步骤S206：从实体类型j中抽取少量样本S’，其中少量为几十到200以下；

步骤S207：利用步骤S204得到的模型计算S和S’的损失和其中D为已有的i个实体类型的数据样本，D′为新的实体类型的数据样本。

步骤S208：根据训练模型直到近似收敛；

步骤S209：重复执行步骤S206-S208，直到实体类型j中所有样本均被采样参与训练，得到一个i+1个实体类别的命名实体识别模型；

步骤S210：重复执行步骤S205-S209，直到所有实体类别均被采样参与训练，得到一个V 个实体类别的命名实体识别模型，其中V为实体类别的数量，并利用V个实体类别的命名实体识别模型初始化步骤S204中的flat-transformer参数；

步骤S211：重复执行上述所有步骤，直到V个实体类别的命名实体识别模型收敛，确定 V个实体类别的命名实体识别模型为细粒度命名实体识别模型；

步骤S103、抽取面向公共卫生与医疗知识图谱中的实体，并利用抽取实体的字符序列构建字典树实体匹配模型；

示例性地，所述抽取面向公共卫生与医疗知识图谱中的实体可以是知识图谱中的病毒名称，医疗器械，预防措施；

步骤S104、获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到命名实体识别模型中得到命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

在一个实施例中，获取的输入文本的多源字符序列表示，包括：

输入文本按字分割的序列，以及对应的字嵌入向量序列E_embedding(c₁,c₂,…,c_n)；

输入文本按词分割的序列，以及对应的词嵌入向量序列E_embedding(w₁,w₂,…,w_m)；

在一个实施例中，命名实体识别模型包括群模型、细粒度命名实体识别模型以及字典树实体匹配模型；

其中输入文本的字序列被输入到字典树实体匹配模型中，字词向量被输入到群模型和细粒度命名实体识别模型中。

图3是本申请实施例提供的另一种实体识别与实体链接方法的流程图，本方案是在上述方案的基础上，对步骤将命名实体集合中的实体链接到对应知识图谱中的某一实体项的进一步说明，参见图3，本方案提供的实体链接方法包括：

步骤S301将候选实体的描述文本分别按照字和词分割；

步骤S302将输入文本分别按字符和词分割；

步骤S303计算输入文本和候选实体描述文本的字词共现率；

步骤S304确定共现率最高的候选实体为链接目标实体。

本申请实施例的技术方案，通过利用字词共现率实现对重名实体的链接，因为医疗领域的知识图谱中的实体一般具有较强的唯一性，通过字词共现率可以在很大程度上完成对重名实体的链接，同时保证简单的模型结构和较快的速度；

步骤S105、将所述输入文本的命名实体链接到对应知识图谱；

示例性地，参见图4，医疗知识图谱和通用百科知识图谱作为目标知识图谱；

继续参见图4，该示例中的实体识别与链接过程可以描述为：字词嵌入层，转换文本中的字词为固定大小的嵌入向量；基于群模型的实体识别层，将字词向量输入群模型识别文本中的第一实体401；基于细粒度命名实体识别模型的实体识别层，将字词向量输入细粒度命名实体识别模型识别文本中的第二实体402；基于字典树实体匹配的实体识别层，利用字典树匹配文本中的第三实体403；实体连接层，对于非医学类命名实体，利用字词贡献率将实体链接至百科类知识图谱上对应实体项；对于医学类命名实体，利用字词贡献率将实体链接至医疗类知识图谱上对应实体项；根据所述第一实体401、所述第二实体402、第三实体403，获得文本中的实体并链接至知识图谱中相应的实体上。

图5是本申请实施例提供的一种公共医疗卫生实体识别与实体链接装置的结构示意图，如图5所示，本实施例提供的装置包括：

细粒度实体类型识别模块502，用于将多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；

指称-实体确定模块504，用于获取输入文本的多源字符序列表示，将多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项；

链接模块505，用于将输入文本的命名实体链接到对应知识图谱。

其中，群模型训练模块501，包括：

多源数据集合并子模块，用于收集多个不同来源的中文命名实体识别数据集，合并成一个数据集集合；

第一训练子模块，用于利用flat-transformer模型在不同中文命名实体识别数据集上进行训练，获得多个中文命名实体识别模型；

细粒度实体类型识别模块502，包括：

第一确定子模块，用于确定每一个中文命名实体识别数据集中实体类型；

实体类型合并子模块，用于将每一个中文命名实体识别数据集中不同实体类型合并，得到一个新的命名实体类型集合；

相似实体类型合并子模块，用于将所述新的命名实体类型集合中相似的实体类型进行合并；

全数据集生成子模块，用来从合并后的命名实体类型集合中根据每一个实体类型抽取数据样本，将抽取的所有实体类型对应的样本组合成一个新的数据集；

迁移学习子模块，用于实施一个迁移学习方法，每次在训练时先随机采样几个实体类型训练直到模型收敛，然后再采样一个新的实体类型且每次只抽取少量样本继续训练模型直到收敛，继续采样新的实体以相同方式训练直到所有实体类型都被采样，反复执行上述过程直到模型收敛。

实体字典树模块503，包括：

知识图谱实体抽取子模块，用于抽取面向公共卫生与医疗知识图谱中的实体，将实体按字符分割得到实体字符序列；

实体名词匹配子模块，用于将实体字符序列作为实体名词，按照字典树构建的方法构建实体名词树；

指称-实体确定模块504，包括：

输入文本表示子模块，用于将当前输入文本的字符序列分别按照字符和词分割，得到字符序列和词序列，将字符序列和词序列输入到预训练词嵌入表中，得到词嵌入向量，将词嵌入向量和字符序列确定为所述多源字符序列表示；

第二确定子模块，用于将当前多源字符序列中的词嵌入向量输入到所述群模型中，并得到由群模型识别出的实体，将当前多源字符序列表示中的字符序列输入到所述字典树实体匹配模型中，并得到匹配出的实体，将当前多源字符序列中的词嵌入向量输入到细粒度命名实体识别模型中，并得到由细粒度命名实体识别模型识别出的实体，将上述识别或匹配得到的实体合并得到当前输入文本的命名实体集合；

第三确定子模块，用于将当前输入文本的实体集合中由字典树实体匹配模型得到的实体链接至面向公共卫生与医疗知识图谱中相应的实体，将当前输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱中相应的实体。

第四确定子模块，对于重名候选实体，统计输入文本和候选实体描述文本的字词共现率，选择共现率最大的实体作为最佳候选实体。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质；

如图6所示，是根据本申请实施例的一种公共医疗卫生命名实体识别与链接方法的电子设备的框图，电子设备指各种各样的现代电子数字计算机，包括如：个人计算机、便携式计算机、各种服务器设备。本文所示的构件及其互联关系和功能仅作为示例；

如图6所示，所述电子设备包括：一个或多个多核处理器601、一个或多个GPU计算卡 602、存储器603，为使电子设备产生交互，还应包括：输入设备604、输出设备605。各种设备之间通过总线进行互联通信；

存储器603即为本申请所提供的非瞬时计算机可读存储介质，其中，所述存储器存储有可由至少一个多核处理器或至少一个GPU计算卡执行的指令，以使本申请所提供的实体识别与链接方法被执行；本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的实体识别与链接方法；

输入设备604，提供并接受用户输入到电子设备中的控制信号，包括产生数字或字符信息的键盘以及用来控制设备产生其他关键信号的鼠标，输出设备605提供用户电子设备的反馈信息，包括打印执行结果或过程的显示器。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种公共医疗卫生命名实体识别与实体链接方法，其特征在于，按下列步骤进行：

a、获取多个中文命名实体识别数据集，并在多个中文命名实体识别数据集上训练得到一个群模型，所述在多个中文命名实体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集，合并成一个数据集第一集合D＝{d₁,d₂,…,d_M}，其中，M为中文命名实体识别数据集的数量，d₁,d₂,…,d_M表示不同的数据集；利用flat-transformer模型在M个不同中文命名实体识别数据集上进行训练，获得一个中文命名实体识别模型第二集合Q＝{R₁,R₂,…,R_M}，其中，M是中文命名实体识别数据集的数量，R₁,R₂,…,R_M表示训练得到的模型，将所述中文命名实体识别模型第二集合Q确定为所述群模型；

b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型，所述多个中文命名实体识别数据集合并成一个全数据集，在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型；包括：

根据所述新命名实体类型第四集合T_new，从每一个实体类型中抽取c条数据样本，其中，c的取值为1000-2000，对于不足c条样本的实体类型，则抽取所有样本，将抽取的所有第四集合T_new中实体类型对应的样本组合成一个新的数据集第五集合D_new；

所述全数据集上实施特定的迁移学习方法，包括以下步骤：

步骤1：从所述全数据集中随机抽取i个实体类型；

步骤8：根据loss＝loss₁+loss₂训练模型直到近似收敛；

步骤9：重复执行步骤6-8，直到实体类型j中所有样本均被采样参与训练，得到一个i+1个实体类别的命名实体识别模型；

步骤10：重复执行步骤5-9，直到所有实体类别均被采样参与训练，得到一个包含V个实体类别的命名实体识别模型，其中V为实体类别的数量，并利用V个实体类别的命名实体识别模型初始化步骤4中的flat-transformer参数；

步骤11：重复执行上述所有步骤，直到V个实体类别的命名实体识别模型收敛，确定所述V个实体类别的命名实体识别模型为细粒度命名实体识别模型；

d、获取输入文本的多源字符序列表示，将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合，并将命名实体集合中的实体链接到对应知识图谱中的某一实体项，所述获取输入文本的多源字符序列表示，将当前输入文本的字符序列分别按照字符和词分割，得到第二字符序列和第一词序列；

将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示；

将所述多源字符序列中的词嵌入向量输入到所述群模型中，并得到由群模型识别出的实体；

将所述多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中，并得到匹配出的实体；

将所述多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中，并得到由细粒度命名实体识别模型识别出的实体；

将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应的最佳候选实体；

e、将所述输入文本的命名实体链接到对应知识图谱。

2.根据权利要求1所述一种公共医疗卫生命名实体识别与实体链接方法，其特征在于，步骤c中所述抽取面向公共卫生与医疗知识图谱中的实体，将实体按字符分割得到第一实体字符序列e＝{c₁,c₂,…,c_l}，其中l表示当前实体中字符的个数，c₁,c₂,…,c_l表示字符；将所述第一实体字符序列作为实体名词，按照字典树构建的方法构建实体名词树；确定所述实体名词树为所述字典树实体匹配模型。

3.一种执行权利要求1-2任一项所述方法的公共医疗卫生命名实体识别与实体链接装置，其特征在于，该装置是由群模型训练模块(501)、细粒度实体类型识别模块(502)、实体字典树模块(503)、指称-实体确定模块(504)和链接模块(505)组成，其中：

4.一种电子设备，包括至少一个多核处理器；至少一个GPU计算卡；以及与所述至少一个多核处理器通信连接的存储器，其特征在于，所述存储器存储有可被所述至少一个多核处理器执行的指令，所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行，以使所述至少一个多核处理器能或所述至少一个GPU计算卡够执行权利要求1-2中任一项所述的方法。

5.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-2中任一项所述的方法。