CN112836019B - 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 - Google Patents

公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112836019B
CN112836019B CN202110195263.2A CN202110195263A CN112836019B CN 112836019 B CN112836019 B CN 112836019B CN 202110195263 A CN202110195263 A CN 202110195263A CN 112836019 B CN112836019 B CN 112836019B
Authority
CN
China
Prior art keywords
entity
named
model
named entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110195263.2A
Other languages
English (en)
Other versions
CN112836019A (zh
Inventor
马博
郭世伟
马玉鹏
杨雅婷
周喜
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110195263.2A priority Critical patent/CN112836019B/zh
Publication of CN112836019A publication Critical patent/CN112836019A/zh
Application granted granted Critical
Publication of CN112836019B publication Critical patent/CN112836019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种公共医疗卫生命名实体识别与实体链接的方法、装置、电子设备以及存储介质,包括:获取多个中文命名实体识别数据集,并训练得到一个群模型;通过实施特定的迁移学习方法得到一个细粒度的命名实体识别模型;抽取面向公共卫生与医疗知识图谱中的实体,并利用实体字符序列构建字典树实体匹配模型;将输入文本的多源字符序列表示输入到上述多种模型中得到识别出的命名实体集合,并将集合中的实体链接到知识图谱中的某一实体项;将所述输入文本的命名实体链接到对应知识图谱。根据本申请的技术既可以保证模型具备较高的识别率,又可以保证模型在较小样本的情况能够快速学习到新的实体类别,提高模型的适应能力。

Description

公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
技术领域
本发明涉及命名实体识别、实体链接技术领域,尤其涉及一种公共医疗卫生命名实体识 别与实体链接方法、装置、电子设备及存储介质。
背景技术
近些年随着人工智能的发展,特别是深度学习技术的日益成熟,人工智能在各行各业中 发挥越来越重要的作用。对于公共医疗卫生领域,自动化地识别出公共卫生事件中的专有名 词和实体名词并链接到相应的知识图谱,以实现这些专有实体名词的自动化释义。对于遏制公众对突发性公共卫生事件的恐慌情绪,识别社交网络中谣言的传播,以及辅助公众对突发 性公共卫生事件的理解有着积极作用。此外,解决医疗卫生领域的问题往往需要多部门,多 学科的交叉协力。能够自动识别文本中有关专业名词,并自动化加以解释,会加速部门间或 学科间的沟通,对于相关部门快速反应公共医疗卫生问题有着积极的作用。而在自动化识别和解释文本中专有名词的技术中,最为核心的是命名实体识别与链接技术。
现有公共医疗卫生命名实体识别与链接技术通常只在一个医疗类数据集上训练得到命名 实体识别模型,这样训练出来的模型只能识别少量的实体类别,对于不在训练集中的实体类 别将无法识别出来。或者将多个数据集合并成一个大的训练数据集,并在合并后的数据集上直接训练命名实体识别模型,但是由于合并后的数据集包含过多的实体类别,因此模型在识 别实体类别时更容易出错,并且不能扩展到其他新的实体类别。
发明内容
本发明目的在于,提供了一种公共医疗卫生命名实体识别与实体链接方法、装置、电子 设备及存储介质。包括:获取多个中文命名实体识别数据集,并在多个中文命名实体识别数 据集上训练得到一个群模型;将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;抽取面向公共 卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实体匹配模型;获取 输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命名实体识 别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;将所述输入文本的命名实体链接到对应知识图谱。通 过多个数据集训练多个实体识别模型可以即保证识别更多类型的实体,又可以实现每个模型 仅含有较少类型的实体,保证单个模型有较高的识别率,使用特定的迁移学习方法训练细粒 度命名实体识别模型保证模型在较小样本的情况可以快速学习到新的实体类别,提高模型的适应能力。
本发明所述的一种公共医疗卫生命名实体识别与实体链接方法,按下列步骤进行:
a、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一 个群模型;
b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特 定的迁移学习方法得到一个细粒度命名实体识别模型;
c、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树 实体匹配模型;
d、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度 命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集 合中的实体链接到对应知识图谱中的某一实体项;
e、将所述输入文本的命名实体链接到对应知识图谱。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤a中所述在多个中文命名实 体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集,合并 成一个数据集第一集合D={d1,d2,…,dM},其中,M为中文命名实体识别数据集的数量, d1,d2,…,dM表示不同的数据集;利用flat-transformer模型在M个不同中文命名实体识别数 据集上进行训练,获得一个中文命名实体识别模型第二集合Q={R1,R2,…,RM},其中,M是中 文命名实体识别数据集的数量,R1,R2,…,RM表示训练得到的模型,将所述中文命名实体识别 模型第二集合Q确定为所述群模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤b中多个中文命名实体识别 数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实 体识别模型;包括:
确定所述第一集合D中每个中文命名实体识别数据集中实体类型;
将所述每个中文命名实体识别数据集中的实体类型合并,得到一个命名实体类型第三集 合T={t1,t2,…,tN},其中,N为所有中文命名实体识别数据集中实体类型的数量,t1,t2,…,tN为实体类型;
将所述命名实体类型第三集合T中相似的实体类型进行合并,得到新命名实体类型第四 集合Tnew={t1,t2,…,tV},其中,V为合并命名实体类型后的命名实体类型数量,t1,t2,…,tV为新的实体类型;
根据所述新命名实体类型第四集合Tnew,从每一个实体类型中抽取c条数据样本,其中, c的取值为1000-2000,对于不足c条样本的实体类型,则抽取所有样本,将抽取的所有第 四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew
将所述抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew确定为所述全数据集;
所述全数据集上实施特定的迁移学习方法,包括以下步骤:
步骤1:从所述全数据集中随机抽取i个实体类型;
步骤2:获取i个实体类型的所有样本,得到第六集合S={S1,S2,…,Si},其中,S1,S2,…,Si为各个实体类型所包含的样本;
步骤3:判断样本集第六集合S的大小是否满足大于等于NM,其中,NM为一常数,取值 范围3000以上,如果满足则执行后续步骤,否则返回步骤1;
步骤4:利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型;
步骤5:从所述全数据集中再采样一个实体类型j,与已有的i个实体类型合并,得到i+1个实体类型;
步骤6:从实体类型j中抽取少量样本得到第七集合S’,其中少量为几十到200以下;
步骤7:利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss1,loss2
步骤8:根据loss=loss1+loss2训练模型直到近似收敛;
步骤9:重复执行步骤6-8,直到实体类型j中所有样本均被采样参与训练,得到一个i+1 个实体类别的命名实体识别模型;
步骤10:重复执行步骤5-9,直到所有实体类别均被采样参与训练,得到一个包含所述V 个实体类别的命名实体识别模型,其中V为实体类别的数量,并利用V个实体类别的命名实 体识别模型初始化步骤4中的flat-transformer参数;
步骤11:重复执行上述所有步骤,直到V个实体类别的命名实体识别模型收敛,确定所 述V个实体类别的命名实体识别模型为细粒度命名实体识别模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤c中所述抽取面向公共卫生 与医疗知识图谱中的实体,将实体按字符分割得到第一实体字符序列e={c1,c2,…,cl},其中 l表示当前实体中字符的个数,c1,c2,…,cl表示字符;
将所述第一实体字符序列作为实体名词,按照字典树构建的方法构建实体名词树;确定所述 实体名词树为所述字典树实体匹配模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤d中所述获取输入文本的多 源字符序列表示,将当前输入文本的字符序列分别按照字符和词分割,得到第二字符序列和 第一词序列;
将所述第二字符序列和第一词序列输入到预训练词嵌入表中,得到词嵌入向量;
将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示。
将所述当前多源字符序列中的词嵌入向量输入到所述群模型中,并得到由群模型识别出 的实体;
将所述当前多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中,并 得到匹配出的实体;
将所述当前多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中,并得 到由细粒度命名实体识别模型识别出的实体;
将识别或匹配得到的实体合并得到当前输入文本的命名实体集合;
将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公 共卫生与医疗知识图谱中相应的实体;
将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱 中相应的实体;
将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序 列,对于任意一个候选实体第八集合Ei={Wi,Ci},其中,Wi表示第二词序列,Ci表示第三字符 序列,i∈[1,n],n为候选实体的个数;
对于任意一个候选实体第八集合Ei={Wi,Ci},保留只在Wi中出现,很少在Wj中出现的词, 得到第三词序列Wi new,保留只在Ci中出现的字,很少在第四字符序列Cj中出现的字,得到第 五字符序列Ci new,对任意一个候选实体得到第九集合Ei new={Wi new,Ci new},其中i,j∈[1,n]且i≠j; 将所述当前输入文本按字符和词分割得到第六字符序列Cseq和第四词序列Wseq,分别计算Ei new中字符在Cseq中出现的次数,词在Wseq中出现的次数,选择Ei new出现次数最大的实体作为最佳 候选实体;
将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应 的最佳候选实体。
一种公共医疗卫生命名实体识别与实体链接装置,该装置是由群模型训练模块(501)、 细粒度实体类型识别模块(502)、实体字典树模块(503)、指称-实体确定模块(504)和链接模 块(505)组成,其中:
群模型训练模块(501),用于获取多个中文命名实体识别数据集,并在多个中文命名实 体识别数据集上训练得到一个群模型;
细粒度实体类型识别模块(502),包括:第一确定子模块、相似实体类型合并子模块、 全数据集生成子模块;用于将所述多个中文命名实体识别数据集合并成一个全数据集,在所 述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
实体字典树模块(503),用于抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取 实体的字符序列构建字典树实体匹配模型;
指称-实体确定模块(503),用于获取输入文本的多源字符序列表示,将所述多源字符序 列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命 名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;
链接模块(504),用于将所述输入文本的命名实体链接到对应知识图谱。
一种电子设备,包括至少一个多核处理器;至少一个GPU计算卡;以及与所述至少一个 多核处理器通信连接的存储器,所述存储器存储有可被所述至少一个多核处理器执行的指令, 所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行,以使所述至少一 个多核处理器能或所述至少一个GPU计算卡够执行权利要求1-5中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算 机执行权利要求1-5中任一项所述的方法。
根据本公开的一方面,提供了一种公共医疗卫生命名实体识别与实体链接方法,包括以 下步骤:
获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一个 群模型;
将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全数据集上实施特定 的迁移学习方法得到一个细粒度命名实体识别模型;
抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实 体匹配模型;
获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命 名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合 中的实体链接到对应知识图谱中的某一实体项;
将所述输入文本的命名实体链接到对应知识图谱。
根据本公开的另一方面,提供了一种公共医疗卫生命名实体识别与实体链接装置,该装 置包括:
群模型训练模块,用于获取多个中文命名实体识别数据集,并在多个中文命名实体识别 数据集上训练得到一个群模型;
细粒度实体类型识别模块,用于将所述多个中文命名实体识别数据集合并成一个全数据 集,在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
实体字典树模块,用于抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的 字符序列构建字典树实体匹配模型;
指称-实体确定模块,用于获取输入文本的多源字符序列表示,将所述多源字符序列表示 输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体 集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;
链接模块,用于将所述输入文本的命名实体链接到对应知识图谱。
根据本公开的又一方面,提供了一种电子设备,该设备包括:
至少一个多核处理器;至少一个GPU计算卡;以及与所述至少一个多核处理器通信连接 的存储器;其中,所述存储器存储有可被所述至少一个多核处理器执行的指令,所述指令被 所述至少一个多核处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个多核处理 器能或所述至少一个GPU计算卡够执行本申请实施例中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所 述计算机执行本申请实施例中任一项所述的方法。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而 易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附 图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的工作流程图;
图2为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的关于特定迁移 学习方法的流程图;
图3为本发明提供的一种公共医疗卫生命名实体识别与实体链接方法的关于实体链接的 工作流程图;
图4本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的示例流程示意图;
图5为本发明所提供的一种公共医疗卫生命名实体识别与实体链接装置的结构框图;
图6为本发明所提供的一种公共医疗卫生命名实体识别与实体链接方法的电子设备及存 储介质框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中,下面的描述涉及附图时, 除非另有表示,不同附图中的相同数字表示相同或相似的要素;以下示例性实施例中所描述 的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。因此,本领域普通技术人员应 当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。 同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例
本发明所述的一种公共医疗卫生命名实体识别与实体链接方法,按下列步骤进行:
a、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一 个群模型;
b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特 定的迁移学习方法得到一个细粒度命名实体识别模型;
c、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树 实体匹配模型;
d、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度 命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集 合中的实体链接到对应知识图谱中的某一实体项;
e、将所述输入文本的命名实体链接到对应知识图谱。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤a中所述在多个中文命名实 体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集,合并 成一个数据集第一集合D={d1,d2,…,dM},其中,M为中文命名实体识别数据集的数量, d1,d2,…,dM表示不同的数据集;利用flat-transformer模型在M个不同中文命名实体识别数 据集上进行训练,获得一个中文命名实体识别模型第二集合Q={R1,R2,…,RM},其中,M是中 文命名实体识别数据集的数量,R1,R2,…,RM表示训练得到的模型,将所述中文命名实体识别 模型第二集合Q确定为所述群模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤b中多个中文命名实体识别 数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实 体识别模型;包括:
确定所述第一集合D中每个中文命名实体识别数据集中实体类型;
将所述每个中文命名实体识别数据集中的实体类型合并,得到一个命名实体类型第三集 合T={t1,t2,…,tN},其中,N为所有中文命名实体识别数据集中实体类型的数量,t1,t2,…,tN为实体类型;
将所述命名实体类型第三集合T中相似的实体类型进行合并,得到新命名实体类型第四 集合Tnew={t1,t2,…,tV},其中,V为合并命名实体类型后的命名实体类型数量,t1,t2,…,tV为新的实体类型;
根据所述新命名实体类型第四集合Tnew,从每一个实体类型中抽取c条数据样本,其中, c的取值为1000-2000,对于不足c条样本的实体类型,则抽取所有样本,将抽取的所有第 四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew
将所述抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合 Dnew确定为所述全数据集;
所述全数据集上实施特定的迁移学习方法,包括以下步骤:
步骤1:从所述全数据集中随机抽取i个实体类型;
步骤2:获取i个实体类型的所有样本,得到第六集合S={S1,S2,…,Si},其中,S1,S2,…,Si为各个实体类型所包含的样本;
步骤3:判断样本集第六集合S的大小是否满足大于等于NM,其中,NM为一常数,取值 范围3000以上,如果满足则执行后续步骤,否则返回步骤1;
步骤4:利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型;
步骤5:从所述全数据集中再采样一个实体类型j,与已有的i个实体类型合并,得到i+1 个实体类型;
步骤6:从实体类型j中抽取少量样本得到第七集合S’,其中少量为几十到200以下;
步骤7:利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss1,loss2
步骤8:根据loss=loss1+loss2训练模型直到近似收敛;
步骤9:重复执行步骤6-8,直到实体类型j中所有样本均被采样参与训练,得到一个i+1 个实体类别的命名实体识别模型;
步骤10:重复执行步骤5-9,直到所有实体类别均被采样参与训练,得到一个包含所述V 个实体类别的命名实体识别模型,其中V为实体类别的数量,并利用V个实体类别的命名实 体识别模型初始化步骤4中的flat-transformer参数;
步骤11:重复执行上述所有步骤,直到V个实体类别的命名实体识别模型收敛,确定所 述V个实体类别的命名实体识别模型为细粒度命名实体识别模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤c中所述抽取面向公共卫生 与医疗知识图谱中的实体,将实体按字符分割得到第一实体字符序列e={c1,c2,…,cl},其中 l表示当前实体中字符的个数,c1,c2,…,cl表示字符;
将所述第一实体字符序列作为实体名词,按照字典树构建的方法构建实体名词树;确定所述 实体名词树为所述字典树实体匹配模型。
所述一种公共医疗卫生命名实体识别与实体链接方法,步骤d中所述获取输入文本的多 源字符序列表示,将当前输入文本的字符序列分别按照字符和词分割,得到第二字符序列和 第一词序列;
将所述第二字符序列和第一词序列输入到预训练词嵌入表中,得到词嵌入向量;
将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示。
将所述当前多源字符序列中的词嵌入向量输入到所述群模型中,并得到由群模型识别出 的实体;
将所述当前多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中,并 得到匹配出的实体;
将所述当前多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中,并得 到由细粒度命名实体识别模型识别出的实体;
将识别或匹配得到的实体合并得到当前输入文本的命名实体集合;
将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公 共卫生与医疗知识图谱中相应的实体;
将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱 中相应的实体;
将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序 列,对于任意一个候选实体第八集合Ei={Wi,Ci},其中,Wi表示第二词序列,Ci表示第三字符 序列,i∈[1,n],n为候选实体的个数;
对于任意一个候选实体第八集合Ei={Wi,Ci},保留只在Wi中出现,很少在Wj中出现的词, 得到第三词序列Wi new,保留只在Ci中出现的字,很少在第四字符序列Cj中出现的字,得到第 五字符序列Ci new,对任意一个候选实体得到第九集合Ei new={Wi new,Ci new},其中i,j∈[1,n]且i≠j; 将所述当前输入文本按字符和词分割得到第六字符序列Cseq和第四词序列Wseq,分别计算Ei new中字符在Cseq中出现的次数,词在Wseq中出现的次数,选择Ei new出现次数最大的实体作为最佳 候选实体;
将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应 的最佳候选实体。
一种公共医疗卫生命名实体识别与实体链接装置,该装置是由群模型训练模块501、细粒 度实体类型识别模块502、实体字典树模块503、指称-实体确定模块504和链接模块505组成, 其中:
群模型训练模块501,用于获取多个中文命名实体识别数据集,并在多个中文命名实体识 别数据集上训练得到一个群模型;
细粒度实体类型识别模块502,包括:第一确定子模块、相似实体类型合并子模块、全数 据集生成子模块;用于将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全 数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
实体字典树模块503,用于抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体 的字符序列构建字典树实体匹配模型;
指称-实体确定模块504,用于获取输入文本的多源字符序列表示,将所述多源字符序列 表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名 实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;
链接模块505,用于将所述输入文本的命名实体链接到对应知识图谱。
一种电子设备,包括至少一个多核处理器;至少一个GPU计算卡;以及与所述至少一个 多核处理器通信连接的存储器,所述存储器存储有可被所述至少一个多核处理器执行的指令, 所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行,以使所述至少一 个多核处理器能或所述至少一个GPU计算卡够执行权利要求1-5中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算 机执行权利要求1-5中任一项所述的方法。
图1是流程图,本实施例可适用于将文本中的命名实体识别出链接到知识图谱中对应的 实体项上的情况,该方法可以由一种实体识别与链接装置来执行,该装置可以由软件和/或硬 件的方式实现,参见图1,本申请实施例提供的实体识别方法包括:
步骤S101、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训 练得到一个群模型;
在一个实施例中,多个中文命名实体识别数据集可以来源于互联网中所有公开可获取的 数据集,群模型是flat-transformer在多个不同数据集上获得的多个不同模型的集合;
示例性地,多个中文命名实体识别数据集可以是:Resume数据集、CCKS中文医学命名实体识 别数据集;
步骤S102、将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全数据集 上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
在一个实施例中,全数据集可以由多个中文命名实体识别数据集合并得到;其中合并主 要通过查找多个数据集中不同的实体类型,合并不同数据集中不同实体类型到一个更大的数 据集中。示例性地,可以将数据集A中的地点类型实体和数据集B中的病毒名称类实体合并 到数据集C中;
在一个实施例中,细粒度命名实体识别模型可以识别二十种以上的实体类型;
示例性地,细粒度命名实体识别模型可以是包含较多专业医学类实体类型的实体识别模型, 如:病毒,医疗检查;
图2是本申请实施例提供的另一种实体识别方法的流程图。本方案是在上述方案的基础 上,对步骤实施特定的迁移学习方法的进一步说明;参见图2,本方案提供的方法包括步骤:
步骤S201:从所述全数据集中以概率随机抽取i个实体类型,其 中x-μ表示实体类型的相关系数,若两个实体相关度sim(x,y)越大,则(x-μ)2越小;
步骤S202:获取i个实体类型的所有样本,S={S1,S2,…,Si},其中,S1,S2,…,Si为各实体 类型包含的样本;
步骤S203:判断样本集S的大小是否满足大于等于NM,其中,NM为一常数,取值范围3000以上,如果满足则执行后续步骤,否则返回步骤S201;
步骤S204:利用样本集S和flat-transformer训练得到一个命名实体识别模型;
步骤S205:从所述全数据集中以均匀分布再采样一个实体类型j,与已有的i个实体类 型合并,得到i+1个实体类型;
步骤S206:从实体类型j中抽取少量样本S’,其中少量为几十到200以下;
步骤S207:利用步骤S204得到的模型计算S和S’的损失其中D为已有的i个实体类型的数据样本,D′为新的实体类型的数据样本。
步骤S208:根据训练模型直到近似收敛;
步骤S209:重复执行步骤S206-S208,直到实体类型j中所有样本均被采样参与训练, 得到一个i+1个实体类别的命名实体识别模型;
步骤S210:重复执行步骤S205-S209,直到所有实体类别均被采样参与训练,得到一个V 个实体类别的命名实体识别模型,其中V为实体类别的数量,并利用V个实体类别的命名实 体识别模型初始化步骤S204中的flat-transformer参数;
步骤S211:重复执行上述所有步骤,直到V个实体类别的命名实体识别模型收敛,确定 V个实体类别的命名实体识别模型为细粒度命名实体识别模型;
步骤S103、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构 建字典树实体匹配模型;
示例性地,所述抽取面向公共卫生与医疗知识图谱中的实体可以是知识图谱中的病毒名 称,医疗器械,预防措施;
步骤S104、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到命名实 体识别模型中得到命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一 实体项;
在一个实施例中,获取的输入文本的多源字符序列表示,包括:
输入文本按字分割的序列,以及对应的字嵌入向量序列Eembedding(c1,c2,…,cn);
输入文本按词分割的序列,以及对应的词嵌入向量序列Eembedding(w1,w2,…,wm);
在一个实施例中,命名实体识别模型包括群模型、细粒度命名实体识别模型以及字典树实体 匹配模型;
其中输入文本的字序列被输入到字典树实体匹配模型中,字词向量被输入到群模型和细 粒度命名实体识别模型中。
图3是本申请实施例提供的另一种实体识别与实体链接方法的流程图,本方案是在上述 方案的基础上,对步骤将命名实体集合中的实体链接到对应知识图谱中的某一实体项的进一 步说明,参见图3,本方案提供的实体链接方法包括:
步骤S301将候选实体的描述文本分别按照字和词分割;
步骤S302将输入文本分别按字符和词分割;
步骤S303计算输入文本和候选实体描述文本的字词共现率;
步骤S304确定共现率最高的候选实体为链接目标实体。
本申请实施例的技术方案,通过利用字词共现率实现对重名实体的链接,因为医疗领域 的知识图谱中的实体一般具有较强的唯一性,通过字词共现率可以在很大程度上完成对重名 实体的链接,同时保证简单的模型结构和较快的速度;
步骤S105、将所述输入文本的命名实体链接到对应知识图谱;
示例性地,参见图4,医疗知识图谱和通用百科知识图谱作为目标知识图谱;
继续参见图4,该示例中的实体识别与链接过程可以描述为:字词嵌入层,转换文本中的 字词为固定大小的嵌入向量;基于群模型的实体识别层,将字词向量输入群模型识别文本中 的第一实体401;基于细粒度命名实体识别模型的实体识别层,将字词向量输入细粒度命名实体识别模型识别文本中的第二实体402;基于字典树实体匹配的实体识别层,利用字典树匹配 文本中的第三实体403;实体连接层,对于非医学类命名实体,利用字词贡献率将实体链接至 百科类知识图谱上对应实体项;对于医学类命名实体,利用字词贡献率将实体链接至医疗类知识图谱上对应实体项;根据所述第一实体401、所述第二实体402、第三实体403,获得文 本中的实体并链接至知识图谱中相应的实体上。
图5是本申请实施例提供的一种公共医疗卫生实体识别与实体链接装置的结构示意图, 如图5所示,本实施例提供的装置包括:
群模型训练模块501,用于获取多个中文命名实体识别数据集,并在多个中文命名实体识 别数据集上训练得到一个群模型;
细粒度实体类型识别模块502,用于将多个中文命名实体识别数据集合并成一个全数据 集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
实体字典树模块503,用于抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体 的字符序列构建字典树实体匹配模型;
指称-实体确定模块504,用于获取输入文本的多源字符序列表示,将多源字符序列表示 输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体 集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;
链接模块505,用于将输入文本的命名实体链接到对应知识图谱。
其中,群模型训练模块501,包括:
多源数据集合并子模块,用于收集多个不同来源的中文命名实体识别数据集,合并成一 个数据集集合;
第一训练子模块,用于利用flat-transformer模型在不同中文命名实体识别数据集上进 行训练,获得多个中文命名实体识别模型;
细粒度实体类型识别模块502,包括:
第一确定子模块,用于确定每一个中文命名实体识别数据集中实体类型;
实体类型合并子模块,用于将每一个中文命名实体识别数据集中不同实体类型合并,得到一 个新的命名实体类型集合;
相似实体类型合并子模块,用于将所述新的命名实体类型集合中相似的实体类型进行合 并;
全数据集生成子模块,用来从合并后的命名实体类型集合中根据每一个实体类型抽取数 据样本,将抽取的所有实体类型对应的样本组合成一个新的数据集;
迁移学习子模块,用于实施一个迁移学习方法,每次在训练时先随机采样几个实体类型 训练直到模型收敛,然后再采样一个新的实体类型且每次只抽取少量样本继续训练模型直到 收敛,继续采样新的实体以相同方式训练直到所有实体类型都被采样,反复执行上述过程直到模型收敛。
实体字典树模块503,包括:
知识图谱实体抽取子模块,用于抽取面向公共卫生与医疗知识图谱中的实体,将实体按 字符分割得到实体字符序列;
实体名词匹配子模块,用于将实体字符序列作为实体名词,按照字典树构建的方法构建 实体名词树;
指称-实体确定模块504,包括:
输入文本表示子模块,用于将当前输入文本的字符序列分别按照字符和词分割,得到字 符序列和词序列,将字符序列和词序列输入到预训练词嵌入表中,得到词嵌入向量,将词嵌 入向量和字符序列确定为所述多源字符序列表示;
第二确定子模块,用于将当前多源字符序列中的词嵌入向量输入到所述群模型中,并得 到由群模型识别出的实体,将当前多源字符序列表示中的字符序列输入到所述字典树实体匹 配模型中,并得到匹配出的实体,将当前多源字符序列中的词嵌入向量输入到细粒度命名实体识别模型中,并得到由细粒度命名实体识别模型识别出的实体,将上述识别或匹配得到的 实体合并得到当前输入文本的命名实体集合;
第三确定子模块,用于将当前输入文本的实体集合中由字典树实体匹配模型得到的实体 链接至面向公共卫生与医疗知识图谱中相应的实体,将当前输入文本的实体集合中医学类命 名实体链接至面向公共卫生与医疗知识图谱中相应的实体。
第四确定子模块,对于重名候选实体,统计输入文本和候选实体描述文本的字词共现率, 选择共现率最大的实体作为最佳候选实体。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质;
如图6所示,是根据本申请实施例的一种公共医疗卫生命名实体识别与链接方法的电子 设备的框图,电子设备指各种各样的现代电子数字计算机,包括如:个人计算机、便携式计 算机、各种服务器设备。本文所示的构件及其互联关系和功能仅作为示例;
如图6所示,所述电子设备包括:一个或多个多核处理器601、一个或多个GPU计算卡 602、存储器603,为使电子设备产生交互,还应包括:输入设备604、输出设备605。各种设备之间通过总线进行互联通信;
存储器603即为本申请所提供的非瞬时计算机可读存储介质,其中,所述存储器存储有 可由至少一个多核处理器或至少一个GPU计算卡执行的指令,以使本申请所提供的实体识别与链接方法被执行;本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用 于使计算机执行本申请所提供的实体识别与链接方法;
输入设备604,提供并接受用户输入到电子设备中的控制信号,包括产生数字或字符信息 的键盘以及用来控制设备产生其他关键信号的鼠标,输出设备605提供用户电子设备的反馈 信息,包括打印执行结果或过程的显示器。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实 施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适 应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求 指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以 在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (5)

1.一种公共医疗卫生命名实体识别与实体链接方法,其特征在于,按下列步骤进行:
a、获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一个群模型,所述在多个中文命名实体识别数据集上训练得到一个群模型是收集多个不同来源的中文命名实体识别数据集,合并成一个数据集第一集合D={d1,d2,…,dM},其中,M为中文命名实体识别数据集的数量,d1,d2,…,dM表示不同的数据集;利用flat-transformer模型在M个不同中文命名实体识别数据集上进行训练,获得一个中文命名实体识别模型第二集合Q={R1,R2,…,RM},其中,M是中文命名实体识别数据集的数量,R1,R2,…,RM表示训练得到的模型,将所述中文命名实体识别模型第二集合Q确定为所述群模型;
b、将步骤a中多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型,所述多个中文命名实体识别数据集合并成一个全数据集,在全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;包括:
确定所述第一集合D中每个中文命名实体识别数据集中实体类型;
将所述每个中文命名实体识别数据集中的实体类型合并,得到一个命名实体类型第三集合T={t1,t2,…,tN},其中,N为所有中文命名实体识别数据集中实体类型的数量,t1,t2,…,tN为实体类型;
将所述命名实体类型第三集合T中相似的实体类型进行合并,得到新命名实体类型第四集合Tnew={t1,t2,…,tV},其中,V为合并命名实体类型后的命名实体类型数量,t1,t2,…,tV为新的实体类型;
根据所述新命名实体类型第四集合Tnew,从每一个实体类型中抽取c条数据样本,其中,c的取值为1000-2000,对于不足c条样本的实体类型,则抽取所有样本,将抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew
将所述抽取的所有第四集合Tnew中实体类型对应的样本组合成一个新的数据集第五集合Dnew确定为所述全数据集;
所述全数据集上实施特定的迁移学习方法,包括以下步骤:
步骤1:从所述全数据集中随机抽取i个实体类型;
步骤2:获取i个实体类型的所有样本,得到第六集合S={S1,S2,…,Si},其中,S1,S2,…,Si为各个实体类型所包含的样本;
步骤3:判断样本集第六集合S的大小是否满足大于等于NM,其中,NM为一常数,取值范围3000以上,如果满足则执行后续步骤,否则返回步骤1;
步骤4:利用样本集第六集合S和flat-transformer训练得到一个命名实体识别模型;
步骤5:从所述全数据集中再采样一个实体类型j,与已有的i个实体类型合并,得到i+1个实体类型;
步骤6:从实体类型j中抽取少量样本得到第七集合S’,其中少量为几十到200以下;
步骤7:利用步骤4得到的模型计算第六集合S和第七集合S’的损失loss1,loss2
步骤8:根据loss=loss1+loss2训练模型直到近似收敛;
步骤9:重复执行步骤6-8,直到实体类型j中所有样本均被采样参与训练,得到一个i+1个实体类别的命名实体识别模型;
步骤10:重复执行步骤5-9,直到所有实体类别均被采样参与训练,得到一个包含V个实体类别的命名实体识别模型,其中V为实体类别的数量,并利用V个实体类别的命名实体识别模型初始化步骤4中的flat-transformer参数;
步骤11:重复执行上述所有步骤,直到V个实体类别的命名实体识别模型收敛,确定所述V个实体类别的命名实体识别模型为细粒度命名实体识别模型;
c、抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实体匹配模型;
d、获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项,所述获取输入文本的多源字符序列表示,将当前输入文本的字符序列分别按照字符和词分割,得到第二字符序列和第一词序列;
将所述第二字符序列和第一词序列输入到预训练词嵌入表中,得到词嵌入向量;
将所述词嵌入向量和第二字符序列确定为所述多源字符序列表示;
将所述多源字符序列中的词嵌入向量输入到所述群模型中,并得到由群模型识别出的实体;
将所述多源字符序列表示中的第二字符序列输入到所述字典树实体匹配模型中,并得到匹配出的实体;
将所述多源字符序列中的词嵌入向量输入到所述细粒度命名实体识别模型中,并得到由细粒度命名实体识别模型识别出的实体;
将识别或匹配得到的实体合并得到当前输入文本的命名实体集合;
将所述当前输入文本的实体集合中由所述字典树实体匹配模型得到的实体链接至面向公共卫生与医疗知识图谱中相应的实体;
将当前所述输入文本的实体集合中医学类命名实体链接至面向公共卫生与医疗知识图谱中相应的实体;
将知识图谱中所有候选实体的描述文本按字符和词分割得到第三字符序列和第二词序列,对于任意一个候选实体第八集合Ei={Wi,Ci},其中,Wi表示第二词序列,Ci表示第三字符序列,i∈[1,n],n为候选实体的个数;
对于任意一个候选实体第八集合Ei={Wi,Ci},保留只在Wi中出现,很少在Wj中出现的词,得到第三词序列Wi new,保留只在Ci中出现的字,很少在第四字符序列Cj中出现的字,得到第五字符序列Ci new,对任意一个候选实体得到第九集合Ei new={Wi new,Ci new},其中i,j∈[1,n]且i≠j;将所述当前输入文本按字符和词分割得到第六字符序列Cseq和第四词序列Wseq,分别计算Ei new中字符在Cseq中出现的次数,词在Wseq中出现的次数,选择Ei new出现次数最大的实体作为最佳候选实体;
将当前所述输入文本的实体集合中其他类型命名实体链接至通用百科类知识图谱中相应的最佳候选实体;
e、将所述输入文本的命名实体链接到对应知识图谱。
2.根据权利要求1所述一种公共医疗卫生命名实体识别与实体链接方法,其特征在于,步骤c中所述抽取面向公共卫生与医疗知识图谱中的实体,将实体按字符分割得到第一实体字符序列e={c1,c2,…,cl},其中l表示当前实体中字符的个数,c1,c2,…,cl表示字符;将所述第一实体字符序列作为实体名词,按照字典树构建的方法构建实体名词树;确定所述实体名词树为所述字典树实体匹配模型。
3.一种执行权利要求1-2任一项所述方法的公共医疗卫生命名实体识别与实体链接装置,其特征在于,该装置是由群模型训练模块(501)、细粒度实体类型识别模块(502)、实体字典树模块(503)、指称-实体确定模块(504)和链接模块(505)组成,其中:
群模型训练模块(501),用于获取多个中文命名实体识别数据集,并在多个中文命名实体识别数据集上训练得到一个群模型;
细粒度实体类型识别模块(502),包括:第一确定子模块、相似实体类型合并子模块、全数据集生成子模块;用于将所述多个中文命名实体识别数据集合并成一个全数据集,在所述全数据集上实施特定的迁移学习方法得到一个细粒度命名实体识别模型;
实体字典树模块(503),用于抽取面向公共卫生与医疗知识图谱中的实体,并利用抽取实体的字符序列构建字典树实体匹配模型;
指称-实体确定模块(503),用于获取输入文本的多源字符序列表示,将所述多源字符序列表示输入到群模型、细粒度命名实体识别模型以及字典树实体匹配模型中得到识别出的命名实体集合,并将命名实体集合中的实体链接到对应知识图谱中的某一实体项;
链接模块(504),用于将所述输入文本的命名实体链接到对应知识图谱。
4.一种电子设备,包括至少一个多核处理器;至少一个GPU计算卡;以及与所述至少一个多核处理器通信连接的存储器,其特征在于,所述存储器存储有可被所述至少一个多核处理器执行的指令,所述指令被所述至少一个多核处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个多核处理器能或所述至少一个GPU计算卡够执行权利要求1-2中任一项所述的方法。
5.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-2中任一项所述的方法。
CN202110195263.2A 2021-02-19 2021-02-19 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 Active CN112836019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195263.2A CN112836019B (zh) 2021-02-19 2021-02-19 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195263.2A CN112836019B (zh) 2021-02-19 2021-02-19 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112836019A CN112836019A (zh) 2021-05-25
CN112836019B true CN112836019B (zh) 2023-04-25

Family

ID=75934226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195263.2A Active CN112836019B (zh) 2021-02-19 2021-02-19 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112836019B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298253B (zh) * 2021-06-03 2021-12-14 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN114428864A (zh) * 2022-04-01 2022-05-03 杭州未名信科科技有限公司 知识图谱的构建方法、装置、电子设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936969B2 (en) * 2016-09-26 2021-03-02 Shabaz Basheer Patel Method and system for an end-to-end artificial intelligence workflow
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN111241837B (zh) * 2020-01-04 2022-09-20 大连理工大学 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111860882B (zh) * 2020-06-17 2022-09-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备
CN112257448A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别方法、系统、介质及终端

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112836019A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
WO2020052069A1 (zh) 用于分词的方法和装置
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
WO2023061106A1 (zh) 用于语言翻译的方法、设备、装置和介质
CN107766498B (zh) 用于生成信息的方法和装置
CN114357195A (zh) 基于知识图谱的问答对生成方法、装置、设备及介质
CN114758742A (zh) 病历信息处理方法、装置、电子设备及存储介质
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
CN113705207A (zh) 语法错误识别方法及装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN117195877A (zh) 一种电子病历的词向量生成方法、系统、设备及存储介质
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN111666405A (zh) 用于识别文本蕴含关系的方法和装置
CN113836297A (zh) 文本情感分析模型的训练方法及装置
Tang et al. Interpretability rules: Jointly bootstrapping a neural relation extractorwith an explanation decoder
CN114330345B (zh) 命名实体识别方法、训练方法、装置、电子设备及介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant