CN112016319B

CN112016319B - 预训练模型获取、疾病实体标注方法、装置及存储介质

Info

Publication number: CN112016319B
Application number: CN202010936637.7A
Authority: CN
Inventors: 朱威; 何义龙
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-12-15
Anticipated expiration: 2040-09-08
Also published as: CN112016319A

Abstract

本发明涉及人工智能技术领域，尤其涉及到自然语言处理的疾病实体标注领域，公开了一种预训练模型获取方法、疾病实体标注方法、装置及存储介质，能有效地提高预训练效率。方法部分包括：获取第一中文语料，并对所述第一中文语料进行分词处理，得到初步分词结果；对所述初步分词结果的非常用词进行词切分，以获取目标分词结果；根据所述目标分词结果创建预训练模型的中文词汇表；利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。

Description

预训练模型获取、疾病实体标注方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及自然语言处理的疾病实体标注应用领域，尤其涉及了一种预训练模型获取、疾病实体标注方法、装置及存储介质。

背景技术

迁移学习，在深度学习领域中是一种很流行的方法，通过迁移学习可以建立精确的模型，耗时更短。利用迁移学习，不是从零开始学习，而是从之前解决各种问题时学到的模型中开始，避免从零开始训练模型。

迁移学习通常是通过使用预训练模型(pretrain models)来表示，预训练模型是在大型基准数据集上训练得到的模型，例如BERT等大型预训练语言模型，其利用在大量语料进行预训练得到，预训练模型的提出，只需在预训练模型后接上特定地网络结构，即能完成某种特定任务，例如疾病实体标注。

现有技术中，在训练中文的预训练模型时，利用的中文词汇表中，是将中文字单独拆拆开，也就是一个字一个字组成的词汇表。很明显，由于中文文字较多，这样的中文词汇表，其词表的文字量比较巨大，通常有至少两2万以上的字量，使得模型参数量较大，特别是用于训练较小模型时候，大词表将导致模型参数量降低不下去，在实际工业应用时候，也容易使得模型体积大，推理速度慢，训练效率较低。

发明内容

本发明提供一种基于词汇表的预训练模型获取方法、基于预训练模型的疾病实体标注方法、装置及存储介质，以解决现有技术中预训练模型体积大，推理速度慢，导致训练效率较低的问题。

一种基于词汇表的预训练模型获取方法，包括：

获取第一中文语料，并对所述第一中文语料进行分词处理，得到初步分词结果；

对所述初步分词结果的非常用词进行词切分，以获取目标分词结果；

根据所述目标分词结果创建预训练模型的中文词汇表；

利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。

一种基于预训练模型的疾病实体标注方法，包括：

获取经过人工标注疾病实体的实体标注文本训练数据；

利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型，所述目标预训练模型为经过如权利要求1-6任一项所述预训练模型获取方法所获取的预训练模型；

在需对待识别医用文本进行疾病实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果。

一种基于词汇表的预训练模型获取装置，包括：

第一分词模块，用于获取第一中文语料，并对所述第一中文语料进行分词处理，得到初步分词结果；

第二分词模块，用于对所述初步分词结果的非常用词进行词切分，以获取目标分词结果；

创建模块，用于根据所述目标分词结果创建预训练模型的中文训练词汇表；

预训练模块，用于利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。

一种基于预训练模型的疾病实体标注装置，包括：

获取模块，用于获取经过人工标注疾病实体的实体标注文本训练数据；

处理模块，用于利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型，所述目标预训练模型为经过如所述预训练模型获取方法所获取的预训练模型；

识别模块，用于在需对待识别医用文本进行疾病实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于词汇表的预训练模型获取方法的步骤，或实现如上述基于预训练模型的疾病实体标注方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于词汇表的预训练模型获取方法的步骤，或实现如上述基于预训练模型的疾病实体标注方法的步骤。

上述预训练模型获取、疾病实体标注方法、装置及存储介质所提供的一个方案中，由于中文词汇表的分词是经过分词及非常用语词切分得到的，可以使得中文词汇表保留了部分常用短语，与传统的逐字组成的中文词汇表相比，可以大大的减少了词汇表的词汇数量和大小，因此，利用本发明提供的中文词汇表输入到模型的长度较短，有效地避免了如果全部分成单个字，导致输入到预训练模型的长度较长的问题，提升了后续预训练的训练效率，另外值得注意的是，中文当中有非常多的常用语，如果将其作为一个整体输入到模型，模型更容易理解其含义，也使得基于本发明提供的词汇表训练出的目标预训练模型更具有使用价值，有利于下游任务的微调和应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于词汇表的预训练模型获取方法的一个流程示意图；

图2是图1步骤S10的一个具体实施方式流程示意图；

图3是图1步骤S20的一个具体实施方式流程示意图；

图4是获取预设BPE词汇表的一个具体实施方式流程示意图；

图5是图1步骤S40的一个具体实施方式流程示意图；

图6是本发明一实施例中基于预训练模型的疾病实体标注方法的一个流程示意图

图7是本发明一实施例中基于词汇表的预训练模型获取装置的一结构示意图；

图8是本发明一实施例中基于预训练模型的疾病实体标注装置的一结构示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要涉及一种基于词汇表的预训练模型获取方法和基于预训练模型的疾病实体方法，下面分别介绍。

基于词汇表的预训练模型获取方法，主要在于提供一种得到新的预训练模型的方式。需要说明的是，预训练模型是在大型基准数据集上训练得到的模型，利用在大量语料进行预训练得到，在获取到预训练模型之后，后续只需要在预训练模型后接上特定地网络结构，即能完成某种特定的自然语言处理((NLP，Natural Language Processing))下游任务，因为预训练模型已经利用大量地语料的进行无监督学习得到，已经学习了语料中的相关信息，后续只需在针对特定的任务增加相应网络结构来进行微调，即可适应某种特定的下游任务。其中，在本发明中，先是提出一种新的用于训练预训练模型的词汇表的获取，并利用该词汇表进行预训练模型训练的过程，详见下述实施例。

在一实施例中，如图1所示，提供一种基于词汇表的预训练模型获取方法，包括如下步骤：

S10：获取第一中文语料，并对所述第一中文语料进行分词处理，得到初步分词结果。

可以理解，在训练预训练模型时，需先获取大量的中文语料，本发明中，将用于创建词汇表以用于训练预训练模型的中文语料称为第一中文语料。其中，为了使得后续得到的预训练模型更加能反映中文语料的信息，且能适用更多的不同类型的下游任务，可以获取大量不同领域的中文语料作为第一中文语料。示例性的，该第一中文语料可以是科技、文学、新闻等不同领域的中文语料。

在获取到第一中文语料之后，第一中文语料进行分词处理，得到初步分词结果。

其中，本发明中，可以预设分词算法对第一中文语料进行分词处理，得到初步分词结果。例如，若第一中文语料中有如下句子：“推迟新冠疫苗开发”，采用预设算法对该句子进行分词之后，分词结果可以为“推迟新冠疫苗开发”。上述例子仅是示例性说明，并不对本发明造成限定。

S20：对所述初步分词结果的非常用词进行词切分，以获取目标分词结果。

在获取了初步分词结果之后，在本发明中，还会对初步分词结果再进行词切分，具体地，对所述初步分词结果的非常用词进行词切分，以获取目标分词结果。需要说明的是，在获得的初步分词结果中，由于步骤S10所采用的算法的局限或者语料丰富性的限制，初步分词结果可能包含了较多的非常用词。需要说明的是，这里所称的非常用词是相对于大量第一中文语料场而言，例如前述句子的“新冠”和“疫苗”相比，可能就是个非常用词。

本发明中，为了进步缩小用于预训练的词汇表的大小，同时使得第一中文语料的中文信息能被学习到，需对所述初步分词结果的非常用词进行词切分，以获取目标分词结果。

S30：根据所述目标分词结果创建预训练模型的中文词汇表。

在对第一中文语料进行两次词切分以获取第一中文语料对应的目标分词结果之后，便可根据目标分词结果创建用于预训练模型的中文训练词汇表。需要说明的是，根据目标分词结果创建预训练模型的中文训练词汇表，指的是利用目标分词结果对应的各个分词创建词汇表的过程，以用于后续预训练时写入该中文词汇表。

S40：利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。

在得到中文词汇表之后，便可利用该中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。需要说明的是，该预训练模型可以采用任意一种预训练模型网络结构，示例性的，可以是BERT预训练网络结构，具体本发明不做限定。

可见，在本发明实施例中，提出了一种基于词汇表的预训练模型获取方法，先是获取第一中文语料，并对第一中文语料进行分词处理，得到初步分词结果；对初步分词结果的非常用词进行词切分，以获取目标分词结果；根据目标分词结果创建预训练模型的中文词汇表；最后利用该中文词汇表对预训练模型进行预训练，以获取目标预训练模型。由于中文词汇表的分词是经过分词及非常用语词切分得到的，可以使得中文词汇表保留了部分常用短语，与传统的逐字组成的中文词汇表相比，可以大大的减少了词汇表的词汇数量和大小，因此，利用本发明提供的中文词汇表输入到模型的长度较短，有效地避免了如果全部分成单个字，导致输入到预训练模型的长度较长的问题，提升了后续预训练的训练效率，另外值得注意的是，中文当中有非常多的常用语，其由多个字组成，如“快乐”，如果将其作为一个整体输入到模型，模型更容易理解其含义，也使得基于本发明提供的词汇表训练出的预训练模型更具有使用价值，有利于下游任务的微调和应用。

在一实施例中，需要说明的是，在对第一中文语料进行分词处理，得到初步分词结果的过程中，除了采用常规的预设分词算法，例如jieba分词算法外进行分词之外，还可以有其他的分词方式以获取初步分词结果。具体地，如图2所示，步骤S10中，即对所述第一中文语料进行分词处理，得到初步分词结果，具体包括如下步骤：

S11：获取预设前缀词典。

需要说明的是，预设前缀词典是一种包含各种前缀对应的分词的词典。预设前缀词典可通过统计词典获取，具体在此不展开描述。需要了解的是，预设前缀词典中包含了某个前缀对应的各种分词，举个简单例子，如统计词典中的词为“新冠疫苗”的前缀分别是“新”、“新冠”、“新冠疫”。

以此类推，可以得到统计词典中所有词的形成的前缀词典作为预设前缀词典。

S12：基于所述预设前缀词典对所述第一中文语料的各个句子进行词图扫描，以获取所述各个句子中每个汉字的所有可能词切分方式。

S13：根据所述各个句子中每个汉字的所有可能词切分方式构建目标有向无环图。

在本发明中，在获取到预设前缀词典之后，便可基于所述预设前缀词典对所述第一中文语料的各个句子进行扫描，以获取所述各个句子中每个汉字的所有可能词切分方式。也就是说，基于预设前缀词典对输入的中文语料进行切分，以获取第一中文语料中各个句子的每个汉字对应的所有可能词切分方式，此时，依据所有可能词切分方式，对于某个句子而言，就存在多条词切分路径，因此，可以构建出各个句子对应的词切分方式构建目标有向无环图。

例如，以前述句子1“新冠疫苗开发”为例，对于该句子，基于预设前缀词典，可构建该句子中每个字的所有可能词切分方式，存在如下词切分路径，包括如下情况：

路径1：新/冠/疫/苗/开/发/；

路径2：新冠/疫/苗/开/发/；

路径3：新冠/疫苗/开/发/；

路径4：新冠/疫苗/开发/；

路径n...。

可以理解，对于第一中文语料的多个句子，均可以获取多个相应的词切分路径，从而构建相应的目标有向无环图。需要说明的是，目标有向无环图就是指依据词切分路径所建立的路径示意图，包括各种的词切分结果。

S14：对所述目标有向无环图查找最大词频概率路径，并将最大词频概率路径对应的词切分组合作为所述初步分词结果。

在构建出目标有向无环图之后，便可对所述目标有向无环图查找最大词频概率路径，并将最大词频概率路径对应的词切分组合作为所述初步分词结果。例如，对于构建的目标有向无环图进行路径查询时，先是确定目标有向无环图对应的每条词切分路径，继而确定出每条词切分路径对应的每个分词的词频，也就是每个分词在第一中文语料找出现的次数，将每条词切分路径对应的每个分词的词频的求取总概率，从而对应获取到每条词切分路径的词频概率，并从每条词切分路径的词频概率中找出最大的概率对应的词切分路径，也即最大词频概率路径，最大词频概率路径对应的词切分组合就是初步分词结果。

例如，以前述例子句子1为例，确定该句子1对应的路径1、路径2、路径3、路径4、...路径n之后，基于词频的方式依次确定每条路径对应的概率，并确定出最大概率的路径，也即最大概率切分组合作为该句子1的初步分词结果。对于第一中文语料的所有句子，均是类似的处理的方式，这里不一一说明。

可见，本发明中，提出了一种具体的获取到初步分词结果的方式，提高了方案的可实施性。

在一实施例中，在获取到初步分词结果之后，为了压缩用于预训练的中文词汇表的大小同时去除非常用短语，本发明中，需进一步对初步分词结果进行词切分，具体地，如图3所示，步骤S20中，也即述所述初步分词结果的非常用词进行词切分，以获取目标分词结果，具体包括如下步骤：

S21：获取预设BPE词汇表，所述预设BPE词汇表为根据BPE算法所获取的分词词汇表。

字节对(byte pair encoding，BPE)算法，是一种根据字节对进行编码的算法，在本发明中，可以基于某种分词需求创建一个用BPE算法生成的词汇表，在本发明实施例中称为预设BPE词汇表。需要说明的是，在对第一中文语料进行分词得到初步分词结果之后，可能存在部首非常用词，为了减少对后续预训练模型的影响，减少由于初步分词结果的分词局限导致后续模型无法充分学习到各词的词缀之间的关系，以及无法无法很好处理未知或罕见词的问题，本发明实施例中还会进一步通过BPE词汇表对初步分词结果进行词切分，使得后续预训练模型能充分学习到语义信息。

在一实施例中，所述预设BPE词汇表通过如下方式获取，如图4所示，包括如下步骤a-f，现在分别详细描述，如下：

a、获取第二中文语料。

b、对所述第二中文语料的每个文字和标点符号进行拆分，以获取多个拆分单元。

其中，为了区别于前述的第一中文语料，本发明中将用于创建该预设BPE词汇表的中文语料称为第二中文语料。在需创建预设BPE词汇表时，需获取大量的语料作为第二中文语料，并对所述第二中文语料的每个文字和标点符号进行拆分，将拆分出来的文字或符号作为一个拆分单元，从而获取到多个拆分单元。

例如，若第二中文语料中的某个句子1为例，若该句子1为“推迟新冠疫苗开发”，则会对该句子1的每个文字进行拆分，以获取每个文字，从而拆分成多个独立的文字。结果如下“推迟新冠疫苗开发”。将每个单独的文字拆解出来作为独立的拆分单元。如“推”，便是一个拆分单元。

又例如，第二中文语料中的某个句子2为例，若该句子2为“由于经费有限，需推迟新冠疫苗开发”，则会对该句子2的每个文字的标点符号进行拆分，以获取每个拆分对象，从而拆分成多个独立的文字。结果如下“由于经费有限，需推迟新冠疫苗开发”。将每个单独的文字和符号拆解出来作为独立的拆分单元。如“推”便是一个拆分单元，“，”也是一个独立的拆分单元。

c、将相邻的所述拆分单元作为相邻单元对，并统计所有所述相邻单元对的频数。

在对所述第二中文语料的每个文字和标点符号进行拆分，以获取多个拆分单元之后，将相邻的所述拆分单元作为相邻单元对，并统计所有所述相邻单元对的频数。

例如，以前述句子1为例，对该句子1进行拆解后的多个拆分单元为：“推迟新冠疫苗开发”，那么“推”和“迟”便是相邻单元对、“迟”和“新”也是相邻单元对。在确定出第二中文语料对应的所有相邻单元对之后，便可以基于该第二中文语料，确定出每个相邻单元对在第二中文语料出现的次数作为该相邻单元对的频数。

d、选择所述频数最高的所述相邻单元对合并成新的拆分单元。

在统计了第二中文语料对应的所有相邻单元对的频数之后，选择所述频数最高的所述相邻单元对合并成新的拆分单元。

例如，以前述句子1为例，对该句子1进行拆解后的多个拆分单元为：“推迟新冠疫苗开发”，若“推迟”这一相邻单元对的频数最高，则将该相邻单元对合并成新的拆分单元“推迟”。那么对于该句子1而言，最后的拆分单元为“推迟新冠疫苗开发”。

e、重复所述c-d步骤直至满足预设条件。

f、根据满足所述预设条件的剩余所述拆分单元构建所述预设BPE词汇表。

对于步骤，d-f，在选择所述频数最高的所述相邻单元对合并成新的拆分单元之后，新的拆分单元与剩下的拆分单元又重新组合成新的拆分单元组，随后重复上述步骤d-d直至满足预设条件。需要说明的是，该预设条件可以是最后拆分的拆分单元数量满足预设数量，或者最后合并的相邻单元对的频数大于某个预设阈值，其中，预设数量或预设阈值在此不做限定。最后将满足预设条件的剩余拆分单元构建所述预设BPE词汇表即可。

值得注意的是，依据上述预设条件的不同，使得本发明实施例可以根据实际应用场景或需求去配置所需的BPE词汇表作为预设BPE词汇表。

S22：将所述初步分词结果的分词与所述预设BPE词汇表的分词进行匹配，以确定出所述初步分词结果中不存在于所述预设BPE词汇表的分词。

在得到上述预设BPE词汇表之后，基于预设条件的设置，使得预设BPE词汇表的中保留了常用的词，而非常用词则被剔除掉，因此，本发明将所述初步分词结果的分词与所述预设BPE词汇表的分词进行匹配，以以确定出所述初步分词结果中不存在于所述预设BPE词汇表的分词，也就是非常用词。

S23：将所述初步分词结果中不存在于所述预设BPE词汇表的分词进行再拆分，以获取所述目标分词结果。

在将所述初步分词结果的分词与所述预设BPE词汇表的分词进行匹配，以确定出所述初步分词结果中不存在于所述预设BPE词汇表的分词之后，将所述初步分词结果中不存在于所述预设BPE词汇表的分词进行再拆分，以获取所述目标分词结果。可以理解，这里所谓的不存在于所述预设BPE词汇表的分词，便是经过筛选的不常用的分词，为降低对后续预训练模型的自监督学习影响，需对此类不匹配的分词进行再拆分，从而获取到最终的目标分词结果。

需要说明的是，在本发明中，可以根据实际应用场景或需求去配置所需的BPE词汇表作为预设BPE词汇表，并参与到初步分词结果的词切分中，可以使得到的目标分词结果更符合所需，且能合理的降低用于预训练模型训练的中文词汇表的大小，经过实验验证，经过本发明实施例处理后的中文词汇表大约为可以是5000-7500，具体可取决于上述预设条件的限制，极大的降低了中文词汇表的大小，降低了输入中预训练模型的参数，使预训练模型变小，有利于提高预训练的训练效率。同时，分词处理保持了中文特点的常用短语且剔除了非常用短语的影响，在提高预训练模型训练效率的同时，也能使得训练出的预训练模型学习到更到中文的词信息，具有较高的应用价值。

在一实施例中，在得到对应的中文词汇表之后，则可以利用该中文词汇表进行预训练，以获取目标预训练模型。其中，如图5所示，S40中，也即利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型，具体包括如下步骤：

S41：依次获取所述中文词汇表中分词对应的分词标记向量。

在获取到中文词汇表之后，便可以对中文词汇表中的词汇进行词向量处理，以获取用于输入至预训练网络结构的训练向量。具体地，需先依次获取所述中文词汇表中的分词进行编码，以将中文词汇表中的每个词汇作为一个标记(Token)转化为词向量，本发明中将所述中文词汇表中分词对应的向量称为分词标记向量。

S42：获取所述中文词汇表中分词对应的分词位置向量。

可以理解，中文词汇表中具有第一中文语料对应的多个分词，而每个分词的位置也是不同的。为了学习出每个分词中所表达的含义以及各分词之间的关联性，在进行预训练时，需对每个分词的分词位置信息进行编码，以获取中文词汇表中每个分词对应的分词位置向量，也即：该分词位置向量用于表征分词的位置信息。

S43：对所述中文词汇表中的部分分词进行掩码处理，以获取分词掩码向量。

可以理解的是，预训练模型在预训练时是基于某种预测任务进行自监督学习的，其中，预测任务包括对第一中文语料中某个句子被掩码的分词进行预测。因此，为了能准确预测使得预训练模型学习到更多语义信息，本发明实施例还需对中文词汇表的部分词汇进行掩码处理。可以理解，这里所谓的掩码，指的是利用一个特殊的符号[MASK]来代替中文词汇表中被掩码的分词，之后预训练网络进行自监督学习，从而学习出被[MASK]替代的分词应该是什么字或者由哪些字组成，或者对被掩码的所述分词的汉字数量进行预测例如，上述句子“推迟新冠疫苗开发”，其中的“推迟”可被掩码处理，最后变成“[MASK]新冠疫苗开发”。其中，本发明实施例中，可用分词掩码向量去表征掩码关系，例如，针对上述句子，对应的分词掩码向量可以为[0 1 1 11]，其中，0表示掩码，1表示为掩码。

需要说明的是，分词掩码向量在此仅为示例性说明可有其他形式，具体不做限定。

S44：将中文词汇表中所述分词标记向量、分词位置向量和分词掩码向量进行拼接，以获取模型输入训练向量。

S45：按照目标预测任务将所述获取模型输入训练向量输入所述预训练模型进行预训练，以获取所述目标预训练模型，其中，所述目标预测任务包括对被掩码的所述分词的汉字数量进行预测。

可以理解，在经过前述处理之后，对于中文词汇表中的多个分词，均可获取到每个分词对应的分词标记向量、分词掩码向量、分词位置向量，并将中文词汇表中所有分词对应的分词标记向量、分词掩码向量、分词位置向量进行拼接并输入至预训练网络中进行自监督学习训练，由于做了掩码处理，可见，预训练的任务之一是对于语料中的某些分词的做掩码处理并对被掩码的所述分词的汉字数量进行预测，最终得到自监督学习完成的目标预训练模型。

需要说明的是，本发明所采用的预训练网络模型可以是BERT等预训练网络结构，具体依据输入训练向量进行自监督学习的过程与预训练网络结构相关，故在此不一一展示说明，本发明不限制具体的预训练网络模型。

可以理解，经过本发明实施例的处理之后，便可获得相应的目标预训练模型。那么基于该目标预训练模型，便可依据下游任务需求，例如文本实体标注需求、文本问答等下游任务进行微调，从而获取到所需的下游任务处理模型。以疾病的实体标注为例，传统上，在对预训练模型进行微调以获取实体标注模型时，由于所采用的预训练模型是采样将中文字单独拆拆开，也就是逐字构成的词汇表所预训练而成，由于中文文字较多，这样的中文词汇表，除了词表的文字量比较巨大，且无法体现中文短语等特性，导致预训练模型无法更深入的学习到中文短语的特征，那么基于传统的预训练模型所微调的实体标注模型可能存在准确率或识别效率较差的问题。

对于上述问题，本发明另一实施例提供了一种基于预训练模型的疾病实体标注方法，如图6所示，包括如下步骤：

S101：获取经过人工标注疾病实体的实体标注文本训练数据。

先是获取大量医用文本，并进行人工标注，以标注出疾病实体，例如糖尿病等疾病实体。并将经过标注的医用文本作为实体标注文本训练数据

S102：利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型，所述目标预训练模型为经过所述预训练模型获取方法获取的预训练模型。

随后便可通过实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型。其中，目标预训练模型为经过如前述基于词汇表的预训练模型获取方法所获取的预训练模型。具体地微调过程在此不展开说明。

S103：在需对待识别医用文本进行疾病实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果。

针对某段待识别医用文本，在具有疾病实体标注需求时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果。

可见，本发明提供了一种基于预训练模型的疾病实体标注方法，经过本发明实施例的处理之后，由于所采用的目标预训练模型是本发明中基于词汇表的预训练模型获取方法所获取的预训练模型，由前述实施例可知，本发明中的目标预训练模型是基于本发明特定的中文词汇表所预训练得到，该中文词汇表能体现许多短语特性，使得目标预训练模型能更深入的学习到中文短语的特征，因此，能使得基于本发明的目标预训练模型所微调的实体标注模型准确率或识别效率更好。

本发明所提供的目标预训练模型还适用于各种各样的自然语言处理下游任务中，具体不做限定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于词汇表的预训练模型获取装置，该基于词汇表的预训练模型获取装置与上述实施例中基于词汇表的预训练模型获取方法一一对应。如图7所示，该基于词汇表的预训练模型获取装置包括第一分词模块101、第二分词模块102、创建模块103和预训练模块104。各功能模块详细说明如下：

第一分词模块101，用于获取第一中文语料，并对所述第一中文语料进行分词处理，得到初步分词结果；

第二分词模块102，用于对所述初步分词结果的非常用词进行词切分，以获取目标分词结果；

创建模块103，用于根据所述目标分词结果创建预训练模型的中文训练词汇表；

预训练模块104，用于利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型。

在一实施例中，第一分词模块101具体用于：

获取预设前缀词典；

基于所述预设前缀词典对所述第一中文语料的各个句子进行扫描，以获取所述各个句子中每个汉字的所有可能词切分方式；

根据所述各个句子中每个汉字的所有可能词切分方式构建目标有向无环图；

对所述目标有向无环图查找最大词频概率路径，并将最大词频概率路径对应的词切分组合作为所述初步分词结果。

在一实施例中，第二分词模块102具体用于：

获取预设BPE词汇表，所述预设BPE词汇表为根据BPE算法所获取的分词词汇表；

将所述初步分词结果的分词与所述预设BPE词汇表的分词进行匹配，以确定出所述初步分词结果中不存在于所述预设BPE词汇表的分词；

将所述初步分词结果中不存在于所述预设BPE词汇表的分词进行再拆分，以获取所述目标分词结果。

在一实施例中，第二分词模块102具体用于通过如下方式获取：

a、获取第二中文语料；

b、对所述第二中文语料的每个文字和标点符号进行拆分，以获取多个拆分单元；

c、将相邻的所述拆分单元作为相邻单元对，并统计所有所述相邻单元对的频数；

d、选择所述频数最高的所述相邻单元对合并成新的拆分单元；

e、重复所述c-d步骤直至满足预设条件；

在一实施例中，所述预设件包括所述剩余拆分单元的数量满足预设数量。

在一实施例中，预训练模块104具体用于：

依次获取所述中文词汇表中分词对应的分词标记向量；

获取所述中文词汇表中分词对应的分词位置向量；

对所述中文词汇表中的部分分词进行掩码处理，以获取分词掩码向量；

将中文词汇表中所述分词标记向量、分词位置向量和分词掩码向量进行拼接，以获取模型输入训练向量；

按照目标预测任务将所述获取模型输入训练向量输入所述预训练模型进行预训练，以获取所述目标预训练模型，其中，所述目标预测任务包括对被掩码的所述分词的汉字数量进行预测。

可见，在本发明实施例中，提出了一种基于词汇表的预训练模型获取装置，先是获取第一中文语料，并对第一中文语料进行分词处理，得到初步分词结果；对初步分词结果的非常用词进行词切分，以获取目标分词结果；根据目标分词结果创建预训练模型的中文词汇表；最后利用该中文词汇表对预训练模型进行预训练，以获取目标预训练模型。由于中文词汇表的分词是经过分词及非常用语词切分得到的，可以使得中文词汇表保留了部分常用短语，与传统的逐字组成的中文词汇表相比，可以大大的减少了词汇表的词汇数量和大小，因此，利用本发明提供的中文词汇表输入到模型的长度较短，有效地避免了如果全部分成单个字，导致输入到预训练模型的长度较长的问题，提升了后续预训练的训练效率，另外值得注意的是，中文当中有非常多的常用语，其由多个字组成，如“快乐”，如果将其作为一个整体输入到模型，模型更容易理解其含义，也使得基于本发明提供的词汇表训练出的预训练模型更具有使用价值，有利于下游任务的微调和应用。

在一实施例中，提供一种基于预训练模型的疾病实体标注装置，该基于预训练模型的实体标注与上述实施例中基于预训练模型的疾病实体标注方法一一对应。如图8所示，该基于词汇表的预训练模型获取装置包括获取模块201、处理模块202和识别模块203。各功能模块详细说明如下：

获取模块201，用于获取经过人工标注的疾病实体的实体标注文本训练数据；

处理模块202，用于利用实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型，所述目标预训练模型为经过所述预训练模型获取方法获取的预训练模型；

识别模块203，用于在需对待识别医用文本进行实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果。

可见，本发明提供了一种基于预训练模型的疾病实体标注装置，经过本发明实施例的处理之后，由于所采用的目标预训练模型是本发明中基于词汇表的预训练模型获取方法所获取的预训练模型，由前述实施例可知，本发明中的目标预训练模型是基于本发明特定的中文词汇表所预训练得到，该中文词汇表能体现许多短语特性，使得目标预训练模型能更深入的学习到中文短语的特征，因此，能使得基于本发明的目标预训练模型所微调的实体标注模型准确率或识别效率更好。

关于预训练模型获取装置或疾病实体标注装置的具体限定，可以对应参见上文中对于预训练模型获取方法或疾病实体标注方法的限定，在此不再赘述。上述预训练模型获取装置或疾病实体标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预训练模型获取方法或疾病实体标注方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

根据所述目标分词结果创建预训练模型的中文词汇表；

获取经过人工标注疾病实体的实体标注文本训练数据；

利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型，所述目标预训练模型为经过如前述实施例所述的预训练模型获取方法所获取的预训练模型；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据所述目标分词结果创建预训练模型的中文词汇表；

获取经过人工标注疾病实体的实体标注文本训练数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于预训练模型的疾病实体标注方法，其特征在于，包括：

获取经过人工标注疾病实体的实体标注文本训练数据；

利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型；

在需对待识别医用文本进行疾病实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果；

所述目标预训练模型通过如下方式训练：

根据所述目标分词结果创建预训练模型的中文词汇表；

利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型；

其中，所述获取目标分词结果包括：获取预设BPE词汇表，所述预设BPE词汇表为根据BPE算法所获取的分词词汇表，其中，所述预设BPE词汇表通过如下方式获取：

a、获取第二中文语料；

e、重复所述c-d步骤直至满足预设条件；

将所述初步分词结果中不存在于所述预设BPE词汇表的分词进行再拆分，以获取所述目标分词结果；

其中，所述获取目标预训练模型包括：依次获取所述中文词汇表中分词对应的分词标记向量；

获取所述中文词汇表中分词对应的分词位置向量；

将所述中文词汇表中所述分词标记向量、分词位置向量和分词掩码向量进行拼接，以获取模型输入训练向量；

2.如权利要求1所述的疾病实体标注方法，其特征在于，所述对所述第一中文语料进行分词处理，得到初步分词结果，包括：

获取预设前缀词典；

对所述目标有向无环图查找最大词频概率路径，并将所述最大词频概率路径对应的词切分组合作为所述初步分词结果。

3.如权利要求1所述的疾病实体标注方法，其特征在于，所述预设条件包括剩余拆分单元的数量满足预设数量。

4.一种基于预训练模型的疾病实体标注装置，其特征在于，包括：

处理模块，用于利用所述实体标注文本训练数据对目标预训练模型进行微调，以获取疾病实体标注模型；

识别模块，用于在需对待识别医用文本进行疾病实体标注时，将所述待识别医用文本输入至所述疾病实体标注模型中，以获取所述疾病实体标注模型输出的疾病实体标注结果；

所述目标预训练模型通过如下方式训练：

创建模块，用于根据所述目标分词结果创建预训练模型的中文词汇表；

预训练模块，用于利用所述中文词汇表对所述预训练模型进行预训练，以获取目标预训练模型；

a、获取第二中文语料；

e、重复所述c-d步骤直至满足预设条件；

获取所述中文词汇表中分词对应的分词位置向量；

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的疾病实体标注方法的步骤。