CN111832291A

CN111832291A - 实体识别模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN111832291A
Application number: CN202010487535.1A
Authority: CN
Inventors: 黄炼楷; 林英展; 叶路; 黄世维
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-10-27
Anticipated expiration: 2040-06-02
Also published as: CN111832291B

Abstract

本申请公开了实体识别模型的生成方法、装置、电子设备及存储介质，涉及自然语言处理、深度学习和语音交互技术领域。具体方案为：通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务。因此本申请不仅能够节约云端服务器的资源，还能在无法请求云端服务器的情况下仍能实现智能交互，可用性强。

Description

实体识别模型的生成方法、装置、电子设备及存储介质

技术领域

本申请的实施例总体上涉及计算机技术领域，并且更具体地，涉及自然语言处理、深度学习和语音交互技术领域。

背景技术

随着人工智能和物联网技术的快速发展，越来越多的智能设备具备了智能语音交互能力，比如智能穿戴设备、智能音箱、智能机器人等。智能设备的智能交互能力依赖于云端对话实体识别服务，其中自然语言理解(Natural Language Understanding，NLU)对云端对话实体识别服务的依赖尤其严重，当智能设备无法请求云端对话实体识别服务时，NLU技术也不可用，导致智能设备无法实现智能交互。

然而，目前尚没有解决方案来解决上述问题。

发明内容

本申请提供了一种实体识别模型的生成方法、装置、电子设备及存储介质。

根据第一方面，提供了一种实体识别模型的生成方法，包括：

获取实体识别母模型和第一标注数据，其中，所述实体识别母模型和所述第一标注数据对应多个实体类别；

根据所述实体识别母模型生成实体识别源模型；

根据所述第一标注数据生成针对目标实体类别的第二标注数据；

根据所述实体识别源模型生成针对所述目标实体类别的实体识别目标模型；以及

根据所述第二标注数据对所述实体识别目标模型进行训练。

根据第二方面，提供了一种实体识别模型的生成装置，包括：

获取模块，用于获取实体识别母模型和第一标注数据，其中，所述实体识别母模型和所述第一标注数据对应多个实体类别；

第一生成模块，用于根据所述实体识别母模型生成实体识别源模型；

第二生成模块，用于根据所述第一标注数据生成针对目标实体类别的第二标注数据；

第三生成模块，用于根据所述实体识别源模型生成针对所述目标实体类别的实体识别目标模型；以及

训练模块，用于根据所述第二标注数据对所述实体识别目标模型进行训练。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的实体识别模型的生成方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的实体识别模型的生成方法。

本申请提供的实体识别模型的生成方法、装置、电子设备及存储介质，存在如下有益效果：

通过获取对应多个类别的实体识别母模型和第一标注数据，并根据实体识别母模型生成实体识别源模型，以及根据第一标注数据生成针对目标实体类别的第二标注数据，进而根据实体识别源模型生成实体识别目标模型，并利用第二标注数据对实体识别目标模型进行训练，由此，实现了对话实体识别模型的迁移，并且，通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。此外，也由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务。因此本申请不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的实体识别模型的生成方法的流程示意图；

图2是根据本申请第二实施例的实体识别模型的生成方法的流程示意图；

图3是根据本申请第三实施例的实体识别模型的生成方法的流程示意图；

图4是根据本申请第四实施例的实体识别模型的生成方法的流程示意图；

图5是根据本申请第五实施例的实体识别模型的生成方法的流程示意图；

图6是实现本申请实施例的实体识别模型的生成方法的过程示例图；

图7是源模型迁移至目标模型的示例图；

图8是根据本申请第六实施例的实体识别模型的生成装置的结构示意图；

图9是根据本申请第七实施例的实体识别模型的生成装置的结构示意图；

图10是根据本申请第八实施例的实体识别模型的生成装置的结构示意图；

图11是根据本申请第九实施例的实体识别模型的生成装置的结构示意图；

图12是根据本申请第十实施例的实体识别模型的生成装置的结构示意图；

图13是用来实现本申请实施例的实体识别模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请的实体识别模型的生成方法、装置、电子设备及存储介质。

随着人工智能和物联网技术的快速发展，越来越多的智能设备具备了智能语音交互能力，比如智能穿戴设备、智能音箱、智能机器人等。智能设备的智能交互能力依赖于云端对话实体识别服务，其中自然语言理解对云端对话实体识别服务的依赖尤其严重。

对话实体识别技术作为自然语言理解的一个重要基础服务，由于问题的复杂性和服务的高要求，需要一台甚至多台性能高的服务器来运行复杂庞大的模型，作为远端服务被外部智能设备以http请求的方式来调用，以提供对话实体识别服务。智能设备的网络情况相对比较复杂，比如智能车载设备可能进入隧道或者偏远地区，网络出现不可用的情况，此时无法正常调用云端对话实体识别服务，使得智能车载设备的功能受很大影响。

目前，针对智能设备无法请求云端对话实体识别服务的情况，主要通过预设的规则，比如正则表达式、关键字匹配等规则，来满足常用的关键需求。

然而，基于特定规则来满足关键需求的方式，一条规则只能应付一种情况，灵活性差，并且，规则能够覆盖的需求有限，无法满足自然语言理解的需求，需求满足度低。此外，随着智能设备的迭代更新，规则会越积越多，规则之间可能出现重复或者冲突，导致维护成本越来越高，可维护性差。

针对上述问题，本申请公开了一种实体识别模型的生成方法，通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。此外，也由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务。因此本申请不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性，使得智能设备在运行内存、处理器、能耗等硬件条件苛刻的情况下也能提供足够的对话实体识别能力。通过将实体识别目标模型运行在智能设备本地，避免了现有技术中通过规则来满足关键需求导致的灵活性差、需求满足度低、可维护性差的问题。

图1是根据本申请第一实施例的实体识别模型的生成方法的流程示意图，该方法可以由本申请提供的实体识别模型的生成装置执行，也可以由本申请提供的电子设备执行，其中，电子设备可以是服务器，也可以是台式电脑、笔记本电脑等终端设备。下面以由本申请提供的实体识别模型的生成装置来执行本申请提供的实体识别模型的生成方法为例来解释说明本申请。

如图1所示，该实体识别模型的生成方法，可以包括以下步骤：

步骤101，获取实体识别母模型和第一标注数据，其中，实体识别母模型和第一标注数据对应多个实体类别。

其中，实体识别母模型是一个功能完善、服务质量高的云端对话实体识别服务模型，该模型为已经训练好的模型。

本实施例中，获取实体识别母模型，可以从向具备智能语音交互能力的智能设备提供对话实体识别服务的云端服务器中获取，云端服务器中运行了复杂庞大的实体识别模型来向智能设备提供对话实体识别服务，从而本实施例中，可以获取云端服务器中的实体识别模型作为实体识别母模型。

第一标注数据可以通过对获取的大规模高质量的对话语料进行标注得到，其中，大规模的对话语料可以从大数据平台中获取，也可以从对话管理平台中获取，对话管理平台为用户提供服务的同时也积累了大量的数据，因此可以从对话管理平台中获取积累的数据作为对话语料。本实施例中，对于获取的大规模对话语料，可以将对话语料输入至获取的实体识别母模型中进行标注，得到实体识别结果，并根据实体识别结果对对应的对话语料进行标注，得到第一标注数据。

由于实体识别母模型是从云端服务器获取的用于向智能设备提供实体识别服务的模型，具备比较完善的实体识别能力，可以识别出人名、地名、音乐、组织机构名等二十多个实体类别，因此利用实体识别母模型对大规模对话语料进行标注，可以标注出二十多个实体类别，得到全功能的标注数据；又由于采用实体识别母模型对对话语料进行标注，无需人工标注，节省了人力和时间成本，提高了效率，但相较于人工标注的正确数据，采用实体识别母模型获得的实体识别结果可能存在一定的偏差，因此标注得到的数据可以称之为弱标注数据。因此，由实体识别母模型对大规模对话语料进行标注得到的第一标注数据，也可以称之为全功能的弱标注数据。

本实施例中，获取的实体识别母模型和第一标注数据对应多个实体类别。需要说明的是，多个实体类别可以包括尽可能多的实体类别，比如人名、组织机构名、地名等二十多个实体类别。

步骤102，根据实体识别母模型生成实体识别源模型。

本实施例中，获取了实体识别母模型之后，可以将实体识别母模型的模型能力迁移至简单模型中，得到一个预测能力尽可能逼近亦或是超过实体识别母模型的实体识别源模型，从而，通过将复杂的实体识别母模型中的模型能力迁移至简单的实体识别源模型中，可以使用更少的复杂度获得类似的预测效果。

作为一种示例，可以根据实体识别母模型的网络结构，构建一个与实体识别母模型同样结构的简单网络，再将实体识别母模型的模型参数复制到简单网络中，利用获取的第一标注数据对简单模型进行训练，得到功能完善的实体识别源模型。由于第一标注数据对应多个实体类别，从而，根据第一标注数据训练得到的实体识别源模型也对应多个实体类别。

步骤103，根据第一标注数据生成针对目标实体类别的第二标注数据。

其中，目标实体类别可以根据智能设备的具体应用场景确定，比如，对于应用于导航场景的智能设备，可以确定对应的目标实体类别为地名和组织机构名。

本实施例中，第一标注数据中涵盖了尽可能多的实体类别，但在不同的应用场景中，智能设备并非需要具备能够识别出所有实体类别的识别能力，其只需满足所应用场景的识别能力即可，因此本实施例中，可以根据第一标注数据，生成针对目标实体类别的第二标注数据。也就是说，可以根据智能设备具体应用场景中，所需具备的对目标实体类别进行识别的能力，从第一标注数据中筛选出第二标注数据。能够理解的是，第二标注数据中的数据个数不大于第一标注数据中的数据个数。

进一步地，在本申请实施例一种可能的实现方式中，在生成第二标注数据之后，还可以对第二标注数据的实体标签体系进行重建，将第二标注数据的实体标签体系重建为仅包含与目标实体类别的类别个数相同的标签类别数的实体标签体系。由于第一标注数据涵盖了尽可能多的实体类别，比如第一标注数据的实体标签体系可能包括二十个实体类别，根据第一标注数据生成的第二标注数据中，虽然仅包含了目标实体类别的数据，但第二标注数据的实体类别体系仍然包含了二十个实体类别，当利用第二标注数据对模型进行训练时，模型需要学习二十个实体类别的分类。而通过对第二标注数据的实体标签体系进行重建，将第二标注数据的实体标签体系重建为仅包含与目标实体类别的类别个数相同的标签类别数的实体标签体系，比如目标实体类别包括地名和组织机构名两个，则重建后的第二标注数据的实体标签体系仅包括地名和组织机构名两个实体类别，从而模型仅需学习两个实体类别的分类，由此，降低了模型的学习难度。

步骤104，根据实体识别源模型生成针对目标实体类别的实体识别目标模型。

作为一种示例，可以根据实体识别源模型的网络结构，先构造一个与实体识别源模型的网络结构相同的目标模型，再将实体识别源模型的表征层参数复制到目标模型对应的表征层中，得到实体识别目标模型。其中，表征层是指模型中对输入的对象进行表征学习的层，比如字符嵌入表示层、双向门控循环单元(Gated Recurrent Unit，GRU)层、长短期记忆网络(Long Short-Term Memory，LSTM)层，等等。由于本申请实施例中的实体识别目标模型是用于具体应用场景下的智能设备的，以使智能设备具备对目标实体类别的识别能力，因此本申请实施例的实体识别目标模型是针对目标实体类别的。

步骤105，根据第二标注数据对实体识别目标模型进行训练。

本实施例中，生成了实体识别目标模型之后，可以利用获取的第二标注数据对实体识别目标模型进行训练，得到训练好的实体识别目标模型。在对实体识别目标模型进行训练时，可以通过深度学习的方式进行训练，相比于其他机器学习方法，深度学习在大数据集上的表现更好。通过深度学习的方式训练实体识别目标模型时，将第二标注数据中的语料数据作为输入，将语料数据标注的实体类别作为输出结果，通过不断地调整实体识别目标模型的模型参数对实体识别目标模型进行迭代训练，直至实体识别目标模型输出结果的准确率满足预先设定的阈值，训练结束，得到训练好的实体识别目标模型。

进一步地，对实体识别目标模型训练完成之后，可以将训练好的实体识别目标模型部署在需要实现对目标实体类别进行识别的智能设备中运行，以使得智能设备能够利用实体识别目标模型实现实体识别能力，提供对话实体识别服务，不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性。通过在智能设备上部署实体识别目标模型来实现实体识别，无需通过特定的规则来满足常用的需求，有利于提高智能设备的需求满足度和灵活性，且可维护性高，从而避免了现有技术中通过规则来满足关键需求导致的灵活性差、需求满足度低、可维护性差的问题。

本实施例的实体识别模型的生成方法，通过获取对应多个类别的实体识别母模型和第一标注数据，并根据实体识别母模型生成实体识别源模型，以及根据第一标注数据生成针对目标实体类别的第二标注数据，进而根据实体识别源模型生成实体识别目标模型，并利用第二标注数据对实体识别目标模型进行训练，由此，实现了对话实体识别模型的迁移。并且，通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。此外，也由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务，从而不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性。

为了更加清楚地描述前述实施例中根据实体识别母模型生成实体识别源模型的具体实现过程，下面结合附图2进行详细说明。

图2是根据本申请第二实施例的实体识别模型的生成方法的流程示意图，如图2所示，在如图1所示实施例的基础上，步骤102可以包括以下步骤：

步骤201，获取多个语料样本。

作为一种示例，可以从大数据平台、对话管理平台等平台中获取平台积累的大量数据作为语料样本，语料样本是未标注的数据。

步骤202，根据实体识别母模型对多个语料样本进行识别以生成多个实体识别结果。

步骤203，将多个实体识别结果和多个语料样本作为第一标注数据。

本实施例中，对于获取的多个语料样本，可以将多个语料样本输入至实体识别母模型中，利用实体识别母模型对多个语料样本进行实体识别，得到多个实体识别结果，其中，每个语料样本对应一个实体识别结果。

接着，可以利用获取的每个实体识别结果，对对应的语料样本进行标注，得到一条标注数据，多个实体识别结果和多个语料样本构成了第一标注数据。

其中，第一标注数据具备全标签体系，包括尽可能多的实体类别。

步骤204，使用知识蒸馏方式通过第一标注数据生成实体识别源模型，其中，实体识别源模型针对多个实体类别。

知识蒸馏可以将一个网络的知识(即学习到的模型参数)转移到另一个网络，两个网络可以是同构的，或者也可以是异构的。知识蒸馏可以用来将网络从大网络转化成一个小网络，并保留接近于大网络的性能。

本实施例中，由于实体识别母模型是部署在云端服务器中进行线上运行的模型，其规模很大，因此可以使用知识蒸馏方式，将实体识别母模型中的知识转移到一个简单的模型中，并通过第一标注数据对简单模型进行训练，得到实体识别源模型。由于第一标注数据对应多个实体类别，因此使用知识蒸馏方式通过第一标注数据生成的实体识别源模型，也同样对应多个实体类别。

使用知识蒸馏方式通过第一标注数据生成实体识别源模型时，需要获取第一标注数据中各个语料样本的真实实体类别，语料样本的真实实体类别可以通过人工标注的方式进行标注，其中，标注了真实实体类别的多个语料样本可以成为硬目标。接着，利用第一标注数据和硬目标对实体识别源模型进行训练，得到训练好的实体识别源模型。由于第一标注数据是通过实体识别母模型进行标注的，通过利用第一标注数据训练生成实体识别源模型，实现了实体识别母模型至实体识别源模型的知识迁移，并且简化了实体识别源模型的结构。

本实施例的实体识别模型的生成方法，通过获取多个语料样本，并根据实体识别母模型对多个语料样本进行识别以生成多个实体识别结果，进而将多个实体识别结果和多个语料样本作为第一标注数据，使用知识蒸馏方式通过第一标注数据生成实体识别源模型，由此，通过使用知识蒸馏方式生成实体识别源模型，实现了从复杂模型到简单模型的转换，在保证了模型的识别能力的同时，降低了模型的复杂度。

不同的运行场景下，智能设备所需实现的实体识别能力不同，因此在本申请实施例一种可能的实现方式中，可以根据实际的运行场景需求来确定目标实体类别，进而获取所需的第二标注数据。下面结合附图3进行详细说明。

图3是根据本申请第三实施例的实体识别模型的生成方法的流程示意图，如图3所示，在如图1所示实施例的基础上，步骤103可以包括以下步骤：

步骤301，获取运行场景需求信息。

作为一种示例，可以根据智能设备的具体类型获取运行场景需求信息。比如，智能设备为导航设备，则运行场景需求信息为导航场景；智能设备为智能音箱，则运行场景需求信息为音乐播放场景。

步骤302，根据运行场景需求信息生成目标实体类别。

本实施例中，获取了运行场景需求信息之后，可以进一步根据运行场景需求信息生成目标实体类别。

举例而言，假设运行场景需求信息为导航场景，则对应的目标实体类别可以是地名、组织机构名。

步骤303，根据目标实体类别对第一标注数据进行筛选以生成第二标注数据。

本实施例中，获取了目标实体类别之后，可以根据目标实体类别对第一标注数据进行筛选，从第一标注数据中筛选出与目标实体类别相关的标注数据，得到第二标注数据，第二标注数据中包含的实体类别与目标实体类别匹配。

本实施例的实体识别模型的生成方法，通过获取运行场景需求信息，根据运行场景需求信息生成目标实体类别，进而根据目标实体类别对第一标注数据进行筛选以生成第二标注数据，由此，实现了标注数据的筛选，通过仅获取与目标实体类别匹配的第二标注数据，为后续训练生成实体识别目标模型提供了训练样本，且第二标注数据中包含的实体类别数较少，有利于降低实体识别目标模型的学习难度。

为了加快模型的效率，优化模型的效果，在本申请实施例一种可能的实现方式中，可以基于迁移学习技术，将实体识别源模型学到的知识(即模型参数)分享给一个新的模型中，以实现新模型的快速构建，加快模型构建效率和训练效率。下面结合附图4对根据实体识别源模型生成针对目标实体类别的实体识别目标模型的具体实现过程进行详细说明。

图4是根据本申请第四实施例的实体识别模型的生成方法的流程示意图，如图4所示，在如图1所示实施例的基础上，步骤104可以包括以下步骤：

步骤401，获取实体识别源模型的模型结构。

步骤402，根据实体识别源模型的模型结构生成实体识别目标模型的模型结构。

本实施例中，根据实体识别源模型生成实体识别目标模型时，可以先获取实体识别源模型的模型结构，模型结构是指构成实体识别源模型的各层网络结构，可以包括嵌入层、门控循环单元层、特征组合层、条件随机场、输出层等。

进一步地，获取了实体识别源模型的模型结构之后，可以根据获取的模型结构，构造一个与实体识别源模型的模型结构相同的模型结构，作为实体识别目标模型的模型结构。也就是说，生成的实体识别目标模型与实体识别源模型具有相同的模型结构。

步骤403，获取实体识别源模型的模型参数。

其中，实体识别源模型的模型参数，包括实体识别源模型中每一层模型结构的模型参数，模型参数是实体识别源模型已经学到的知识。

步骤404，根据实体识别源模型的模型参数生成表征层参数。

本实施例中，获取了实体识别源模型的模型参数之后，可以根据实体识别源模型的模型参数生成表征层参数。比如，可以对获取的实体识别源模型的模型参数进行筛选，从所有的模型参数中筛选出实体识别源模型的表征层的表征层参数，并获取表征层参数。

其中，表征层是指实体识别源模型中对输入的对象进行表征学习的层，比如字符嵌入表示层、双向GRU层、LSTM层，等等。

在本申请实施例一种可能的实现方式中，还可以仅获取实体识别源模型中表征层的表征层参数，以减少获取的数据及简化数据处理过程。

步骤405，将表征层参数迁移至实体识别目标模型的模型结构之中以生成实体识别目标模型。

本实施例中，获取了实体识别源模型的表征层参数之后，可以将获取的表征层参数迁移至实体识别目标模型的模型结构中，以生成实体识别目标模型。其中，将表征层参数迁移至实体识别目标模型的模型结构中，也就是将表征层参数复制到实体识别目标模型的模型结构中，从而使得实体识别目标模型的模型结构中的表征层获取了已经训练好的实体识别源模型的表征层参数，因此无需再对实体识别目标模型的表征层参数进行学习，有利于加快实体识别目标模型的学习效率。

可以理解的是，本申请实施例中生成的实体识别目标模型，具备与实体识别源模型相同的模型结构，且实体识别目标模型的表征层参数也与实体识别源模型的表征层参数相同，实现了全功能的实体识别源模型至具备部分功能的实体识别源模型的迁移，使得实体识别目标模型仅能实现对目标实体类别的识别，屏蔽了识别其他实体类别的能力，将实体识别目标模型的识别能力最小化，从而能有效防止目标实体类别识别服务背后的模型能力被窃取，提高了安全性。

本实施例的实体识别模型的生成方法，通过获取实体识别源模型的模型结构和模型参数，根据实体识别源模型的模型结构生成实体识别目标模型的模型结构，并根据实体识别源模型的模型参数生成表征层参数，进而将表征层参数迁移至实体识别目标模型的模型结构中以生成实体识别目标模型，由此，实现了全功能的实体识别源模型至具备部分功能的实体识别源模型的迁移，并且通过迁移实体识别源模型的表征层参数至实体识别目标模型，使得实体识别目标模型无需再对表征层参数进行学习，有利于加快实体识别目标模型的学习效率，优化实体识别目标模型的学习效果。

在本申请实施例一种可能的实现方式中，在根据第二标注数据对实体识别目标模型进行训练之前，可以先对实体识别目标模型的输出层参数进行随机初始化，下面结合附图5进行详细说明。

图5是根据本申请第五实施例的实体识别模型的生成方法的流程示意图，如图5所示，该实体识别模型的生成方法，可以包括以下步骤：

步骤501，获取实体识别母模型和第一标注数据，其中，实体识别母模型和第一标注数据对应多个实体类别。

步骤502，根据实体识别母模型生成实体识别源模型。

步骤503，根据第一标注数据生成针对目标实体类别的第二标注数据。

步骤504，根据实体识别源模型生成针对目标实体类别的实体识别目标模型。

本实施例中，对步骤501-步骤504的描述，可以参见前述实施例中相关内容的记载，为避免重复，此处不再赘述。

步骤505，对实体识别目标模型的输出层参数进行随机初始化。

本实施例中，在生成实体识别目标模型并对实体识别目标模型进行训练之前，可以先对实体识别目标模型的输出层参数(即权重)进行随机初始化，以在对实体识别目标模型进行训练，学习模型参数时，提高找到全局最优解的可能性。

其中，对输出层参数进行随机初始化，可以采用高斯分布(Gaussian)初始化、泽维尔(Xavier)初始化、均匀分布(Uniform)初始化、双线性(Bilinear)初始化等任一方式进行随机初始化，本申请对此不作限制。

以采用Xavier初始化为例，该方法根据每层的输入参数个数和输出参数个数来决定参数随机初始化的分布范围，是一个通过该层的输入和输出参数个数得到的分布范围内的均匀分布。本实施例中，假设输出层的输入参数个数为a，输出参数个数为b，则采用Xavier随机初始化，将使得输出层中的每个输出层参数均随机采样于如下均匀分布：

通过采用Xavier随机初始化实体识别目标模型的输出层参数，使得实体识别目标模型中输出层输出的方差不受输出层输入个数影响，且输出层梯度的方差也不受输出层输出个数影响。

步骤506，根据第二标注数据对实体识别目标模型进行训练。

本实施例中，对实体识别目标模型的输出层参数进行随机初始化之后，可以根据第二标注数据，通过深度学习的方式对随机初始化后的实体识别目标模型进行训练，生成训练好的实体识别目标模型，训练好的实体识别目标模型可以应用于智能设备中以使得智能设备能够提供实体识别服务，完成与用户的语音交互。

本实施例的实体识别模型的生成方法，通过在根据第二标注数据对实体识别目标模型进行训练之前，先对实体识别目标模型的输出层参数进行随机初始化，有利于在对实体识别目标模型进行训练以学习模型参数时，提高找到全局最优解的可能性，从而提高实体识别目标模型的准确性；通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。

图6是实现本申请实施例的实体识别模型的生成方法的过程示例图，图7是源模型迁移至目标模型的示例图。如图6所示，先获取无标注数据，并将获取的无标注数据输入至云端服务模型(即前述实施例中的实体识别母模型)中，以对无标注数据进行标注，得到弱标注数据(即前述实施例中的第一标注数据)，其中，弱标注数据是全标签体系的标注数据。接着，根据实际运行场景需求所需的目标实体类别，从弱标注数据中筛选并重建得到预标注数据(即前述实施例中的第二标注数据)，其中，预标注数据是目标标签体系的标注数据，目标标签与目标实体类别一致，以及，使用知识蒸馏方式，利用弱标注数据训练得到一个全功能的对话实体识别模型，记为源模型(即前述实施例中的实体识别源模型)。接着，构建一个与源模型具有相同的模型结构的目标模型，并将源模型的表征层参数迁移至目标模型中，如图7所示，目标模型和源模型具有相同的模型结构，将源模型的表征层(包括字符嵌入层和双向GRU层)的参数复制到目标模型的表征层中。进而利用预标注数据对目标模型进行训练，以微调目标模型的模型参数，从而不仅可以节约大量训练时间，而且有助于目标模型性能的提高。

根据本申请的实施例，本申请还提供了一种实体识别模型的生成装置。

图8是根据本申请第六实施例的实体识别模型的生成装置的结构示意图。如图8所示，该实体识别模型的生成装置60包括：获取模块610、第一生成模块620、第二生成模块630、第三生成模块640以及训练模块650。

其中，获取模块610，用于获取实体识别母模型和第一标注数据，其中，所述实体识别母模型和所述第一标注数据对应多个实体类别。

第一生成模块620，用于根据所述实体识别母模型生成实体识别源模型。

第二生成模块630，用于根据所述第一标注数据生成针对目标实体类别的第二标注数据。

第三生成模块640，用于根据所述实体识别源模型生成针对所述目标实体类别的实体识别目标模型。

训练模块650，用于根据所述第二标注数据对所述实体识别目标模型进行训练。

进一步地，在本申请实施例一种可能的实现方式中，如图9所示，在如图8所示实施例的基础上，第一生成模块620，包括：

样本获取单元621，用于获取多个语料样本；

识别单元622，用于根据所述实体识别母模型对所述多个语料样本进行识别以生成多个实体识别结果；

确定单元623，用于将所述多个实体识别结果和所述多个语料样本作为所述第一标注数据；以及

模型生成单元624，用于使用知识蒸馏方式通过所述第一标注数据生成所述实体识别源模型，其中，所述实体识别源模型针对所述多个实体类别。

在本申请实施例一种可能的实现方式中，如图10所示，在如图8所示实施例的基础上，第二生成模块630，包括：

信息获取单元631，用于获取运行场景需求信息；

类别生成单元632，用于根据所述运行场景需求信息生成所述目标实体类别；以及

筛选单元633，用于根据所述目标实体类别对所述第一标注数据进行筛选以生成所述第二标注数据。

在本申请实施例一种可能的实现方式中，如图11所示，在如图8所示实施例的基础上，第三生成模块640，包括：

结构获取单元641，用于获取所述实体识别源模型的模型结构；

结构生成单元642，用于根据所述实体识别源模型的模型结构生成所述实体识别目标模型的模型结构；

参数获取单元643，用于获取所述实体识别源模型的模型参数；

参数生成单元644，用于根据所述实体识别源模型的模型参数生成表征层参数；以及

迁移单元645，用于将所述表征层参数迁移至所述实体识别目标模型的模型结构之中以生成所述实体识别目标模型。

在本申请实施例一种可能的实现方式中，如图12所示，在如图8所示实施例的基础上，该实体识别模型的生成装置60，还包括：

初始化模块600，用于对所述实体识别目标模型的输出层参数进行随机初始化。

需要说明的是，前述对实体识别模型的生成方法实施例的解释说明，也适用于本申请实施例的实体识别模型的生成装置，其实现原理类似，此处不再赘述。

本申请实施例的实体识别模型的生成装置，通过获取对应多个类别的实体识别母模型和第一标注数据，并根据实体识别母模型生成实体识别源模型，以及根据第一标注数据生成针对目标实体类别的第二标注数据，进而根据实体识别源模型生成实体识别目标模型，并利用第二标注数据对实体识别目标模型进行训练，由此，实现了对话实体识别模型的迁移。并且，通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。此外，也由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务，从而不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是用来实现本申请实施例的实体识别模型的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的实体识别模型的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的实体识别模型的生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的实体识别模型的生成方法对应的程序指令/模块(例如，附图8所示的获取模块610、第一生成模块620、第二生成模块630、第三生成模块640以及训练模块650)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的实体识别模型的生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行实体识别模型的生成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行实体识别模型的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行实体识别模型的生成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与执行实体识别模型的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取对应多个类别的实体识别母模型和第一标注数据，并根据实体识别母模型生成实体识别源模型，以及根据第一标注数据生成针对目标实体类别的第二标注数据，进而根据实体识别源模型生成实体识别目标模型，并利用第二标注数据对实体识别目标模型进行训练，由此，实现了对话实体识别模型的迁移。并且，通过获取针对目标实体类别的第二标准数据对实体识别目标模型进行训练，使得实体识别目标模型仅具备识别目标实体类别的能力，实现了实体识别目标模型的实体识别能力最小化，从而能够有效地防止从实体识别目标模型中窃取其他实体识别能力，提高了安全性。此外，也由于实体识别目标模型仅具备识别目标实体类别的能力，复杂度低，占用的存储空间小，从而实体识别目标模型可以在智能设备本地运行以提供对话实体识别服务，从而不仅能够节约云端服务器的资源，还能够在无法请求云端服务器的情况下仍能实现智能交互，提高了智能设备的可用性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种实体识别模型的生成方法，其中，包括：

根据所述实体识别母模型生成实体识别源模型；

根据所述第二标注数据对所述实体识别目标模型进行训练。

2.如权利要求1所述的实体识别模型的生成方法，其中，所述根据所述实体识别母模型生成实体识别源模型，包括：

获取多个语料样本；

根据所述实体识别母模型对所述多个语料样本进行识别以生成多个实体识别结果；

将所述多个实体识别结果和所述多个语料样本作为所述第一标注数据；以及

使用知识蒸馏方式通过所述第一标注数据生成所述实体识别源模型，其中，所述实体识别源模型针对所述多个实体类别。

3.如权利要求1所述的实体识别模型的生成方法，其中，所述根据所述第一标注数据生成针对目标实体类别的第二标注数据，包括：

获取运行场景需求信息；

根据所述运行场景需求信息生成所述目标实体类别；以及

根据所述目标实体类别对所述第一标注数据进行筛选以生成所述第二标注数据。

4.如权利要求1所述的实体识别模型的生成方法，其中，所述根据所述实体识别源模型生成针对所述目标实体类别的实体识别目标模型，包括：

获取所述实体识别源模型的模型结构；

根据所述实体识别源模型的模型结构生成所述实体识别目标模型的模型结构；

获取所述实体识别源模型的模型参数；

根据所述实体识别源模型的模型参数生成表征层参数；以及

将所述表征层参数迁移至所述实体识别目标模型的模型结构之中以生成所述实体识别目标模型。

5.如权利要求1所述的实体识别模型的生成方法，其中，在所述根据所述第二标注数据对所述实体识别目标模型进行训练之前，还包括：

对所述实体识别目标模型的输出层参数进行随机初始化。

6.一种实体识别模型的生成装置，其中，包括：

7.如权利要求6所述的实体识别模型的生成装置，其中，所述第一生成模块，包括：

样本获取单元，用于获取多个语料样本；

识别单元，用于根据所述实体识别母模型对所述多个语料样本进行识别以生成多个实体识别结果；

确定单元，用于将所述多个实体识别结果和所述多个语料样本作为所述第一标注数据；以及

模型生成单元，用于使用知识蒸馏方式通过所述第一标注数据生成所述实体识别源模型，其中，所述实体识别源模型针对所述多个实体类别。

8.如权利要求6所述的实体识别模型的生成装置，其中，所述第二生成模块，包括：

信息获取单元，用于获取运行场景需求信息；

类别生成单元，用于根据所述运行场景需求信息生成所述目标实体类别；以及

筛选单元，用于根据所述目标实体类别对所述第一标注数据进行筛选以生成所述第二标注数据。

9.如权利要求6所述的实体识别模型的生成装置，其中，所述第三生成模块，包括：

结构获取单元，用于获取所述实体识别源模型的模型结构；

结构生成单元，用于根据所述实体识别源模型的模型结构生成所述实体识别目标模型的模型结构；

参数获取单元，用于获取所述实体识别源模型的模型参数；

参数生成单元，用于根据所述实体识别源模型的模型参数生成表征层参数；以及

迁移单元，用于将所述表征层参数迁移至所述实体识别目标模型的模型结构之中以生成所述实体识别目标模型。

10.如权利要求6所述的实体识别模型的生成装置，其中，所述装置还包括：

初始化模块，用于对所述实体识别目标模型的输出层参数进行随机初始化。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的实体识别模型的生成方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的实体识别模型的生成方法。