CN111597804A

CN111597804A - 一种实体识别模型训练的方法以及相关装置

Info

Publication number: CN111597804A
Application number: CN202010413102.1A
Authority: CN
Inventors: 郑孙聪; 原雯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-28
Anticipated expiration: 2040-05-15
Also published as: CN111597804B

Abstract

本申请公开了一种实体识别模型训练的方法以及相关装置，涉及人工智能的自然语言处理技术，可以应用于智能问答的过程中。通过获取实体训练数据；并识别实体训练数据中的实体信息；然后基于实体信息抽取关联信息，以生成训练序列，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；进而根据训练序列训练识别模型，识别模型用于对实体信息进行识别。由于识别模型基于实体信息所得，其关联信息复杂度较低，减少了模型训练的任务量；且由于训练序列中的相关性高，提高了实体识别模型识别过程的准确性。

Description

一种实体识别模型训练的方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种实体识别模型训练的方法以及相关装置。

背景技术

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、信息检索、机器人问答系统和知识图谱等技术。

其中，知识图谱可以为文本处理、语义理解、机器翻译、信息检索、机器人问答系统等多种自然语言处理技术提供知识源，即进行实体识别的过程。一般可以通过判断句子是否是包含实体定义的句子来确定实体。

但是，由于上述方法在句子识别的过程中比较宽泛，没有识别出具体的实体及定义信息，容易造成实体识别错误，影响实体识别的准确性。

发明内容

有鉴于此，本申请提供一种实体识别模型训练的方法，可以有效避免由于训练样本的原因造成的实体识别错误，提高实体识别模型识别过程的准确性。

本申请第一方面提供一种实体识别模型训练的方法，可以应用于终端设备中包含模型训练功能的系统或程序中，具体包括：获取实体训练数据；

识别所述实体训练数据中的实体信息；

基于所述实体信息抽取关联信息，以生成训练序列，所述关联信息基于至少一个维度信息确定，所述维度信息基于所述实体信息的语义特征所得；

根据所述训练序列训练识别模型，所述识别模型用于对所述实体信息进行识别。

可选的，在本申请一些可能的实现方式中，所述基于所述实体信息抽取关联信息，以生成训练序列，包括：

确定所述实体信息中的词信息；

基于所述词信息进行关联，以得到关联信息；

根据预设规则对所述词信息和所述关联信息进行拼接，以生成所述训练序列，所述预设规则基于所述词信息的位置确定。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取所述词信息和所述关联信息拼接过程中的交叉熵；

根据所述交叉熵获取第一损失函数，所述第一损失函数用于指示所述识别模型的参数调整。

基于所述词信息的位置设置标签标识；

根据所述标签标识对所述训练序列进行更新。

可选的，在本申请一些可能的实现方式中，所述根据所述训练序列训练识别模型，包括：

获取所述实体信息在所述实体训练数据中的原始定义信息；

基于余弦相似性获取所述原始定义信息和所述关联信息的相似度分数；

根据所述相似度分数确定第二损失函数，以对所述识别模型进行训练。

根据所述实体信息的所述语义特征确定所述实体信息和所述关联信息的匹配信息；

根据所述匹配信息确定第三损失函数，以对所述识别模型进行训练。

可选的，在本申请一些可能的实现方式中，所述根据所述实体信息的所述语义特征确定所述实体信息和所述关联信息的匹配信息，包括：

根据所述语义特征确定所述关联信息的句子分类信息；

根据所述句子分类信息确定所述实体信息与所述关联信息的匹配概率，以确定所述匹配信息。

根据所述语义特征确定所述关联信息中的关系对；

基于所述关系对的相关性进行分类，以确定第四损失函数；

根据所述第四损失函数对所述识别模型的训练参数进行更新。

可选的，在本申请一些可能的实现方式中，所述基于所述关系对的相关性进行分类，以确定第四损失函数，包括：

在所述实体信息中插入词平均向量，以得到实体向量，所述词平均向量基于至少两个预设词所得；

将所述关联信息进行平均池化，以得到关联向量；

将所述实体向量和所述关联向量进行拼接，以得到判别向量；

基于所述判别向量对所述关系对的相关性进行分类，以确定第四损失函数。

基于所述实体信息确定端点信息，所述端点信息包括至少两个词信息；

根据所述端点信息抽取关联信息，以生成训练序列。

获取人工标注的验证集；

根据所述验证集对所述识别模型进行验证。

可选的，在本申请一些可能的实现方式中，所述实体信息为专有名词，所述识别模型用于根据所述专有名词生成定义信息。

本申请第二方面提供一种实体识别模型训练的装置，包括：获取单元，用于获取实体训练数据；

识别单元，用于识别所述实体训练数据中的实体信息；

抽取单元，用于基于所述实体信息抽取关联信息，以生成训练序列，所述关联信息基于至少一个维度信息确定，所述维度信息基于所述实体信息的语义特征所得；

训练单元，用于根据所述训练序列训练识别模型，所述识别模型用于对所述实体信息进行识别。

可选的，在本申请一些可能的实现方式中，所述抽取单元，具体用于确定所述实体信息中的词信息；

所述抽取单元，具体用于基于所述词信息进行关联，以得到关联信息；

所述抽取单元，具体用于根据预设规则对所述词信息和所述关联信息进行拼接，以生成所述训练序列，所述预设规则基于所述词信息的位置确定。

可选的，在本申请一些可能的实现方式中，所述抽取单元，还用于获取所述词信息和所述关联信息拼接过程中的交叉熵；

所述抽取单元，还用于根据所述交叉熵获取第一损失函数，所述第一损失函数用于指示所述识别模型的参数调整。

可选的，在本申请一些可能的实现方式中，所述抽取单元，还用于基于所述词信息的位置设置标签标识；

所述抽取单元，还用于根据所述标签标识对所述训练序列进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取所述实体信息在所述实体训练数据中的原始定义信息；

所述训练单元，具体用于基于余弦相似性获取所述原始定义信息和所述关联信息的相似度分数；

所述训练单元，具体用于根据所述相似度分数确定第二损失函数，以对所述识别模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于根据所述实体信息的所述语义特征确定所述实体信息和所述关联信息的匹配信息；

所述训练单元，具体用于根据所述匹配信息确定第三损失函数，以对所述识别模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于根据所述语义特征确定所述关联信息的句子分类信息；

所述训练单元，具体用于根据所述句子分类信息确定所述实体信息与所述关联信息的匹配概率，以确定所述匹配信息。

可选的，在本申请一些可能的实现方式中，所述训练单元，还用于根据所述语义特征确定所述关联信息中的关系对；

所述训练单元，还用于基于所述关系对的相关性进行分类，以确定第四损失函数；

所述训练单元，还用于根据所述第四损失函数对所述识别模型的训练参数进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于在所述实体信息中插入词平均向量，以得到实体向量，所述词平均向量基于至少两个预设词所得；

所述训练单元，具体用于将所述关联信息进行平均池化，以得到关联向量；

所述训练单元，具体用于将所述实体向量和所述关联向量进行拼接，以得到判别向量；

所述训练单元，具体用于基于所述判别向量对所述关系对的相关性进行分类，以确定第四损失函数。

可选的，在本申请一些可能的实现方式中，所述抽取单元，具体用于基于所述实体信息确定端点信息，所述端点信息包括至少两个词信息；

所述抽取单元，具体用于根据所述端点信息抽取关联信息，以生成训练序列。

可选的，在本申请一些可能的实现方式中，所述获取单元，还用于获取人工标注的验证集；

所述获取单元，还用于根据所述验证集对所述识别模型进行验证。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的模型训练的方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的模型训练的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取实体训练数据；并识别实体训练数据中的实体信息；然后基于实体信息抽取关联信息，以生成训练序列，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；进而根据训练序列训练识别模型，识别模型用于对实体信息进行识别。由于识别模型基于实体信息所得，其关联信息复杂度较低，减少了模型训练的任务量；且由于训练序列中的相关性高，提高了实体识别模型识别过程的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为实体识别模型训练系统运行的网络架构图；

图2为本申请实施例提供的一种实体识别模型训练的流程架构图；

图3为本申请实施例提供的一种实体识别模型训练的方法的流程图；

图4为本申请实施例提供的一种场景流程图；

图5为本申请实施例提供的一种实体识别的方法的流程图；

图6为本申请实施例提供的一种实体识别的方法的场景示意图；

图7为本申请实施例提供的一种实体识别模型训练装置的结构示意图；

图8为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请实施例提供了一种实体识别模型训练的方法以及相关装置，可以应用于终端设备中包含模型训练功能的系统或程序中，通过获取实体训练数据；并识别实体训练数据中的实体信息；然后基于实体信息抽取关联信息，以生成训练序列，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；进而根据训练序列训练识别模型，识别模型用于对实体信息进行识别。由于识别模型基于实体信息所得，其关联信息复杂度较低，减少了模型训练的任务量；且由于训练序列中的相关性高，提高了实体识别模型识别过程的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

实体定义：即实体信息的关联信息；用于描述实体的文本片段。如：表示关系的实体定义：“著名演员陈红的二儿子”是“陈飞宇”的定义；用于评价实体的定义：“新生代偶像”是“陈飞宇”的定义、“无与伦比的古代建筑杰作”是“北京故宫”的定义；表示实体属性的定义：“QQ之父”是“马化腾”的定义；表示实体类别的定义：“四大天王之一”是“刘德华”的定义。

问答模式：根据输入的实体信息智能反馈其对应的定义信息，即关联信息。

命名实体识别(Named Entity Recognition，NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

应理解，本申请提供的模型训练方法可以应用于终端设备中包含实体识别功能的系统或程序中，例如知识图谱，具体的，实体识别模型训练系统可以运行于如图1所示的网络架构中，如图1所示，是实体识别模型训练系统运行的网络架构图，如图可知，实体识别模型训练系统可以提供与多个信息源的模型训练以及实体识别过程，终端通过网络建立与服务器的连接，进而进行实体识别的过程，并在实体识别的过程中上传相关的实体定义对(实体，定义)，以便于服务器对识别模型进行参数优化；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应当注意的是，本实施例提供的模型训练方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的模型训练的过程。

可以理解的是，上述实体识别模型训练系统可以运行于个人移动终端，例如：作为知识图谱这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供模型训练，以得到信息源的模型训练处理结果；具体的实体识别模型训练系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

其中，知识图谱可以为文本处理、语义理解、机器翻译、信息检索、机器人问答系统等多种自然语言处理技术提供知识源，即进行实体识别然后基于识别的实体进行关联信息确定的过程。一般可以通过判断句子是否是包含实体定义的句子来确定实体。

为了解决上述问题，本申请提出了一种实体识别模型训练的方法，该方法应用于图2所示的模型训练的流程框架中，如图2所示，为本申请实施例提供的一种实体识别模型训练的流程架构图，首先从服务器侧采集训练集，然后提取其中的实体信息，并根据该实体信息确定关联信息，即定义；从而得到训练序列，并根据训练序列对识别模型进行训练，从而提高识别模型进行实体识别的准确性。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种实体识别模型训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该实体识别模型训练装置通过获取实体训练数据；并识别实体训练数据中的实体信息；然后基于实体信息抽取关联信息，以生成训练序列，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；进而根据训练序列训练识别模型，识别模型用于对实体信息进行识别。由于识别模型基于实体信息所得，其关联信息复杂度较低，减少了模型训练的任务量；且由于训练序列中的相关性高，提高了实体识别模型识别过程的准确性。

本申请实施例提供的方案涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中模型训练的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种实体识别模型训练的方法的流程图，本申请实施例至少包括以下步骤：

301、获取实体训练数据。

本实施例中，实体训练数据可以是服务器下载所得；但由于实体训练数据大多需要人工标注，可能增加相关人员的工作量，此时可以基于远监督回标策略进行实体训练数据的获取。其中，获取的实体训练数据可以应用于基于自然语言处理技术生成的知识图谱中，即对于知识图谱中的实体识别模型进行训练，并对实体信息进行识别；可以理解的是，该场景仅为示例，本申请实施例提供的实体识别模型训练方法还可以应用于基于自然语言处理技术的其他场景中，此处不做限定。

具体的，首先利用已知的(实体，定义)数据去句子中匹配，如果句子中同时包含给定的实体和定义，那么匹配上的句子可以构成一条训练样本，用于模型的预训练阶段。此外，根据回标到的训练样本，初步训练基于问答的实体定义抽取模型，对少量的文本语料进行预测，并对预测结果进行人工标注，得到高质量的验证集，用于模型的微调和测试，从而提高模型训练的效率。

302、识别实体训练数据中的实体信息。

本实施例中，识别实体信息的过程可以通过命名实体识别工具完成，例如：QQseg，从而分别识别句子中的人名和地点名。

具体的，NER任务还可以从非结构化文本中抽取出人名，地名，机构名，影视剧名等专有名词，具体词语的组成因实际场景而定，此处不做限定。

303、基于实体信息抽取关联信息，以生成训练序列。

本实施例中，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；其中，语义特征包括语义完整性和语义一致性。

具体的，对于语义完整性，由于定义描述通常是个短句，其自身携带了重要信息，一个好的描述应该包含最充分的信息。例如：陈飞宇的定义“著名演员陈红的二儿子”比“陈红的二儿子”更加充分。而对于语义一致性，首先体现在句子层面，即包含定义的句子通常都具有一些自身独有模板的特点，比如A(实体)是B(定义)，因此一个包含(实体，定义)对的句子本身一定是一个定义性句子；其次在(实体，定义)对的层面，即实体信息与关联信息的对应关系，抽取结果和给定的实体具有强相关性，建模时需要充分考虑实体与句子中词语的相互作用。

下面对上述语义特征下的抽取过程进行说明。由于识别的实体名作为原始句子的查询，类似于问答模式，序列标注抽取模型抽取给定句子特定人物或地点的定义。首先，需要将实体信息与关联信息组成训练序列，即确定实体信息中的词信息；然后基于词信息进行关联，以得到关联信息；并根据预设规则对词信息和关联信息进行拼接，以生成训练序列，预设规则基于词信息的位置确定。

具体的，词信息和关联信息进行拼接的过程可能涉及训练序列的调整，此时需要引入损失函数；故可以获取词信息和关联信息拼接过程中的交叉熵；然后根据交叉熵获取第一损失函数，第一损失函数用于指示识别模型的参数调整。在一种可能的场景中，将识别的实体名称与原始句子进行拼接，并在句子中人名或地点名的位置的前后插入特殊单词t₁和t₂。此时，原始句子可表示为s＝{w₁，w₂，...，w_n}，识别到的句子中的一个实体信息e＝{w_i，...，w_j}，序列标注抽取可以基于bert模型。因此对于序列标注抽取模型的输入是{CLS，e，SEP，s，SEP}，其中s已经在实体名的前后位置插入t₁、t₂。预测的标签序列为

原始标签序列为

可选的，对于上述标签序列可以使用BIO的模式来编码输出，其中“B”表示定义的开始，“I”表示定义的中间和结尾，“O”表示其对应的单词与定义的结果无关。对应的，使用交叉熵作为序列标注的损失L_seq:

L_seq＝-y⊙log softmax(h*W_seq+b_seq)

其中，h为bert模型的隐藏层输出，

是序列标注转换矩阵，d为bert编码向量的维度，T为标签集合的大小，可取T＝3；b_seq为序列标注转换偏差。

另外，对于基于语义完整性的训练序列的优化过程。由于抽取的定义越具体就越有帮助可以了解这个实体。例如，陈飞宇的定义“著名演员陈红的二儿子”比“陈红的二儿子”更加充分，因为第一个定义还包括了对陈红的描述，进而对陈飞宇的定义更为全面。越具体的定义包含了句子中越多的单词，但是通过1)的BIO序列的交叉熵损失不足以保证抽取的定义足够具体，因此可以添加了语义完整性模块来增强特定定义的语义完整性。对于该过程的损失优化，首先获取实体信息在实体训练数据中的原始定义信息；然后基于余弦相似性获取原始定义信息和关联信息的相似度分数；并根据相似度分数确定第二损失函数，以对识别模型进行训练。

具体的，利用余弦相似性对提取的定义和原始定义的语义相似度进行建模的过程可参考如下公式进行：

其中v_pred和v_gold分别表示抽取的定义片段和原始定义片段，h为bert模型的隐藏层输出，T为标签集合的大小，f_sim为相似度分数。

然后可以将相似度分数标准化并取了倒数，得到语义完整性损失，即第二损失函数:

其中，δ为固定的小常数，等于1e^-8，f_sim为相似度分数。

可选的，对于基于语义一致性的训练序列的优化过程。由于当给定一个实体并提取定义时，可以需要确定提取的定义是否与实体相关，即匹配信息，而该相关性溃疡从从句子层面和(实体，定义)对的层面来保证一致性。

具体的，对于句子层面的一致性。由于一个句子中有时会包含多个实体，但是并不是所有的实体都存在着定义。例如：中国新生代偶像陈飞宇是陈红的二儿子，这句话对于陈飞宇来说是定义性句子，但是对于陈红来说就不是个定义性的句子。因此可以从句子分类的角度，判断给定的句子是否是关于给定实体的定义性句子。故首先根据语义特征确定关联信息的句子分类信息；然后根据句子分类信息确定实体信息与关联信息的匹配概率，以确定匹配信息。

在一种可能的场景中，可以用0/1标签g表示句子是否定义性，即g＝1表示该句子是给定实体的定义性句子，反之亦然。此时，可以引入二分类器，对于g＝1的概率计算可以参考如下公式：

P_sent＝sigmoid(h_CLS*W_sent+b_sent)

其中，

是句子层面分类器权重矩阵，可以设定K＝2；b_sent为句子层面分类器偏差，h_CLS为bert模型中第一个单词“CLS”的输出向量。因此句子层面的二分类损失函数，即第三损失函数为：

L_sent＝-[g log P_sent+(1-g)log(1-P_sent)]

其中，L_sent为第三损失函数；g为分类标签；P_sent为匹配概率。

可选的，对于(实体，定义)对层面的一致性优化过程，即判断(实体，定义)关系对的类别对应关系。由于(实体，定义)对层面的一致性表现在识别的实体与抽取的定义具有对应关系，如果一个句子存在多个(实体，定义)对，不同的实体需要对应到相应的定义。例如：“陈红”与“中国新生代偶像”这个定义就是不一致不对应的(实体，定义)对。因此需要对该过程进行参数优化，以保证模型训练的准确性。首先根据语义特征确定关联信息中的关系对；然后基于关系对的相关性进行分类，以确定第四损失函数；杏儿根据第四损失函数对识别模型的训练参数进行更新。

在一种可能的场景中，为了增强实体与其定义之间的语义一致性，可以通过添加二分类器对识别的实体与其抽取的定义的相关性进行分类，分类器的输出标签记为r，其中，r＝1表示抽取的定义与给定实体的定义相对应，反之亦然。

具体的，可以使用在句子中实体名字前后插入的两个特殊单词

的平均向量表示实体向量，即：

由于

不仅可以携带实体的信息，也可以表达在句子中其他单词的信息，从而提高了拼接的向量的信息丰富程度。

另外，使用抽取的定义向量平均池化的结果来表示定义向量，即：

然后，可以将实体向量与抽取的定义向量拼接，得到判别向量u，并使用二分类器来判断输入的(实体，定义)对是否具有对应关系，r＝1的概率计算如下：

P_pair＝sigmoid(u*W_pair+b_pair)

其中，

是(实体，定义)对层面分类器权重矩阵，K＝2。b_pair为关系对层面分类器偏差，u为判别向量，u＝[v_ent；v_def]。因此可以得到了关系对层面的损失，即第四损失函数的可以参考如下表示：

L_pair＝-[r log P_pair+(1-r)log(1-P_pair)]

其中，L_pair为第四损失函数；r为分类标签；P_pair为关系对的对应概率。

另外，对于训练序列的构建过程还可以基于实体信息确定端点信息进行，即端点信息指示关联信息的首尾单词；从而节省了数据处理量，提高了模型训练的效率。

304、根据训练序列训练识别模型。

本实施例中，识别模型用于对实体信息进行识别。具体的训练过程可以基于步骤303中的一个或多个损失函数进行。

在一种可能的场景中，识别模型基于上述所有的损失函数进行，则最终模型的训练阶段的损失函数如下：

L＝λ₁L_seq+λ₂L_inte+λ₃L_sent+λ₄L_pair

其中，L_seq为第一损失函数；L_inte为第二损失函数；L_sent为第三损失函数；L_pair为第四损失函数；λ₁、λ₂、λ₃、λ₄为权重参数，即考虑到多个损失值量级的统一，这些参数可以被分别设置为1,1,1,0.1。具体的权重参数和设计的损失函数类型因实际场景而定，此处不做限定。

结合上述实施例可知，通过获取实体训练数据；并识别实体训练数据中的实体信息；然后基于实体信息抽取关联信息，以生成训练序列，关联信息基于至少一个维度信息确定，维度信息基于实体信息的语义特征所得；进而根据训练序列训练识别模型，识别模型用于对实体信息进行识别。由于识别模型基于实体信息所得，其关联信息复杂度较低，减少了模型训练的任务量；且由于训练序列中的相关性高，提高了实体识别模型识别过程的准确性。

上述实施例介绍了模型训练的过程，下面结合具体的流程分布对音频输入信号的处理进程进行说明，如图4所示，为本申请实施例提供的一种场景流程图；图中包括生成训练序列与数据集的构建两个过程，其中，生成训练序列的过程可以参考图3所述实施例的步骤301-303的过程，即首先基于远监督回标数据，即训练数据集；然后基于NER提取实体信息，并进行训练序列的标注抽取，从而生成(实体，定义)对。另一方面，对于数据集的构建，为了保证数据集的准确性，还可以在(实体，定义)对的基础上召回一定的文本语料，并提取其中的人工标注，以生成验证集，从而进行识别模型准确性的验证，提高了数据集的准确性。

下面，结合智能问答作为具体场景进行介绍，请参阅图5，图5为本申请实施例提供的一种实体识别的方法的流程图，本申请实施例至少包括以下步骤：

501、获取问题实体。

本实施例中，问题实体可以是通过用户语音输入、手动输出等其他体感输入方式。具体的，可以是一个词语，例如：小明；也可以是多个词语的集合。

502、将问题实体输入识别模型。

本实施例中，识别模型基于图3所述实施例的步骤301-304训练所得，相关特征可以进行参考，此处不做赘述。

503、输出答复信息。

本实施例中，答复信息即识别模型中关于实体信息的关联信息，即定义。

在一种可能的场景中，具体的问答过程不仅限于对话框的模式，还可以采用检索框的形式展现，如图6所示，为本申请实施例提供的一种实体识别的方法的场景示意图，图中用户可以查询不同实体的相关定义，例如：人物信息。用户可以点击查询得到目标人物的关系网，并进一步的点击详情得到关于该人物的文本信息；其中界面元素的关联过程即采用上述实体识别的方法进行，从而保证了相关信息的准确性。

结合上述实施例可见，通过对于识别模型进行基于实体信息的训练，保证了训练序列的准确性，进而保证了实体识别的准确性，且由于实体信息结构简单，减少了识别任务的复杂度，提高了用户体验。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图7，图7为本申请实施例提供的一种实体识别模型训练装置的结构示意图，实体识别模型训练装置700包括：

获取单元701，用于获取实体训练数据；

识别单元702，用于识别所述实体训练数据中的实体信息；

抽取单元703，用于基于所述实体信息抽取关联信息，以生成训练序列，所述关联信息基于至少一个维度信息确定，所述维度信息基于所述实体信息的语义特征所得；

训练单元704，用于根据所述训练序列训练识别模型，所述识别模型用于对所述实体信息进行识别。

可选的，在本申请一些可能的实现方式中，所述抽取单元703，具体用于确定所述实体信息中的词信息；

所述抽取单元703，具体用于基于所述词信息进行关联，以得到关联信息；

所述抽取单元703，具体用于根据预设规则对所述词信息和所述关联信息进行拼接，以生成所述训练序列，所述预设规则基于所述词信息的位置确定。

可选的，在本申请一些可能的实现方式中，所述抽取单元703，还用于获取所述词信息和所述关联信息拼接过程中的交叉熵；

所述抽取单元703，还用于根据所述交叉熵获取第一损失函数，所述第一损失函数用于指示所述识别模型的参数调整。

可选的，在本申请一些可能的实现方式中，所述抽取单元703，还用于基于所述词信息的位置设置标签标识；

所述抽取单元703，还用于根据所述标签标识对所述训练序列进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元704，具体用于获取所述实体信息在所述实体训练数据中的原始定义信息；

所述训练单元704，具体用于基于余弦相似性获取所述原始定义信息和所述关联信息的相似度分数；

所述训练单元704，具体用于根据所述相似度分数确定第二损失函数，以对所述识别模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元704，具体用于根据所述实体信息的所述语义特征确定所述实体信息和所述关联信息的匹配信息；

所述训练单元704，具体用于根据所述匹配信息确定第三损失函数，以对所述识别模型进行训练。

可选的，在本申请一些可能的实现方式中，所述训练单元704，具体用于根据所述语义特征确定所述关联信息的句子分类信息；

所述训练单元704，具体用于根据所述句子分类信息确定所述实体信息与所述关联信息的匹配概率，以确定所述匹配信息。

可选的，在本申请一些可能的实现方式中，所述训练单元704，还用于根据所述语义特征确定所述关联信息中的关系对；

所述训练单元704，还用于基于所述关系对的相关性进行分类，以确定第四损失函数；

所述训练单元704，还用于根据所述第四损失函数对所述识别模型的训练参数进行更新。

可选的，在本申请一些可能的实现方式中，所述训练单元704，具体用于在所述实体信息中插入词平均向量，以得到实体向量，所述词平均向量基于至少两个预设词所得；

所述训练单元704，具体用于将所述关联信息进行平均池化，以得到关联向量；

所述训练单元704，具体用于将所述实体向量和所述关联向量进行拼接，以得到判别向量；

所述训练单元704，具体用于基于所述判别向量对所述关系对的相关性进行分类，以确定第四损失函数。

可选的，在本申请一些可能的实现方式中，所述抽取单元703，具体用于基于所述实体信息确定端点信息，所述端点信息包括至少两个词信息；

所述抽取单元703，具体用于根据所述端点信息抽取关联信息，以生成训练序列。

可选的，在本申请一些可能的实现方式中，所述获取单元701，还用于获取人工标注的验证集；

所述获取单元701，还用于根据所述验证集对所述识别模型进行验证。

本申请实施例还提供了一种终端设备，如图8所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图8示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图8，手机包括：射频(radio frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作，以及在触控面板831上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器880还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有模型训练指令，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中实体识别模型训练装置所执行的步骤。

本申请实施例中还提供一种包括模型训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中实体识别模型训练装置所执行的步骤。

本申请实施例还提供了一种实体识别模型训练系统，所述实体识别模型训练系统可以包含图7所描述实施例中的实体识别模型训练装置，或者图8所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，实体识别模型训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种实体识别模型训练的方法，其特征在于，包括：

获取实体训练数据；

识别所述实体训练数据中的实体信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述实体信息抽取关联信息，以生成训练序列，包括：

确定所述实体信息中的词信息；

基于所述词信息进行关联，以得到关联信息；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述词信息和所述关联信息拼接过程中的交叉熵；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述词信息的位置设置标签标识；

根据所述标签标识对所述训练序列进行更新。

5.根据权利要求1所述的方法，其特征在于，所述根据所述训练序列训练识别模型，包括：

获取所述实体信息在所述实体训练数据中的原始定义信息；

6.根据权利要求1所述的方法，其特征在于，所述根据所述训练序列训练识别模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述实体信息的所述语义特征确定所述实体信息和所述关联信息的匹配信息，包括：

根据所述语义特征确定所述关联信息的句子分类信息；

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述语义特征确定所述关联信息中的关系对；

基于所述关系对的相关性进行分类，以确定第四损失函数；

9.根据权利要求8所述的方法，其特征在于，所述基于所述关系对的相关性进行分类，以确定第四损失函数，包括：

将所述关联信息进行平均池化，以得到关联向量；

10.根据权利要求1所述的方法，其特征在于，所述基于所述实体信息抽取关联信息，以生成训练序列，包括：

根据所述端点信息抽取关联信息，以生成训练序列。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取人工标注的验证集；

根据所述验证集对所述识别模型进行验证。

12.根据权利要求1所述的方法，其特征在于，所述实体信息为专有名词，所述识别模型用于根据所述专有名词生成定义信息。

13.一种实体识别模型训练的装置，其特征在于，包括：

获取单元，用于获取实体训练数据；

识别单元，用于识别所述实体训练数据中的实体信息；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的实体识别模型训练的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至12任一项所述的实体识别模型训练的方法。