CN112966517B

CN112966517B - 命名实体识别模型的训练方法、装置、设备及介质

Info

Publication number: CN112966517B
Application number: CN202110482282.3A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-02-18
Anticipated expiration: 2041-04-30
Also published as: CN112966517A; WO2022227163A1

Abstract

本发明涉及自然语言处理技术领域，尤其涉及一种命名实体识别模型的训练方法、装置、设备及介质。本发明的命名实体识别模型的训练方法、装置、设备及介质中，命名实体识别模型以精度参数作为奖励信号，通过精度参数的变化计算得到词向量矩阵中每个候选对象的第一奖励，再根据第一奖励计算每一时间步的第二奖励，能够更好的体现每个候选对象对于预测结果的贡献，同时能够更好的评估经过掩码处理之后所得不同的嵌入词向量矩阵的有效性，有利于命名实体识别模型采样到更贴近具有更优有效性的嵌入词向量矩阵，提高了命名实体识别模型的训练速度，同时提高了训练完成后的命名实体识别模型的预测速度以及预测准确度。

Description

命名实体识别模型的训练方法、装置、设备及介质

【技术领域】

本发明涉及自然语言处理技术领域，尤其涉及一种命名实体识别模型的训练方法、装置、设备及介质。

【背景技术】

随着人工智能(Artificial Intelligence，AI)技术的发展，自然语言处理(Natural Language Processing，NLP)技术在语音识别、语音翻译、理解完整的句子、理解匹配词的同义词，以及生成语法正确完整句子和段落等方面得到广泛的应用。作为自然语言处理的一个基础任务，命名实体识别(Named Entities Recognition，NER)的目的在于识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

现有技术中，在进行命名实体识别模型训练时，没有充分考虑输入至模型策略函数的被掩码处理后的词向量表示对于模型准确性的影响，导致现有技术中命名实体识别模型的训练速度慢，识别准确性有待提高。

【发明内容】

本发明的目的在于提供一种命名实体识别模型的训练方法、装置、设备及介质，以解决现有技术中命名实体识别模型的训练速度慢以及识别准确性不高的技术问题。

本发明的第一方面：提供一种命名实体识别模型的训练方法，包括：

获取至少一个训练样本，其中，所述训练样本包括文本的词向量矩阵以及真实标签序列；

将所述训练样本输入至待训练的命名实体识别模型中，利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理，得到每一时间步的嵌入词向量矩阵；

将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数，得到所述策略函数输出的每一时间步的标签概率分布；

根据所述标签概率分布进行采样，得到每一时间步的预测标签序列；

根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数，根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励；

将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励；

根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型。

可选地，所述获取至少一个训练样本，包括：

对所述文本中的句子进行分词处理，得到所述文本对应的分词序列；

对所述分词序列进行语义提取，得到词向量矩阵，其中，所述词向量矩阵包括所述分词序列中每个分词的融合了句子语义的词向量；

对所述分词序列中每个分词的真实标签进行标注，得到真实标签序列；

利用所述文本的词向量矩阵以及真实标签序列构建训练样本。

可选地，所述根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励，包括：

根据每一时间步的精度参数以及所述每一时间步之前的相邻时间步的精度参数计算每一时间步的精度参数梯度；

根据所述每一时间步的精度参数梯度以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励。

可选地，所述将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励，包括：

获取每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化；

根据所述每一时间步的奖励向量以及所述每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化，获取所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值；

根据所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值，获取每一时间步的第二奖励。

可选地，所述根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，包括：

根据每一时间步之后的所有时间步的第二奖励之和，得到每一时间步的累加第二奖励；

根据每一时间步的累加第二奖励以及每一时间步的标签概率分布，利用梯度下降法对策略函数的参数进行训练。

本发明的第二方面：提供一种命名实体的识别方法，包括：

将待处理文本进行词向量化处理，得到所述待处理文本的词向量化矩阵；

将所述待处理文本的词向量化矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列；

其中，所述命名实体识别模型在训练时的奖励函数的输入包括所述词向量矩阵中每个候选对象的每一时间步的第一奖励，所述奖励函数的输出用于表征对所述每一时间步的预测标签序列的准确性的评价结果；

所述词向量矩阵中每个候选对象的每一时间步的第一奖励是根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布获取的；所述每一时间步的标签概率分布是根据所述命名实体识别模型的策略函数在强化学习过程中根据所述每一时间步的所述嵌入词向量矩阵进行预测得到的。

本发明的第三方面：提供一种命名实体识别模型的训练装置，包括：

训练样本构建模块，用于获取至少一个训练样本，所述训练样本包括文本的词向量矩阵以及真实标签序列；

掩码处理模块，用于将所述训练样本输入至待训练的命名实体识别模型中，利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理，得到每一时间步的嵌入词向量矩阵；

预测模块，用于将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数，得到所述策略函数输出的每一时间步的标签概率分布；

采样模块，用于根据所述标签概率分布进行采样，得到每一时间步的预测标签序列；

第一奖励计算模块，用于根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数，根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励；

第二奖励计算模块，用于将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励；

参数调节模块，用于根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型。

本发明的第四方面：提供一种命名实体的识别装置，包括：

词表示模块，用于将待处理文本进行词向量化处理，得到所述待处理文本的词向量化矩阵；

识别模块，用于将所述待处理文本的词向量化矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列；

本发明的第五方面：提供一种电子设备，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时实现上述的命名实体识别模型的训练方法或者上述的命名实体的识别方法。

本发明的第六方面：提供一种存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现上述的命名实体识别模型的训练方法或者上述的命名实体的识别方法。

本发明提供的命名实体识别模型的训练方法、命名实体的识别方法、装置、设备及介质中，命名实体识别模型以精度参数作为奖励信号，通过精度参数的变化计算得到词向量矩阵中每个候选对象的第一奖励，再根据第一奖励计算每一时间步的第二奖励，能够更好的体现每个候选对象对于预测结果的贡献，同时能够更好的评估经过掩码处理之后所得不同的嵌入词向量矩阵的有效性，有利于命名实体识别模型采样到更贴近具有更优有效性的嵌入词向量矩阵，缩短了命名实体识别模型采样到具有更优有效性的嵌入词向量矩阵的时间，在较少迭代次数的情况下能够得到准确率符合要求的模型，提高了命名实体识别模型的训练速度，缩短了训练时间，提升了训练效率，同时提高了训练完成后的命名实体识别模型的预测速度以及预测准确度。

【附图说明】

图1为本发明第一实施例的命名实体识别模型的训练方法的流程图；

图2为本发明第一实施例的命名实体识别模型的训练方法中步骤S101的子步骤的流程图；

图3为本发明第一实施例的命名实体识别模型的训练方法中步骤S105的子步骤的流程图；

图4为本发明第一实施例的命名实体识别模型的训练方法中步骤S106的子步骤的流程图；

图5为本发明第二实施例的命名实体识别方法的流程图；

图6为本发明第三实施例的命名实体识别模型的训练装置的结构示意图；

图7是本发明第四实施例的命名实体识别装置的结构示意图；

图8为本发明第五实施例的电子设备的结构示意图；

图9为本发明第六实施例的存储介质的结构示意图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

强化学习是智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。强化学习中由环境提供的强化信号(即奖励)对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价(即奖励)的环境中获得知识，改进行动方案以适应环境。

狭义的命名实体(named entity)是指人名、机构名、地名以及其他所有以名称为标识的实体，而更广泛的实体还包括数字、日期、货币、地址等，于是，广义的命名实体除了上述的实体类，还包括了时间类和数字类。

命名实体识别的任务就是识别出待处理文本中不同类型的命名实体。一般地，命名实体的类型主要包括实体类、时间类和数字类(三大类)；进一步地，可以将命名实体的类型分为人名、机构名、地名、时间、日期、货币和百分比(七小类)；更进一步地，可以根据不同应用领域进行细分，例如，在医疗领域内，需要识别的命名实体类型可以包括症状、身体部位、病症、药物名称等；又如，在购物领域内，需要识别的命名实体类型可以包括人名、地址、购买时间等。具体地，假设命名实体类型包括人名、时间和地点三类，对文本“小周早上9点去公司上班。”进行命名实体识别，能提取的信息包括：人名：小周，时间：早上9点，地点：公司。

自然语言处理任务中的命名实体识别基础任务可以应用于医疗、家居、时政、购物、推荐等多种领域，不同的命名实体类型可以根据应用场景确定。

图1为本发明第一实施例的命名实体识别模型的训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该命名实体识别模型的训练方法包括步骤：

S101，获取至少一个训练样本，其中，所述训练样本包括文本的词向量矩阵以及真实标签序列；

在本实施例中，待训练的命名实体识别模型可以为BiLSTM-CRF模型，文本包括至少一个句子，文本的词向量矩阵通过对所述文本进行词向量化处理得到。

在一个可选的实施方式中，请参阅图2所示，步骤S101具体包括：

S201，对所述文本中的句子进行分词处理，得到所述文本对应的分词序列；

S202，对所述分词序列进行语义提取，得到词向量矩阵，所述词向量矩阵包括所述分词序列中每个分词的融合了句子语义的词向量；

S203，对所述分词序列中每个分词的真实标签进行标注，得到真实标签序列；

S204，利用所述文本的词向量矩阵以及真实标签序列构建训练样本；

其中，在步骤S201中，在进行分词处理时，对所述文本进行去停用词以及去特殊符号处理后，使用深度学习分词器进行分词处理。具体地，可以利用jieba分词，pkuseg分词或thulac分词等分词工具，对去除停用词和特殊符号后的文本进行词语级别的编码，得到初始的词向量表示，即文本对应的为分词序列，其中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言文本之前或之后会自动过滤掉某些字或词，停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。特殊字符是相对于传统或常用的符号外，使用频率较少字符且难以直接输入的符号，比如数学符号、单位符号、制表符等。去停用词、去特殊符号的目的是使输入文本更为简洁，提高命名实体识别的效率。在步骤S202中，可以利用BERT模型(Bidirectional Encoder Representationfrom Transformers，来自变换器的双向编码表示)对分词序列进行语义提取，输出融合句子语义的词向量，语义提取后的融合句子语义的词向量可以称为特征向量，BERT模型包括输入层、输出层以及设置在输入层和输出层之间的多个Transformer编码器(TransformerEncoder)，输入层、第一个Transformer编码器、第二个Transformer编码器、……、第N个Transformer编码器及输出层依次连接，其中，Transformer编码器用于识别分词在输入文本中的依赖关系和时序特征，具体地，每个Transformer编码器包括四个部分，分别为字向量与位置编码、注意力机制、残差连接与层标准化、和前馈，其中，字向量与位置编码的部分用于提供文本中每个分词的位置信息；注意力机制的部分用于保持输入文本中的每个词向量都含有该文本中所有词向量的信息；残差连接与层标准化用于对字向量与位置编码的输出和注意力机制的输出进行残差连接(相加)，再将残差连接后的输出进行归一化处理；前馈的部分由两层线性映射组成，并用ReLU激活函数激活，输出输入文本的隐藏序列。残差连接的两个不同Transformer编码器中高层的Transformer编码器最终输出低层Transformer编码器的隐藏序列和高层Transformer编码器的隐藏序列之和至高层Transformer编码器的下一层。当然，在步骤S202中，还可以利用其他模型对分词序列进行词向量化处理，例如，word2vec模型，具体地，利用word2vec模型获取所述分词序列中每个分词的词向量，得到文本的词向量矩阵。

S102，将训练样本输入至待训练的命名实体识别模型中，利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵。

其中，时间步可以理解为时间区间，是将一个持续性的过程分解成小段，每一小段即为一个时间步，在模型训练的过程中，一次训练包括多个循环，每个循环对应一个时间步，命名实体识别模型执行一次从步骤S102至步骤S104的过程，对输入的词向量矩阵进行处理输出预测标签序列。

其中，命名实体识别模型由多层Transformer构成，Transformer主要基于编码器-解码器结构和注意力机制，该命名实体识别模型包括掩码矩阵，通过该掩码矩阵可以对参与计算的某些数据进行掩盖，消除这部分数据对参数更新的影响，也就是说，被掩盖的这部分数据无论取任何值，都不会影响参数更新的结果。具体地，词向量矩阵B＝[b₁,…,b_l,…,b_L]，b_l表示一个词向量，每个词向量也可以成为一个候选对象，掩码矩阵a^t＝[a^t ₁,…,a^t _l,…,a^t _L]，掩码矩阵中的每个元素a^t _l的取值为1或0，掩码矩阵中每个元a^t _l与词向量矩阵中每个候选对象b_l对应，当a^t _l取值为1时，候选对象b_l没有被掩码，参与后续计算；当a^t _l取值为0时，候选对象b_l被掩码，不参与后续计算，对于第t个时间步，经过掩码处理后的得到的嵌入词向量矩阵为B′＝[a^t ₁b₁,…,a^t _lb_l,…,a^t _Lb_L]。

S103，将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数，得到所述策略函数输出的每一时间步的标签概率分布。

其中，每一时间步的标签概率分布包括每个分词属于不同类型标签的概率，表示为

其中，每个词向量(候选对象)的概率分布

与掩码矩阵对应元素a_l以及对应参数θ_l相关，其中，a^t＝[a^t ₁,…,a^t _l,…,a^t _L]为该时间步t的掩码矩阵，θ＝[θ₁；θ₂；…θ_L]为策略函数的参数，即为本实施例的训练目标，每个参数θ_l与第l个分词(候选对象)对应。掩码矩阵对应元素a^t _l都是独立于伯努利分布采样的，伯努利分布定义为

具体地，假设共有m个类型的标签，L个分词(每个分词对应一个词向量)，对于第t个时间步，标签概率分布

包括第l个分词(候选对象)为标签1的概率P1l、标签2的概率P2l、……、标签m的概率Pml，其中，l为1、2、……、L，此时，模型的输出层的作用类似于多分类问题的softmax回归，输出的是一个概率分布。例如，在命名实体识别的应用场景中，不同类型的标签可以包括实体类、时间类和数字类，进一步地，可以包括人名类、地名类、机构名类、时间类和数字类。

S104，根据所述标签概率分布进行采样，得到每一时间步的预测标签序列。

在步骤S104中，根据每一时间步的标签概率分布进行随机采样，将采样值作为每一时间步的预测标签，在本实施例中，通过调整策略函数的参数，能够使得每个分词的采样结果能够更加接近或等于使得每一步的奖励值最优的标签类型。

S105，根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数，根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励。

其中，每一时间步的精度参数用于表征该次预测的准确性，所述精度参数可以为精度(Precision)，也可以为精度均值(Mean Average Precision)，该精度参数由命名实体识别模型在每一步计算后自动返回。

在一个可选的实施方式中，请参阅图3所示，步骤S105具体包括：

S301，根据每一时间步的精度参数以及所述每一时间步之前的相邻时间步的精度参数计算每一时间步的精度参数梯度；

S302，根据所述每一时间步的精度参数梯度以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励。

具体地，在步骤S301中，精度参数梯度为

由于精度参数不能向控制器反向传播，本实施例使用增强算法进行优化，精度参数作为训练控制器的奖励信号，在步骤S302中，优化的增强算法如下：

其中，r^t _l为第l个候选对象在时间步t的第一奖励，r^t ₁、r^t ₂、…、r^t _l、…、r^t _L形成一个长度为L的奖励向量r^t，表示词向量矩阵中每个候选对象在时间步t的第一奖励。

S106，将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励。

其中，奖励函数为

其中，时间步t为当前时间步，时间步i为当前时间步t为之前的任意一个时间步，i＝1、2、……、t-1，R_t为时间步t的第二奖励，即为第t步的第二奖励；R_i为时间步i的第二奖励，即为第i步的第二奖励；a^t为时间步t的掩码矩阵，aⁱ为时间步i的掩码矩阵，|a^t-aⁱ|表示掩码矩阵在时间步t与时间步i之间的状态变化。具体地，针对第l个候选对象，

一共有L个上述等式，由此计算出每一时间步的第二奖励，a^t _l为候选对象l在时间步t的掩码矩阵a^t中对应元素，aⁱ _l为候选对象l在时间步i的掩码矩阵aⁱ中对应元素，|a^t _l-aⁱ _l|为候选对象l在时间步t与时间步i之间的掩码状态变化。

在一个可选的实施方式中，请参阅图4所示，步骤S106具体包括：

S401，获取每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化；

S402，根据所述每一时间步的奖励向量以及所述每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化，获取所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值；

S403，根据所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值，获取每一时间步的第二奖励。

S107，根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型。

其中，根据每一时间步之后的所有时间步的第二奖励之和，得到每一时间步的累加第二奖励；根据每一时间步的累加第二奖励以及每一时间步的标签概率分布，利用梯度下降法对策略函数的参数进行训练。

在本实施例中，以精度参数作为奖励信号，通过精度参数的变化计算得到词向量矩阵中每个候选对象的第一奖励，再根据第一奖励计算每一时间步的第二奖励，能够更好的体现每个候选对象对于预测结果的贡献，同时能够更好的评估经过掩码处理之后所得不同的嵌入词向量矩阵的有效性，有利于命名实体识别模型采样到更贴近具有更优有效性的嵌入词向量矩阵，提高了命名实体识别模型的训练速度，同时提高了训练完成后的命名实体识别模型的预测速度以及预测准确度。

图5为本发明第二实施例的命名实体识别方法的流程示意图，应用第一实施例的训练方法所训练完成的命名实体识别模型进行命名实体识别。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该命名实体识别方法包括步骤：

S501，将待处理文本进行词向量化处理，得到所述待处理文本的词向量化矩阵；

S502，将所述待处理文本的词向量化矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列；

其中，步骤S501中对待处理文件进行词向量化处理生成词向量化矩阵的方式与第一实施例中步骤S101中相同；本实施例中嵌入词向量的获取方式、第一奖励的具体计算方式以及第二奖励的具体计算方式与第一实施例中步骤S102至步骤S106相同，在此不进行一一赘述。

进一步地，在一个可选的实施方式中，在步骤S502之后，还包括如下步骤：

S503，将所述识别标签序列上传至区块链中，以使得所述区块链对所述识别标签序列进行加密存储。

在步骤S105中，基于所述识别标签序列得到对应的摘要信息，具体来说，摘要信息为由所述识别标签序列进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述识别标签序列是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

图6是本发明第三实施例的命名实体识别模型的训练装置的结构示意图。如图6所示，该装置60包括训练样本构建模块61、掩码处理模块62、预测模块63、采样模块64、第一奖励计算模块65、第二奖励计算模块66以及参数调节模块67，其中，训练样本构建模块61，用于获取至少一个训练样本，其中，所述训练样本包括文本的词向量矩阵以及真实标签序列；掩码处理模块62，用于将所述训练样本输入至待训练的命名实体识别模型中，利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理，得到每一时间步的嵌入词向量矩阵；预测模块63，用于将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数，得到所述策略函数输出的每一时间步的标签概率分布；采样模块64，用于根据所述标签概率分布进行采样，得到每一时间步的预测标签序列；第一奖励计算模块65，用于根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数，根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励；第二奖励计算模块66，用于将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励；参数调节模块67，用于根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型。

进一步地，训练样本构建模块61还用于对所述文本中的句子进行分词处理，得到所述文本对应的分词序列；对所述分词序列进行语义提取，得到词向量矩阵，所述词向量矩阵包括所述分词序列中每个分词的融合了句子语义的词向量；对所述分词序列中每个分词的真实标签进行标注，得到真实标签序列；利用所述文本的词向量矩阵以及真实标签序列构建训练样本。

进一步地，第一奖励计算模块65还用于根据每一时间步的精度参数以及所述每一时间步之前的相邻时间步的精度参数计算每一时间步的精度参数梯度；根据所述每一时间步的精度参数梯度以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励。

进一步地，第二奖励计算模块66还用于获取每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化；根据所述每一时间步的奖励向量以及所述每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化，获取所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值；根据所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值，获取每一时间步的第二奖励。

进一步地，参数调节模块67还用于根据每一时间步之后的所有时间步的第二奖励之和，得到每一时间步的累加第二奖励；根据每一时间步的累加第二奖励以及每一时间步的标签概率分布，利用梯度下降法对策略函数的参数进行训练。

进一步地，掩码模块62还用于将每一时间步的掩码矩阵中的每个掩码与所述词向量矩阵中对应位置的词向量相乘，得到每一时间步的嵌入词向量矩阵。

图7是本发明第四实施例的命名实体识别装置的结构示意图。如图7所示，该装置70包括：词表示模块71和识别模块72，其中，词表示模块71，用于将待处理文本进行词向量化处理，得到所述待处理文本的词向量化矩阵；识别模块72，用于将所述待处理文本的词向量化矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列。

图8是本发明第五实施例的电子设备的结构示意图。如图8所示，该电子设备80包括处理器81及和处理器81耦接的存储器82。

存储器82存储有用于实现上述任一实施例的命名实体识别模型的训练方法或者上述任一实施例的命名实体的识别方法的程序指令。

处理器81用于执行存储器82存储的程序指令以进行命名实体识别模型的训练。

其中，处理器81还可以称为CPU(Central Processing Unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明第六实施例的存储介质的结构示意图。本发明第六实施例的存储介质90存储有能够实现上述所有方法的程序指令91，其中，该程序指令91可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种命名实体识别模型的训练方法，其特征在于，包括：

根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型；

其中，所述将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数，得到所述奖励函数输出的每一时间步的第二奖励，包括：

2.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，所述获取至少一个训练样本，包括：

3.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，所述根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励，包括：

4.根据权利要求1所述的命名实体识别模型的训练方法，其特征在于，所述根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，包括：

5.一种命名实体的识别方法，其特征在于，包括：

将待处理文本进行词向量化处理，得到所述待处理文本的词向量矩阵；

将所述待处理文本的词向量矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列；

其中，所述命名实体识别模型是根据权利要求1至4任一项所述的命名实体识别模型的训练方法训练获取的，所述命名实体识别模型在训练时的奖励函数的输入包括所述词向量矩阵中每个候选对象的每一时间步的第一奖励，所述奖励函数的输出用于表征对所述每一时间步的预测标签序列的准确性的评价结果；

6.一种命名实体识别模型的训练装置，其特征在于，包括：

参数调节模块，用于根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布，对所述策略函数的参数进行训练，直至所述策略函数收敛，得到训练完成的命名实体识别模型；

其中，所述第二奖励计算模块用于：

7.一种命名实体的识别装置，其特征在于，包括：

词表示模块，用于将待处理文本进行词向量化处理，得到所述待处理文本的词向量矩阵；

识别模块，用于将所述待处理文本的词向量矩阵输入至预先训练的命名实体识别模型，利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理，得到嵌入词向量矩阵，并根据所述嵌入词向量矩阵输出识别标签序列；

8.一种电子设备，其特征在于，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1～4中任一项所述的命名实体识别模型的训练方法或者实现如权利要求5所述的命名实体的识别方法。

9.一种存储介质，其特征在于，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现如权利要求1～4中任一项所述的命名实体识别模型的训练方法或者实现如权利要求5所述的命名实体的识别方法。