CN110321547B

CN110321547B - 一种命名实体确定方法及装置

Info

Publication number: CN110321547B
Application number: CN201810298209.9A
Authority: CN
Inventors: 于严; 李世峰; 朱宏波; 李中男; 王鹏; 俞鸿魁
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2024-06-11
Anticipated expiration: 2038-03-30
Also published as: CN110321547A

Abstract

本发明公开了一种命名实体确定方法及装置，该方法包括：接收表征待识别命名实体的输入向量；使用LSTM神经网络对输入向量进行双向传递计算，分别确定输入向量的前向信息及后向信息，根据输入向量及其前向信息、后向信息生成第一合并向量；使用RNN神经网络对第一合并向量进行单向传递计算，将第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量；根据预设分类标签索引号对第二合并向量进行概率计算；根据概率计算结果生成带有分类标签索引号的输出结果。通过实施本发明，能够更精确地确定所合并的向量之间的关系，使得在实际应用中，对于输入的文本或自然语言等输入向量的识别准确度较高。

Description

一种命名实体确定方法及装置

技术领域

本发明涉及机器学习和自然语言处理技术领域，具体涉及一种命名实体确定方法及装置。

背景技术

目前，涉及机器学习和自然语言处理技术领域的神经网络模型主要包括：前馈神经网络模型、循环神经网络模型等。

上述两种神经网络所用的激活函数主要是sigmoid函数，用以将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f’(x)＝f(x)(1-f(x))。因此，两个0到1之间的数相乘，得到的结果就会变得很小。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就会趋近于0，从而导致层数比较浅的权重没有更新，从而产生梯度消失。而如果初始化权值过大，前面层会比后面层变化的更快，就会导致权值越来越大，则会产生梯度爆炸的问题。

因此，使用上述的前馈神经网络模型、循环神经网络模型等进行自然语言处理时，并不能克服上述的梯度消失及梯度爆炸的问题，并且，也不能确定各输入向量之间的关系，使得上述的神经网络模型在实际应用中，对于输入的文本或自然语言等输入向量的识别准确度较差。

发明内容

有鉴于此，本发明实施例提供了一种命名实体确定方法及装置，以解决现有技术存在的对于输入的文本或自然语言等输入向量的识别准确度较差的问题。

根据第一方面，本发明实施例提供了一种命名实体确定方法，包括：接收表征待识别命名实体的输入向量；使用LSTM神经网络对所述输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，根据所述输入向量及其前向信息、后向信息生成第一合并向量；使用RNN神经网络对所述第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量；根据预设分类标签索引号对所述第二合并向量进行概率计算；根据概率计算结果生成带有分类标签索引号的输出结果。本发明实施例中，结合LSTM+RNN的网络架构，基于LSTM神经网络对表征待识别命名实体的输入向量进行双向传递确定的合并向量的前向及后向的词义信息，通过RNN神经网络进行单向传递计算，确定双向传递过程中的合并向量及其前向、后向的词义信息之间的关联关系，而并不仅仅是将两个向量进行简单的堆加合并，这种基于所确定的关联关系进行的概率计算，能够更加准确地对用于待命名实体的分类的文本标签进行预测，进而更加准确的确定待命名实体的类别。

结合第一方面，在第一方面第一实施方式中，根据预设分类标签索引号对所述第二合并向量进行概率计算，包括：分别计算所述第二合并向量属于各所述预设分类标签索引号的概率；所述预设分类标签索引号表示分类标签对应的序号。

结合第一方面，在第一方面第二实施方式中，根据概率计算结果生成带有分类标签索引号的输出结果，包括：比较所述第二合并向量属于各所述预设分类标签索引号的概率的大小；将所述输入向量定义为概率最大的预设分类标签索引号，进行输出。

结合第一方面，在第一方面第三实施方式中，在接收表征待识别命名实体的输入向量之前，所述方法还包括：接收多个表征用于训练的命名实体的训练数据；使用LSTM神经网络根据第一初始权重参数对所述训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量；使用RNN神经网络根据第二初始权重参数对所述第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量；根据预设分类标签索引号对所述第二训练向量进行概率计算，生成带有分类标签索引号的训练输出结果；根据所述训练数据对应的实际结果与所述训练输出结果计算交叉熵损失；判断所述交叉熵损失是否小于预设阈值；当所述交叉熵损失小于预设阈值时，将所述第一初始权重参数及第二初始权重参数确定为所述用于命名实体确定的神经网络的权重参数。

结合第一方面第三实施方式，在第一方面第四实施方式中，当所述交叉熵损失大于或等于预设阈值时，调整所述第一初始权重参数及第二初始权重参数，并用调整后的权重参数替换所述第一初始权重参数及第二初始权重参数，返回所述使用LSTM神经网络根据第一初始权重参数对所述训练数据进行双向传递计算，生成第一训练向量的步骤。

根据第二方面，本发明实施例提供了一种命名实体确定装置，包括：输入向量接收模块，用于接收表征待识别命名实体的输入向量；第一合并向量生成模块，用于使用LSTM神经网络对所述输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，根据所述输入向量及其前向信息、后向信息生成第一合并向量；第二合并向量生成模块，用于使用RNN神经网络对所述第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量；概率计算模块，用于根据预设分类标签索引号对所述第二合并向量进行概率计算；输出结果生成模块，用于根据概率计算结果生成带有分类标签索引号的输出结果。

结合第二方面，在第二方面第一实施方式中，该命名实体确定装置还包括：训练数据接收模块，用于接收多个表征用于训练的命名实体的训练数据；第一训练向量生成模块，用于使用LSTM神经网络根据第一初始权重参数对所述训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量；第二训练向量生成模块，用于使用RNN神经网络根据第二初始权重参数对所述第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量；训练输出结果生成模块，用于根据预设分类标签索引号对所述第二训练向量进行概率计算，生成带有分类标签索引号的训练输出结果；交叉熵损失计算模块，用于根据所述训练数据对应的实际结果与所述训练输出结果计算交叉熵损失；判断模块，用于判断所述交叉熵损失是否小于预设阈值；权重参数确定模块，当所述交叉熵损失小于预设阈值时，所述权重参数确定模块将所述第一初始权重参数及第二初始权重参数确定为所述用于命名实体确定的神经网络的权重参数。

根据第三方面，本发明实施例提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现上述第一方面或第一方面任意实施方式所述的命名实体确定方法。

根据第四方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行上述第一方面或第一方面任意实施方式所述的命名实体确定方法。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明实施例的命名实体确定方法的流程图；

图2示出了本发明实施例的步骤S102的具体流程示意图；

图3示出了本发明实施例的命名实体确定装置的结构示意图；

图4示出了本发明另一实施例的命名实体确定装置的结构示意图；

图5示出了本发明另一实施例的命名实体确定装置的结构示意图；

图6示出了本发明实施例的训练用于命名实体确定的神经网络的方法的流程图；

图7示出了本发明实施例的训练用于命名实体确定的神经网络的装置的结构示意图；

图8示出了本发明另一实施例的训练用于命名实体确定的神经网络的装置的结构示意图；

图9示出了本发明实施例的命名实体确定系统的结构示意图；

图10示出了本发明实施例的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种命名实体确定方法，如图1所示，该命名实体确定方法主要包括：

步骤S101：接收表征待识别命名实体的输入向量；具体地，可以例如是将词向量及词性向量进行线性合并后生成该接收输入向量。

步骤S102：使用LSTM神经网络对输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，根据所述输入向量及其前向信息、后向信息生成第一合并向量。例如，输入的文本为“北京市海淀区北京大学”，则输入向量分别为“北京市”、“海淀区”、“北京大学”，对于输入向量“海淀区”，其前向信息为“北京市”，后向信息为“北京大学”，通过LSTM神经网络进行双向传递计算时，能够分别确定“海淀区”与其前向信息、以及“海淀区”与其后向信息的关系。

步骤S103：使用RNN神经网络对所述第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量。在此步骤中，通过RNN神经网络确定“海淀区”与其前向信息、后向信息之间的关系，整合生成该第二合并向量。

步骤S104：根据预设分类标签索引号对第二合并向量进行概率计算；

步骤S105：根据概率计算结果生成带有分类标签索引号的输出结果。

本发明实施例的命名实体确定方法，是针对命名实体进行识别分类，并对所识别的命名实体标注相应分类标签的方法，通过上述的步骤S101至步骤S105，结合LSTM+RNN的网络架构，使用LSTM神经网络对表征待识别命名实体的输入向量进行双向传递确定的合并向量的前向及后向的词义信息，使用RNN神经网络进行单向传递计算，确定双向传递过程中的合并向量及其前向、后向的词义信息之间的关联关系，而并不仅仅是将两个向量进行简单的堆加合并，基于所确定的关联关系进行概率计算，能够更加准确地确定待命名实体的分类从而输出结果。

可选地，在本发明的一些实施例中，如图2所示，上述步骤S102，使用LSTM神经网络对输入向量进行双向传递计算，生成第一合并向量的过程，具体包括以下步骤：

步骤S201：将在第一网络神经元接收的输入向量与相邻网络神经元按第一传递方向传递的第一向量进行合并，从而确定输入向量与第一向量的关系(确定第一向量为输入向量的前向信息或后向信息)，生成第一子合并向量，并将第一子合并向量作为第一向量，按第一传递方向传递至相邻网络神经元；

步骤S202：将在第二网络神经元接收的输入向量与相邻网络神经元按第二传递方向传递的第二向量进行合并，从而确定输入向量与第二向量的关系(确定第二向量为输入向量的前向信息或后向信息)，生成第二子合并向量，并将第二子合并向量作为第二向量，按第二传递方向传递至相邻网络神经元；其中，该第二传递方向与第一传递方向的方向相反。

步骤S203：将第一子合并向量及第二子合并向量进行合并，生成第一合并向量发送至第三网络神经元。

在本发明的一些实施例中，上述的第一网络神经元及第二网络神经元可以是位于同一LSTM神经网络(例如是LSTM神经网络)中的不同网络神经元，该第三网络神经元可以是位于RNN神经网络(循环神经网络)中的网络神经元。通过上述步骤，将输入向量进行双向传递，能够有效避免传统神经网络的梯度消失及梯度爆炸的问题。

可选地，在本发明的一些实施例中，上述的步骤S103：使用RNN神经网络对所述第一合并向量进行单向传递计算，生成第二合并向量的过程，主要包括以下过程：

将在第三网络神经元接收的第一合并向量及相邻网络神经元按第二传递方向传递的第三向量进行合并，即是将输入向量及其前向信息、后向信息进行整合，生成第二合并向量，输出第二合并向量，并将第二合并向量作为第三向量，按第二传递方向传递至相邻网络神经元。

通过上述步骤，对经过双向传递合并的第二合并向量，确定该输入向量及其前向信息、后向信息之间的关联关系，能够更加准确地识别和预测输入向量，提高确定该待识别命名实体的分类的准确度。

可选地，在本发明的一些实施例中，上述的步骤S104，根据预设分类标签索引号对第二合并向量进行概率计算，包括：分别计算第二合并向量属于各预设分类标签索引号的概率；预设分类标签索引号表示分类标签对应的序号。例如，用索引号0表示标签类别为国家(/n)，用索引号1表示标签类别为城市(/c)，用索引号2表示标签类别为城区(/d)……等等。然后，通过步骤S105，根据概率计算结果生成带有分类标签索引号的输出结果，具体地，包括：比较第二合并向量属于各预设分类标签索引号的概率的大小；将输入向量定义为概率最大的预设分类标签索引号，进行输出。例如，计算第二合并向量属于索引号0的概率为15％，属于索引号1的概率为20％，属于索引号2的概率为65％。因此，将该第二合并向量确定为属于索引号2，即，输入向量应当为索引号2对应的分类标签：城区(/d)。

本发明实施例的命名实体确定方法，由于在对输入向量进行双向传递之后，经过单向传递过程，确定了合并向量中的各向量之间的关联关系，使得识别和预测输入向量的词义及词性的结果更加准确。

本发明实施例还提供一种命名实体确定装置，如图3所示，该命名实体确定装置主要包括：输入向量接收模块301、第一合并向量生成模块302、第二合并向量生成模块303、概率计算模块304及输出结果生成模块305。

其中，该输入向量接收模块301用于接收输入向量，输入向量包括词向量及词性向量，详细内容请参见上述实施例的步骤S101的相关描述。

该第一合并向量生成模块302用于使用LSTM神经网络对输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，根据所述输入向量及其前向信息、后向信息生成第一合并向量，详细内容请参见上述实施例的步骤S102的相关描述。

可选地，在本发明的一些实施例中，如图4所示，该第一合并向量生成模块302包括：

第一子合并向量生成子模块3021，用于将在第一网络神经元接收的输入向量与相邻网络神经元按第一传递方向传递的第一向量进行合并，从而确定输入向量与第一向量的关系(确定第一向量为输入向量的前向信息或后向信息)，生成第一子合并向量，并将第一子合并向量作为第一向量，按第一传递方向传递至相邻网络神经元；详细内容请参见上述实施例的步骤S201的相关描述。

第二子合并向量生成子模块3022，用于将在第二网络神经元接收的输入向量与相邻网络神经元按第二传递方向传递的第二向量进行合并，从而确定输入向量与第二向量的关系(确定第二向量为输入向量的前向信息或后向信息)，生成第二子合并向量，并将第二子合并向量作为第二向量，按第二传递方向传递至相邻网络神经元；详细内容请参见上述实施例的步骤S202的相关描述。

第一合并向量生成子模块3023，用于将第一子合并向量及第二子合并向量进行合并，生成第一合并向量发送至第三网络神经元；详细内容请参见上述实施例的步骤S203的相关描述。

该第二合并向量生成模块303用于使用RNN神经网络对第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量，详细内容请参见上述实施例的步骤S103的相关描述。

概率计算模块304用于根据预设分类标签索引号对第二合并向量进行概率计算，详细内容请参见上述实施例的步骤S104的相关描述。

输出结果生成模块305用于根据概率计算结果生成带有分类标签索引号的输出结果，具体地，该输出结果生成模块305可包括：比较子模块，用于比较第二合并向量属于各预设分类标签索引号的概率的大小；结果输出子模块，用于将输入向量定义为概率最大的预设分类标签索引号，进行输出，详细内容请参见上述实施例的步骤S105的相关描述。

可选地，在本发明的一些实施例中，如图5所示，该输出结果生成模块305包括：

比较子模块3051，用于比较第二合并向量属于各预设分类标签索引号的概率的大小；

输出结果子模块3052，用于将输入向量定义为概率最大的预设分类标签索引号，进行输出。

本发明实施例的命名实体确定装置，由于在对输入向量进行双向传递之后，经过单向传递过程，确定了合并向量中的各向量之间的关联关系，使得识别和预测输入向量的词义及词性的结果更加准确。

以上所述为本发明实施例的命名实体确定方法及装置对待识别的词语进行识别和预测的过程。在实际应用中，还需先对参与识别及预测过程的各个权重参数进行训练。

可选地，在本发明的一些实施例中，还提供一种训练用于命名实体确定的神经网络的方法，如图6所示，该方法包括：

步骤S601：接收多个表征用于训练的命名实体的训练数据；获取人工标注的数据，对数据预处理去除停用词、替换低频词、替换金钱数字量词等。

步骤S602：使用LSTM神经网络根据第一初始权重参数对训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量；

可选地，在本发明的一些实施例中，生成第一训练向量的具体过程包括：

根据第一初始权重参数将在第一网络神经元接收的训练数据与相邻网络神经元按第一传递方向传递的第一向量进行合并，从而确定训练数据与第一向量的关系(确定第一向量为训练数据的前向信息或后向信息)，生成第一子训练向量，并将第一子训练向量作为第一向量，按第一传递方向传递至相邻网络神经元；

将在第二网络神经元接收的训练数据与相邻网络神经元按第二传递方向传递的第二向量进行合并，从而确定训练数据与第二向量的关系(确定第二向量为训练数据的前向信息或后向信息)，生成第二子训练向量，并将第二子训练向量作为第二向量，按第二传递方向传递至相邻网络神经元；

将第一子训练向量及第二子训练向量进行合并，生成第一训练向量发送至第三网络神经元。

步骤S603：使用RNN神经网络根据第二初始权重参数对第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量；

可选地，在本发明的一些实施例中，生成第二训练向量的具体过程包括：

根据第二初始权重参数将在与第三网络神经元接收的第一训练向量及相邻网络神经元按第二传递方向传递的第三向量进行合并，即是将训练数据及其前向信息、后向信息进行整合，生成第二训练向量，输出第二训练向量，并将第二训练向量作为第三向量，按第二传递方向传递至相邻网络神经元。

步骤S604：对第二训练向量进行概率计算，根据预设分类标签索引号及概率计算结果生成带有分类标签索引号的训练输出结果；

步骤S605：根据训练数据对应的实际结果与训练输出结果计算交叉熵损失。

例如，对于输入的训练数据“北京”，经过上述步骤S601至步骤S604得到的训练输出结果为“北京/d”，而对应训练数据“北京”的实际结果应为“北京/c”。

步骤S606：判断交叉熵损失是否小于预设阈值；

步骤S607：当交叉熵损失小于预设阈值时，将第一初始权重参数及第二初始权重参数确定为用于命名实体确定的神经网络的权重参数。

对于上述的训练数据“北京”，若训练输出结果“北京/c”，则训练输出结果与实际结果的交叉熵损失(Loss值)较小，小于预设阈值，则说明使用当前的预测结果准确度较高，则当前的第一初始权重参数及第二初始权重参数已经能够构建满足预测要求的用于命名实体确定的神经网络模型，因此，将当前的第一初始权重参数及第二初始权重参数确定为该用于命名实体确定的神经网络的权重参数。

而如果对于输入的训练数据“北京”，经过上述步骤S601至步骤S604得到的训练输出结果为“北京/d”，而对应训练数据“北京”的实际结果应为“北京/c”。此时，训练输出结果与实际结果的交叉熵损失(Loss值)较大，大于预设阈值，则说明使用当前的预测结果准确度较低，还需对当前的第一初始权重参数及第二初始权重参数进行调整，并且，在调整后，返回上述步骤S602，根据调整后的权重参数将所述训练数据进行双向传递计算，而后继续执行步骤S603至步骤S605，生成新的训练输出结果，再次与实际结果进行比较，当交叉熵损失小于该预设阈值时，则可将当前的权重参数确定为该用于命名实体确定的神经网络的权重参数；而如果交叉熵损失大于或等于该预设阈值时，则需再对权重参数进行调整，并返回执行步骤S602，如此反复迭代，直至训练输出结果与实际结果的交叉熵损失小于预设阈值，确定了用于命名实体确定的神经网络的权重参数。

可选地，在本发明的一些实施例中，还提供一种训练用于命名实体确定的神经网络的装置，如图7所示，该装置包括：训练数据接收模块701、第一训练向量生成模块702、第二训练向量生成模块703、训练输出结果生成模块704、交叉熵损失计算模块705、判断模块706及权重参数确定模块707。

其中，训练数据接收模块701用于接收多个表征用于训练的命名实体的训练数据；获取人工标注的数据，对数据预处理去除停用词、替换低频词、替换金钱数字量词等，详细内容请参见上述实施例的步骤S601的相关描述。

第一训练向量生成模块702用于使用LSTM神经网络根据第一初始权重参数对训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量，详细内容请参见上述实施例的步骤S602的相关描述。

可选地，在本发明的一些实施例中，如图8所示，该第一训练向量生成模块702包括：

第一子训练向量生成子模块7021，用于根据第一初始权重参数将在第一网络神经元接收的训练数据与相邻网络神经元按第一传递方向传递的第一向量进行合并，从而确定训练数据与第一向量的关系(确定第一向量为训练数据的前向信息或后向信息)，生成第一子训练向量，并将第一子训练向量作为第一向量，按第一传递方向传递至相邻网络神经元；

第二子训练向量生成子模块7022，用于将在第二网络神经元接收的训练数据与相邻网络神经元按第二传递方向传递的第二向量进行合并，从而确定训练数据与第二向量的关系(确定第二向量为训练数据的前向信息或后向信息)，生成第二子训练向量，并将第二子训练向量作为第二向量，按第二传递方向传递至相邻网络神经元；

第一训练向量生成子模块7023，用于将第一子训练向量及第二子训练向量进行合并，生成第一训练向量发送至第三网络神经元。

该第二训练向量生成模块703用于使用RNN神经网络根据第二初始权重参数对第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量，详细内容请参见上述实施例的步骤S603的相关描述。

该训练输出结果生成模块704用于对第二训练向量进行概率计算，根据预设分类标签索引号及概率计算结果生成带有分类标签索引号的训练输出结果，详细内容请参见上述实施例的步骤S604的相关描述。

交叉熵损失计算模块705用于根据训练数据对应的实际结果与训练输出结果计算交叉熵损失，详细内容请参见上述实施例的步骤S605的相关描述。

判断模块706用于判断交叉熵损失是否小于预设阈值，详细内容请参见上述实施例的步骤S607的相关描述；

当交叉熵损失小于预设阈值时，权重参数确定模块707将第一初始权重参数及第二初始权重参数确定为用于命名实体确定的神经网络的权重参数，详细内容请参见上述实施例的步骤S607的相关描述。

对于上述的训练数据“北京”，若训练输出结果为“北京/c”，则训练输出结果与实际结果的交叉熵损失(Loss值)较小，小于预设阈值，则说明使用当前的预测结果准确度较高，则当前的第一初始权重参数及第二初始权重参数已经能够构建满足预测要求的用于命名实体确定的神经网络模型，因此，将当前的第一初始权重参数及第二初始权重参数确定为该用于命名实体确定的神经网络的权重参数。

而如果对于输入的训练数据“北京”，经过上述训练用于命名实体确定的神经网络的装置的训练输出结果为“北京/d”，而对应训练数据“北京”的实际结果应为“北京/c”。此时，训练输出结果与实际结果的交叉熵损失(Loss值)较大，大于预设阈值，则说明使用当前的预测结果准确度较低，还需通过一权重参数调整模块对当前的第一初始权重参数及第二初始权重参数进行调整，并且，在调整后，触发上述第一训练向量生成模块702，根据调整后的权重参数将所述训练数据进行双向传递计算，而后继续生成新的训练输出结果，再次与实际结果进行比较，当交叉熵损失小于该预设阈值时，则可将当前的权重参数确定为该用于命名实体确定的神经网络的权重参数；而如果交叉熵损失大于或等于该预设阈值时，则需通过权重参数调整模块再对权重参数进行调整，并再次触发上述第一训练向量生成模块702，根据调整后的权重参数将所述训练数据进行双向传递计算，如此反复迭代，直至训练输出结果与实际结果的交叉熵损失小于预设阈值，确定了用于命名实体确定的神经网络的权重参数。

本发明实施例还提供一种命名实体确定系统，如图9所示，该命名实体确定系统主要包括：输入层1、双向长短时记忆网络2、循环神经网络3及概率计算层4等。

其中，输入层1接收待识别的词向量及词性向量，将词向量及词性向量进行合并并确定所述单向传递过程中的向量与所述第一合并向量的关系生成输入向量，并传递至双向长短时记忆网络2。双向长短时记忆网络2将输入向量进行双向传递计算，对双向传递计算过程中的计算向量与所述输入向量合并后，生成第一合并向量，并将第一合并向量发送至循环神经网络3。在本发明实施例中，由于加入了双向传递计算的长短时记忆网络层(LTSM)，不仅仅是单向的记录文本的语义信息，而是采用双向的LSTM进行计算。计算后再将左右的向量进行联合。

上述的循环神经网络3将第一合并向量进行单向传递，将单向传递过程中的向量与所述第一合并向量进行合并并确定所述单向传递过程中的向量与所述第一合并向量的关系，生成第二合并向量，并将第二合并向量传递至概率计算层4。概率计算层4对第二合并向量进行概率计算，根据预设分类标签及概率计算结果生成带有分类标签索引号的输出结果。

在一较佳实施例中，使用本发明实施例的命名实体确定系统所执行的预测结果与现有的LSTM神经网络的预测结果的对比结果如表1所示：

表1

Model	Variant	F1值
			LSTM(双层)	Pretrain WE+PE，Dropout	87.5
RNN+LSTM(双层)	Pretrain WE+PE，Dropout	90.2

表1中，Dropout表示这两种神经网络系统所采用的解决过拟合问题的算法；F1值表示精确率P和召回率R的调和均值，即F1＝2PR/(P+R)，相当于精确率和召回率的综合评价指标，F1值越高，表明预测结果更准确。

由此可见，由于在本发明实施例的命名实体确定系统中，在双向LSTM网络层的上层搭建循环神经网络，用以确定双向的LSTM层中合并的向量之间的关联关系，而并不仅仅是将两个向量进行简单的堆加合并，基于确定的关联关系，能够更加准确地输出识别结果。

可选地，在本发明的一些实施例中，上述的输入层1包括多个输入接口11，各输入接口11分别接收词向量(WE1(Word Embedding)、WE2、WE3、WE4……)及词性向量(PE1(PosEmbedding)、PE2、PE3、PE4……)，并将接收的词向量及词性向量线性合并，生成上述的输入向量进行输出。例如图1所示，第一个输入接口11接收词向量WE1及词性向量PE1、第二个输入接口11接收词向量WE2及词性向量PE2，以此类推。

可选地，在本发明的一些实施例中，该双向长短时记忆网络2包括正向长短时记忆网络层21及反向长短时记忆网络层22，正向长短时记忆网络层21包含多个正向长短时记忆网络模块211，反向长短时记忆网络层22包含多个反向长短时记忆网络模块221。

其中，各正向长短时记忆网络模块211接收输入向量，并沿第一方向传递计算各输入向量；各反向长短时记忆网络模块221接收输入向量，并沿第二方向传递计算各输入向量；并且，各正向长短时记忆网络模块211与各反向长短时记忆网络模块221一一对应，且各反向长短时记忆网络模块221与上述的各输入接口11一一对应，上述的第一方向与第二方向为相反方向。

各正向长短时记忆网络模块211及对应的反向长短时记忆网络模块221将双向传递计算过程中的计算向量与所述输入向量合并，生成上述的第一合并向量进行输出。

可选地，在本发明的一些实施例中，上述循环神经网络3包括多个循环神经网络模块31，各循环神经网络模块31与各反向长短时记忆网络模块221一一对应，各循环神经网络模块31分别获取双向长短时记忆网络2传递的第一合并向量，并将第一合并向量分别传递至下一个循环神经网络模块31(如图1所示，即为向右传递给下一第二循环申请网络模块)，各循环神经网络模块31将传递过程中的向量与第一合并向量合并，并确定所述传递过程中的向量与第一合并向量的关系，生成第二合并向量进行输出。

可选地，在本发明的一些实施例中，上述概率计算层4包括多个概率计算模块41，各概率计算模块41与各循环神经网络模块31一一对应，各概率计算模块41分别接收各循环神经网络模块31发送的第二合并向量，对第二合并向量进行概率计算，并根据预设分类标签及概率计算结果标记相应的分类标签索引号，生成带有分类标签索引号的输出结果，如图9所示的num(XXX)(y₁，y₂，y₃，y₄……)。

以上所述为本发明实施例的命名实体确定系统中的各神经网络层训练好后，对待识别的词语进行识别和预测的过程。在实际应用中，还需先对该命名实体确定系统的各个神经网络层进行训练。

可选地，在本发明的一些实施例中，该训练过程主要包括以下步骤：

步骤1：获取人工标注的数据，对数据预处理去除停用词、替换低频词、替换金钱数字量词等。在本发明实施例中，可以是采用IOB标注规范，具体标注详见如表2所示。

表2

步骤2：对标注数据进行分词处理，分词过程以最小切分单位。

步骤3：将标注数据按照7:2:1的比例进行分割，分割后的数据为train.txt、devel.txt、text.txt。训练语料进行交叉随机分布，增加训练数据的规模。

步骤4：预训练词到词向量的转化。在一较佳实施例中，可采用word2vec针对5000万短语料进行训练，能捕获大量的语义信息，训练的词向量采用300维度。

步骤5：将词向量输入到命名实体确定系统。此处的词向量包含两部分，一部分为词义级别的向量，一部分为词性向量级别的。然后将两个向量堆加合并。

步骤6：将堆加的合并向量采用双向LSTM进行训练。LSTM神经网路块先是从左到右进行传递，然后从右向左反向传递。最后向量进行联合作为上层神经网络层的输入。

步骤7：上层神经网络层不仅仅接收LSTM传递过来的联合向量，同时它也记录之前的向量信息。并将该联合向量和记录的之前的向量信息进行合并并确定所述单向传递过程中的向量与所述第一合并向量的关系，发送至最终的网络输出层(同样也是一神经网络层)。

步骤8：最终的网络输出层可以是使用softmax层，该层能将离散的向量转换为以概率和为1的向量，大大方便系统的训练过程。通过该网络输出层对合并向量进行概率计算，标记分类标签索引号。

基于上述步骤1至步骤8，将大量的已标注的数据输入该命名实体确定系统的各神经网络层进行训练，生成可用的命名实体确定系统，用以识别和预测用户输入的待识别词语向量。

按照上述表2所述的标注规范进行识别和预测的结果可以例如是：

上层循环神经网络不仅仅接收LSTM传递过来的联合向量，同时它也记录之前的向量信息。并将该联合向量和记录的之前的向量信息进行合并并确定所述单向传递过程中的向量与所述第一合并向量的关系，发送至最终的网络输出层(同样也是一神经网络层)。

最终的网络输出层可以是使用softmax层，该层能将离散的向量转换为以概率和为1的向量，大大方便系统的训练过程。通过该网络输出层对合并向量进行概率计算，标记分类标签索引号。

基于上述过程，将大量的已标注的数据输入该命名实体确定系统的各神经网络层进行训练，生成可用的命名实体确定系统，用以识别和预测用户输入的待识别词语向量。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的命名实体确定方法或训练用于命名实体确定的神经网络的方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本发明实施例还提供了一种电子设备，如图10所示，该电子设备可以包括处理器101和存储器102，其中处理器101和存储器102可以通过总线或者其他方式连接，图10中以通过总线连接为例。

处理器101可以为中央处理器(Central Processing Unit，CPU)。处理器101还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器102作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的车载显示装置按键屏蔽方法对应的程序指令/模块(例如，图3所示的输入向量接收模块301、第一合并向量生成模块302、第二合并向量生成模块303、概率计算模块304及输出结果生成模块305，或图7所示的训练数据接收模块701、第一训练向量生成模块702、第二训练向量生成模块703、训练输出结果生成模块704、交叉熵损失计算模块705、判断模块706及权重参数确定模块707)。处理器101通过运行存储在存储器102中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的命名实体确定方法或训练用于命名实体确定的神经网络的方法。

存储器102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器101所创建的数据等。此外，存储器102可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器102可选包括相对于处理器101远程设置的存储器，这些远程存储器可以通过网络连接至处理器101。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器102中，当被所述处理器101执行时，执行如图1-图2所示实施例中的命名实体确定方法或图6所示实施例中的训练用于命名实体确定的神经网络的方法。

上述电子设备具体细节可以对应参阅图1至图9所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种命名实体确定方法，其特征在于，包括：

接收表征待识别命名实体的输入向量；所述输入向量包括词向量及词性向量；

使用LSTM神经网络对所述输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，并根据所述输入向量及其前向信息、后向信息生成第一合并向量；

使用RNN神经网络对所述第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量；

根据预设分类标签索引号对所述第二合并向量进行概率计算；

根据概率计算结果生成带有分类标签索引号的输出结果；

其中，使用LSTM神经网络对输入向量进行双向传递计算，生成第一合并向量的过程，包括：

将在第一网络神经元接收的输入向量与相邻网络神经元按第一传递方向传递的第一向量进行合并，从而确定输入向量与第一向量的关系，生成第一子合并向量，并将第一子合并向量作为第一向量，按第一传递方向传递至相邻网络神经元；

将在第二网络神经元接收的输入向量与相邻网络神经元按第二传递方向传递的第二向量进行合并，从而确定输入向量与第二向量的关系，生成第二子合并向量，并将第二子合并向量作为第二向量，按第二传递方向传递至相邻网络神经元；其中，该第二传递方向与第一传递方向的方向相反；

将第一子合并向量及第二子合并向量进行合并，生成第一合并向量发送至第三网络神经元；所述第一网络神经元及第二网络神经元是位于同一LSTM神经网络中的不同网络神经元，所述第三网络神经元是位于RNN神经网络中的网络神经元；

其中，使用RNN神经网络对所述第一合并向量进行单向传递计算，生成第二合并向量的过程，包括：

将在第三网络神经元接收的第一合并向量及相邻网络神经元按第二传递方向传递的第三向量进行合并，生成第二合并向量，输出第二合并向量，并将第二合并向量作为第三向量，按第二传递方向传递至相邻网络神经元。

2.根据权利要求1所述的命名实体确定方法，其特征在于，根据预设分类标签索引号对所述第二合并向量进行概率计算，包括：

分别计算所述第二合并向量属于各所述预设分类标签索引号的概率；所述预设分类标签索引号表示分类标签对应的序号。

3.根据权利要求1所述的命名实体确定方法，其特征在于，根据概率计算结果生成带有分类标签索引号的输出结果，包括：

比较所述第二合并向量属于各所述预设分类标签索引号的概率的大小；

将所述输入向量定义为概率最大的预设分类标签索引号，进行输出。

4.根据权利要求1所述的命名实体确定方法，其特征在于，在接收表征待识别命名实体的输入向量之前，所述方法还包括：

接收多个表征用于训练的命名实体的训练数据；

使用LSTM神经网络根据第一初始权重参数对所述训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量；

使用RNN神经网络根据第二初始权重参数对所述第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量；

根据预设分类标签索引号对所述第二训练向量进行概率计算，生成带有分类标签索引号的训练输出结果；

根据所述训练数据对应的实际结果与所述训练输出结果计算交叉熵损失；

判断所述交叉熵损失是否小于预设阈值；

当所述交叉熵损失小于预设阈值时，将所述第一初始权重参数及第二初始权重参数确定为用于命名实体确定的神经网络的权重参数。

5.根据权利要求4所述的命名实体确定方法，其特征在于，

当所述交叉熵损失大于或等于预设阈值时，调整所述第一初始权重参数及第二初始权重参数，并用调整后的权重参数替换所述第一初始权重参数及第二初始权重参数，返回所述使用LSTM神经网络根据第一初始权重参数对所述输入向量进行双向传递计算，生成第一训练向量的步骤。

6.一种命名实体确定装置，其特征在于，包括：

输入向量接收模块，用于接收表征待识别命名实体的输入向量；所述输入向量包括词向量及词性向量；

第一合并向量生成模块，用于使用LSTM神经网络对所述输入向量进行双向传递计算，分别确定所述输入向量的前向信息及后向信息，根据所述输入向量及其前向信息、后向信息生成第一合并向量；

第二合并向量生成模块，用于使用RNN神经网络对所述第一合并向量进行单向传递计算，将所述第一合并向量中的输入向量及其前向信息、后向信息进行整合，生成第二合并向量；

概率计算模块，用于根据预设分类标签索引号对所述第二合并向量进行概率计算；

输出结果生成模块，用于根据概率计算结果生成带有分类标签索引号的输出结果；

其中，所述第一合并向量生成模块具体用于：

其中，所述第二合并向量生成模块具体用于：

7.根据权利要求6所述的命名实体确定装置，其特征在于，所述概率计算模块具体用于：

8.根据权利要求6所述的命名实体确定装置，其特征在于，所述输出结果生成模块包括：

比较子模块，用于比较所述第二合并向量属于各所述预设分类标签索引号的概率的大小；

结果输出子模块，用于将所述输入向量定义为概率最大的预设分类标签索引号，进行输出。

9.根据权利要求6所述的命名实体确定装置，其特征在于，还包括：

训练数据接收模块，用于接收多个表征用于训练的命名实体的训练数据；

第一训练向量生成模块，用于使用LSTM神经网络根据第一初始权重参数对所述训练数据进行双向传递计算，分别确定所述训练数据的前向信息及后向信息，根据所述训练数据及其前向信息、后向信息生成第一训练向量；

第二训练向量生成模块，用于使用RNN神经网络根据第二初始权重参数对所述第一训练向量进行单向传递计算，将所述第一训练向量中的训练数据及其前向信息、后向信息进行整合，生成第二训练向量；

训练输出结果生成模块，用于根据预设分类标签索引号对所述第二训练向量进行概率计算，生成带有分类标签索引号的训练输出结果；

交叉熵损失计算模块，用于根据所述训练数据对应的实际结果与所述训练输出结果计算交叉熵损失；

判断模块，用于判断所述交叉熵损失是否小于预设阈值；

权重参数确定模块，当所述交叉熵损失小于预设阈值时，所述权重参数确定模块将所述第一初始权重参数及第二初始权重参数确定为所述用于命名实体确定的神经网络的权重参数。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被处理器执行时实现如权利要求1至5中任一项所述的命名实体确定方法。