CN110298043B

CN110298043B - 一种车辆命名实体识别方法及系统

Info

Publication number: CN110298043B
Application number: CN201910594487.3A
Authority: CN
Inventors: 刘露; 包铁; 葛亮; 彭涛; 邱旭光
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2023-04-07
Anticipated expiration: 2039-07-03
Also published as: CN110298043A

Abstract

本申请公开了一种车辆命名实体识别方法，包括：获得目标文本；对目标文本进行处理，得到多个目标对象；分别确定多个目标对象的向量；将多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，得到识别结果，其中识别结果指示目标文本中的车辆命名实体以及车辆命名实体的类别。基于本申请公开的方法，能够对汽车领域的命名实体进行高效、准确的识别。

Description

一种车辆命名实体识别方法及系统

技术领域

本申请属于车辆命名实体识别技术领域，尤其涉及一种车辆命名实体识别方法及系统。

背景技术

随着互联网和信息产业的高速发展，结构化和非结构化的文本数据增长速度迅猛。随着文本数据的爆炸式增长，文本数据的价值得到普遍肯定，处理文本数据的方法和技术也得到了飞速发展。如何从海量文本数据中抽取有用信息已经成为当前的研究重点。信息抽取的任务便是从非结构化的文本数据中自动或半自动地抽取有用信息，将有用信息转化为结构化或半结构化的数据。命名实体识别作为自然语言处理的基本任务，是信息抽取的子任务之一。命名实体识别就是在文本中识别命名实体，即，将文本中具有一定含义的词语识别出来。作为自然语言处理的底层任务，命名实体识别可以应用于诸如信息抽取、文本分类、知识图谱、搜索引擎、自动问答等各种研究工作之中，命名实体识别的能力直接影响着许多自然语言处理相关研究的准确性。

汽车作为与人息息相关的重要交通工具，在现代社会普遍存在。如何在汽车评论文本中抽取重要信息是一项有意义的工作。将命名实体识别应用到汽车领域，是相关汽车企业在构建知识图谱、意见挖掘以及舆情分析等研究工作的技术支撑。然而，申请人发现，目前并没有针对汽车领域的命名实体进行有效识别的方案。

发明内容

有鉴于此，本申请的目的在于提供一种车辆命名实体识别方法及系统，能够对汽车领域的命名实体进行高效、准确的识别。

为实现上述目的，本申请提供如下技术方案：

本申请提供一种车辆命名实体识别方法，包括：

获得目标文本；

对所述目标文本进行处理，得到多个目标对象，所述目标对象包括字符和词汇；

分别确定所述多个目标对象的向量；

将所述多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，得到识别结果，所述识别结果为所述目标文本的最优标签组合，所述最优标签组合指示所述目标文本中的车辆命名实体以及所述车辆命名实体的类别；

其中，所述车辆命名实体识别模型包括依次连接的双向GRU层、至少两个Transformer层、全连接层和CRF层，所述车辆命名实体识别模型的识别过程，包括：

通过所述双向GRU层分析所述多个目标对象的向量，获得所述目标文本的隐藏状态序列；

通过与所述双向GRU层连接的Transformer层，利用缩放点积注意力计算方式对所述目标文本的隐藏状态序列进行加权，获得经过加权的隐藏状态序列；

依次通过其他Transformer层对前一个Transformer层的输出进行处理，获得经过多层复杂加权的隐藏状态序列，所述经过多层复杂加权的隐藏状态序列为高维矩阵；

通过所述全连接层对所述高维矩阵进行转换，使得转换后的高维矩阵的最低维为标签数量；

所述CRF层基于转换后的高维矩阵，输出所述目标文本的最优标签序列。

可选的，所述双向GRU层中的网络单元cell包括字处理网络单元、词处理网络单元和多输入字网络单元；

所述字处理网络单元用于：基于输入的单字符的字向量和前一时间步输出的隐藏状态确定所述单字符的隐藏状态；

所述词处理网络单元用于：在前向计算过程中，基于输入的词汇的词向量和所述词汇的首字符的隐藏状态，确定所述词汇的隐藏状态；在后向计算过程中，基于输入的词汇的词向量和所述词汇的尾字符的隐藏状态，确定所述词汇的隐藏状态；

所述多输入字网络单元用于：在前向计算过程中，基于词汇的尾字符的字向量、所述词汇的隐藏状态以及所述词汇的首字符的隐藏状态，确定所述词汇的尾字符的隐藏状态；在后向计算过程中，基于词汇的首字符的字向量、所述词汇的隐藏状态以及所述词汇的尾字符的隐藏状态，确定所述词汇的首字符的隐藏状态。

可选的，预先训练车辆命名实体识别模型，包括：

获取训练文本集，所述训练文本集包括多个训练文本，每个训练文本包括至少一个车辆命名实体以及每个车辆命名实体的类别标注信息；

针对每一训练文本进行处理，得到多个目标对象；

利用预先构建的车辆命名实体识别模型对每一训练文本的多个目标对象进行识别，得到所述每一训练文本的识别结果；

依据各个训练文本的识别结果和对应的类别标注信息，调整所述车辆命名实体识别模型中的模型参数，直至利用调整后的车辆命名实体识别模型对所述训练文本进行识别得到的识别结果满足预设收敛条件。

可选的，所述获取训练文本集，包括：

获得与汽车相关的多个原始语料；

对所述多个原始语料进行数据预处理，得到多个训练文本；

针对多个训练文本进行人工标注，形成训练文本集。

可选的，对所述多个原始语料进行数据预处理，得到多个原始文本，包括：

对多个原始原料进行文本拼接处理、文本纠错处理、去除特殊字符处理和繁简体转换处理中的多个。

本申请还提供一种车辆命名实体识别系统，包括：

文本获取单元，用于获得目标文本；

文本处理单元，用于对所述目标文本进行处理，得到多个目标对象，所述目标对象包括字符和词汇；

向量确定单元，用于分别确定所述多个目标对象的向量；

识别单元，用于将所述多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，得到识别结果，所述识别结果为所述目标文本的最优标签组合，所述最优标签组合指示所述目标文本中的车辆命名实体以及所述车辆命名实体的类别；

可选的，在上述系统的基础上，还包括模型训练单元，所述模型训练单元用于：

获取训练文本集，所述训练文本集包括多个训练文本，每个训练文本包括至少一个车辆命名实体以及每个车辆命名实体的类别标注信息；针对每一训练文本进行处理，得到多个目标对象；利用预先构建的车辆命名实体识别模型对每一训练文本的多个目标对象进行识别，得到所述每一训练文本的识别结果；依据各个训练文本的识别结果和对应的类别标注信息，调整所述车辆命名实体识别模型中的模型参数，直至利用调整后的车辆命名实体识别模型对所述训练文本进行识别得到的识别结果满足预设收敛条件。

可选的，所述模型训练单元获取训练文本集，具体为：

获得与汽车相关的多个原始语料；对所述多个原始语料进行数据预处理，得到多个训练文本；针对多个训练文本进行人工标注，形成训练文本集。

可选的，所述模型训练单元对所述多个原始语料进行数据预处理，得到多个原始文本，具体为：

由此可见，本申请的有益效果为：

本申请公开的汽车命名实体识别方法，在获得待识别的目标文本后，对目标文本进行处理，获得多个目标对象(包括字符和词汇)，之后确定多个目标对象的向量，将多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，就可以得到识别结果，从而确定该目标文本中的车辆命名实体以及各车辆命名实体的类别。而且，车辆命名实体识别模型包括双向GRU层和至少两个Transformer层，Transformer层中的Self-Attention子层能够对文本特征进行深层次的抽取和计算，因此通过多个Transformer层的处理能够提升对车辆命名实体识别的边界准确性，而双向GRU层能够加强模型对特征的抽取能力，因此通过双向GRU层的处理能够更好的挖掘汽车领域文本中蕴含的深层次信息，能够提升车辆命名实体的识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种汽车命名实体识别方法的流程图；

图2为本申请公开的一种汽车命名实体识别模型的结构图；

图3为本申请公开的汽车命名实体识别模型中CRF层的原理示意图；

图4为本申请公开的汽车命名实体识别模型中Self-Attention子层的结构图；

图5为本申请公开的一种训练汽车命名实体识别模型的方法的流程图；

图6为本申请公开的一种获取训练文本集的方法的流程图；

图7为本申请公开的一种对原始语料进行预处理的方法的流程图；

图8为本申请公开的一种汽车命名实体识别系统的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开一种车辆命名实体识别方法及系统，能够对汽车领域的命名实体进行高效、准确的识别。

下面对本申请中出现的术语进行解释。

命名实体：文本中人名、机构名、地名、时间、日期、数值以及金额等具有特定意义的词语。

Transformer：Transformer结构是一种利用注意力机制抽取特征的结构。每一个Transformer结构包含两个层，分别是Self-Attention层和Feed-Forward层。Self-Attention层是多头注意力机制，它是多个缩放点积注意力的叠加，充分发挥了注意力机制的作用。Feed-Forward层相对比较简单，有两个线性层和一个ReLU激活函数组成。

GRU：Gated Recurrent Unit，门控循环单元。GRU是深度学习众多模型中的一种，是循环神经网络的变体，门控循环单元只有两个门结构——更新门和重置门，其中更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

CRF：conditional random field algorithm，条件随机场。CRF计算整个标记序列在观察序列条件下的联合概率分布，而并非是当前状态的下一个状态的分布，它是一种基于隐马尔可夫的条件概率分布模型，是概率无向图模型。

参见图1，图1为本申请公开的一种车辆命名实体识别方法的流程图。该方法包括：

步骤S101：获得目标文本。

其中，目标文本为与汽车相关的文本，可以理解为汽车领域的文本。目标文本可以为一句话，也可以为多句话。例如，目标文本可以为用户针对汽车的评价，可以为厂商或者销售商对汽车的介绍。

步骤S102：对目标文本进行处理，得到多个目标对象。

其中，目标对象包括字符和词汇。以目标文本“我爱开丰田”为例，对该目标文本进行处理，得到5个字符“我”、“爱”、“开”、“丰”、“田”，还得到一个词汇“丰田”。

步骤S103：分别确定多个目标对象的向量。

当目标对象为字符时，确定该字符的字向量。当目标对象为词汇时，确定该词汇的词向量。

步骤S104：将多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，得到识别结果。

将多个目标对象的向量作为车辆命名实体识别模型的输入，车辆命名实体识别模型基于该输入生成识别结果。其中，识别结果为目标文本的最优标签组合，最优标签组合能够指示目标文本中的车辆命名实体以及车辆命名实体的类别。

需要说明的是，当目标对象为词汇，但该词汇不包含于汽车领域的词典时，不再将该词汇的词向量作为车辆命名实体识别模型的输入。也就是说，当词汇匹配到预设的汽车领域的词典时，将该词汇的词向量作为车辆命名实体识别模型的输入。例如，当目标文本中包含“我们”这个词汇时，由于“我们”不包含于预设的汽车领域的词典，因此词汇“我们”的词向量不会作为车辆命名实体识别模型的输入。

作为一个示例，本申请中，将汽车命名实体划分为如下类别：品牌名、型号名、物理结构名和属性名。其中，品牌名和型号名是汽车所属的品牌和型号，物理结构名是汽车的组成结构名称，属性名是用于评价汽车功能和性能的属性。汽车命名实体分类见表1所示：

表1汽车领域命名实体分类

作为一个示例，在上述类别划分方案的基础上，本申请中采用的标签集如表2所示。

表2标签集

仍以上述的目标文本“我爱开丰田”为例，假如车辆命名实体识别模型输出的最优标签组为：“O”、“O”、“O”、“B-BRA”、“E-BRA”，就可以确定该目标文本包含车辆命名实体“丰田”，且该车辆命名实体的类别为品牌名。

本申请中的车辆命名实体识别模型包括依次连接的双向GRU层、至少两个Transformer层、全连接层和CRF层，如图2所示。下面结合图2对步骤S104的具体实现过程进行说明。

第1步，通过双向GRU层分析多个目标对象的向量，获得目标文本的隐藏状态序列。

其中，双向GRU层包括前向LatticeGRU层和后向LatticeGRU层。前向LatticeGRU层进行前向计算，其输入是按照时间顺序的正序输入；后向LatticeGRU层进行后向计算，其输入是按照时间顺序的逆序输入。

以目标文本为“我爱开丰田”为例，按照从左到右的顺序将每个字符的字向量和“丰田”的词向量输入到前向LatticeGRU层，按照从右到左的顺序将每个字符的字向量和“丰田”的词向量输入到后向LatticeGRU层。

前向LatticeGRU层基于输入确定目标文本中每个字符的隐藏状态，后向LatticeGRU层基于输入确定目标文本中每个字符的隐藏状态，再将前向LatticeGRU层输出的隐藏状态序列与后向LatticeGRU层输出的隐藏状态序列按位置拼接，得到最终的隐藏状态序列，并将其作为下一层的输入。

第2步，通过与双向GRU层连接的Transformer层对目标文本的隐藏状态序列进行分析，利用缩放点积注意力计算方式进行加权，获得经过加权的隐藏状态序列。

第3步，依次通过其他Transformer层对前一个Transformer层的输出进行处理，获得经过多层复杂加权的隐藏状态序列，该序列的具体表现形式为高维矩阵。

每个Transformer层由Self-Attention子层和Feed-Forward子层构成。

Self-Attention子层将输入的任意字符进行线性变换之后再进行Attention计算，计算过程是：将一句话中任意字符与该句话中所有字符都进行Scaled Dot-ProductAttention计算。Self-Attention子层的输出与该子层的原始输入进行相加，得到残差连接的结构，将得到的输出输入到Feed-Forward子层。Feed-Forward子层有两个全连接层构成，激活函数是ReLU。Feed-Forward子层的输出与该子层的原始输入进行相加，得到残差连接的结构。

经过连续多个Transformer层之后，将得到的输出输入到全连接层。

第4步，通过全连接层对最后一个Transformer层输出的高维矩阵进行转换，使得转换后的高维矩阵的最低维的维度为标签数量。

实施中，利用矩阵乘法对最后一个Transformer层输出的高维矩阵的最低维进行转换，使得全连接层输出的高维矩阵的最低维的维度为标签数量。

例如，最后一个Transformer层输出的是(B,L,D)高维矩阵，最低维的维度为D，假设共有Y个标签，那么需要将(B,L,D)高维矩阵转换为(B,L,Y)高维矩阵，为了实现这个目的，将(B,L,D)高维矩阵乘以(D,Y)矩阵即可。

第5步，CRF层基于全连接层输出的高维矩阵，输出目标文本的最优标签序列。

通过CRF层接收全连接层输出的高维矩阵，输出目标文本的最优标签序列。这个标签序列不再是高维矩阵，而是二维矩阵。对于目标文本不会实际出现的标签序列，CRF层通过维特比算法来对错误序列进行限制，保证输出的标签序列符合现实意义。

一个目标文本的标签序列可能有很多种，但只有一种是正确序列。由于针对目标文本中某个字符的识别可能会出现偏差，这导致可能出现无意义的标签序列。CRF层通过学习标签之间的规则，从而有效地剔除掉一些明显不可能形成的错误标签序列，从而得到目标文本的最优标签序列。

例如，“ABC”(其中，A、B和C各代表一个中文字)的标签序列可能是“B-ATT”、“M-ATT”、“E-ATT”，这表示“A”、“B”、“C”为属性名开头字符、属性名中间字符和属性名结尾字符，是符合约束性规则的。这三个字的标签序列还可能为“B-ATT”、“O”、“E-ATT”，这个标签序列没有实际意义，实际场景中不会出现，CRF层会删除该标签序列。

CRF层采用线性链条件随机场，其结构如图3所示。

线性链条件随机场的定义为：设X＝(X₁，X₂，…，X_n)与Y＝(Y₁，Y₂，…，Y_n)都是线性链表示的随机变量序列，若在给定X的条件下，条件概率分布P(Y|X)构成条件随机场，即满足如下公式的马尔可夫性，则称P(Y|X)为线性链条件随机场。

P(Y_i|X，Y₁，…，Y_n)＝P(Y_i|X，Y_i-1，Y_i+1)

在命名实体识别的问题中，X表示为观测序列，也称被为输入序列，Y表示为状态序列，也被称为标记序列。条件随机场可以由参数化形式表示，也可以由简化形式表示，还可以由矩阵形式表示。

条件随机场的概率计算问题是通过给定P(Y|X)、X和Y，计算出条件概率P(Y_i＝y_i|x)，P(Y_i-1＝y_i-1，Y_i＝y_i|x)以及相应的数学期望的问题。条件随机场通过正则化的极大似然估计等方法来进行模型参数的训练。在预测问题中，通过给定的观测序列X和条件随机场P(Y|X)，可以在所有的输出序列中找到条件概率最大的解Y。

需要说明的是，在本申请上述公开的车辆命名实体识别模型中，在双向GRU层的输入端和输出端还增加Dropout层，其目的是保证在训练车辆命名实体识别模型的过程中不会出现过拟合。这两个Dropout层仅在训练车辆命名实体识别模型的过程中运行，在完成训练后，利用完成训练的车辆命名实体识别模型对文本进行车辆命名实体识别的过程中，这两个层处于关闭状态。

另外，在Self-Attention子层和Feed-Forward子层中，在得到残差连接的结构后，还需要进行层规范化处理，这能够确保车辆命名实体识别模型的稳定性。需要说明的是，仅在训练车辆命名实体识别模型的过程中需要进行层规范化处理，在完成训练后，利用完成训练的车辆命名实体识别模型对文本进行车辆命名实体识别的过程中，不再进行层规范化处理。

下面对双向GRU层的数据处理过程进行更详细地说明。

双向GRU层中的网络单元cell包括字处理网络单元、词处理网络单元和多输入字网络单元。

字处理网络单元用于：基于输入的单字符的字向量和前一时间步输出的隐藏状态确定该单字符的隐藏状态。

字处理网络单元的公式如下：

其中：

c表示字符；

为字处理网络单元的重置门；

为字处理网络单元的更新门；

为当前时间步j的候选隐藏状态；

为当前时间步j的隐藏状态；

为前一时间步j-1的隐藏状态，也就是前一个字处理网络单元的输出；

σ表示将值映射至(0,1)的sigmoid函数；

为当前时间步j的输入，即输入该字处理网络单元的字向量；

和

为该字处理网络单元的模型参数。

词处理网络单元用于：在前向GRU计算过程中，基于输入的词汇的词向量和该词汇的首字符的隐藏状态，确定该词汇的隐藏状态；在后向GRU计算过程中，基于输入的词汇的词向量和该词汇的尾字符的隐藏状态，确定该词的隐藏状态。

双向GRU层中词处理网络单元的公式如下：

其中：

w表示词；

为词处理网络单元的重置门；

为词处理网络单元的更新门；

为当前时间步j的候选隐藏状态；

为当前时间步j的隐藏状态；

在前向GRU计算过程中为词汇的首字符的隐藏状态，也就是该方向中前一个字处理网络单元的输出，在后向GRU计算过程中为词汇的尾字符的隐藏状态，也是该方向中前一个字处理网络单元的输出；

σ表示将值映射至(0,1)的sigmoid函数；

tanh是双曲函数；

表示以索引b代表的字符开头、以索引e代表的字符结束的词的词向量；

和

为该字处理网络单元的模型参数。

多输入字网络单元用于：在前向GRU计算过程中，基于词汇的尾字符的字向量、该词汇的隐藏状态以及该词汇的首字符的隐藏状态，确定该词汇的尾字符的隐藏状态；在后向GRU计算过程中，基于词汇的首字符的字向量、该词汇的隐藏状态以及该词汇的尾字符的隐藏状态，确定该词汇的首字符的隐藏状态。

多输入字网络单元的公式如下：

其中：

c表示字符；

为多输入字网络单元的更新门；

为当前时间步j的隐藏状态；

为当前时间步j的候选隐藏状态，其公式与字处理网络单元的

一致；

在前向GRU计算过程中为词汇的尾字符的字向量，在后向GRU计算过程中为词汇的首字符的字向量；

为词汇的隐藏状态；

表示序列中以第b个字符为首字符、以第j个字符为尾字符的词汇的隐藏状态，其中j同时也是当前的时间步，即当前正在处理的字符的索引。该变量与

同属一类变量，并无本质区别，只不过在不同的公式中首尾字符的下标改变了一下而已。

W_a1、W_a2和b_a为该多输入字网络单元的模型参数；

和

是

和

经过规范化后的系数，这使得它们的和为1，具体公式如下：

其中：

为字处理网络单元的更新门；

为多输入字网络单元的更新门，b′为输入该单元的词处理网络单元的输入单词的首字符下标，j为输入该单元的词处理网络单元的输入单词的尾字符下标。b′来自于一个集合，该集合是输入序列中，每一个以下标j表示的字符结尾的词汇的首字符的下标，因为这样的词汇不止一个，因此用b′表示；

和

表示规范化后的系数。

这里结合图4对Transforer层中的Self-Attention子层进行说明。

其中，Q、K、V代表双向GRU层输出的隐层状态序列经过三个不同的线性映射之后生成的矩阵。linear代表全连接层，Concat表示拼接，h表示多头注意力机制的头数。Self-Attention通过句子中每个单词进行注意力计算来动态调整字与字之间的相互关系，它的核心结构是h个并行的Scaled Dot-Product Attention。

Scaled Dot-Product Attention的输入由query、d_k维的key和d_v维的value组成。在这里，query、key和value代表文本中的单词表示。我们计算query和所有key的点积、用

相除，然后应用一个softmax函数以获得值的权重。在实践中，我们同时计算一组query的Attention函数，并将它们组合成一个矩阵Q。key和value也一起打包成矩阵K和V。其公式如下：

Scaled Dot-Product Attention的优势是速度快，占用空间小。经过h个并行的Scaled Dot-Product Attention，再将这些输出拼接起来，再用一个线性变换来得到多头注意力的最终输出。公式如下：

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^o

Feed Forward层会接收来自于Self Attention层的输出，该层相比其他层来说很简单，由两个线性层和ReLU激活函数组成，具体公式如下：

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂

其中，W₁、W₂、b₁和b₂是可训练的模型参数，x是Self Attention层的输出。

下面对预先训练车辆命名实体识别模型的方法进行说明，请参见图5所示，包括：

步骤S201：获取训练文本集。

其中，训练文本集包括多个训练文本，每个训练文本包括至少一个车辆命名实体以及每个车辆命名实体的类别标注信息。每个车辆命名实体的类别标注信息可以采用人工标注。在下文中对获取训练文本集的过程进行详细说明。

步骤S202：针对每一训练文本进行处理，得到多个目标对象。

针对训练文本集中的训练文本进行处理，针对每个训练文本得到多个目标对象，目标对象包括单字符和词汇。

步骤S203：利用预先构建的车辆命名实体识别模型对每一训练文本的多个目标对象进行识别，得到每一训练文本的识别结果。

步骤S204：依据各个训练文本的识别结果和对应的类别标注信息，调整车辆命名实体识别模型中的模型参数，直至利用调整后的车辆命名实体识别模型对训练文本进行识别得到的识别结果满足预设收敛条件。

预先构建的车辆命名实体识别模型中的初始模型参数均为自定义数值，对车辆命名实体识别模型的训练过程就是优化模型参数，以使得车辆命名实体识别模型的损失函数达到最小，同时准确率达到较高水平，此时的模型参数可以作为最终的模型参数。

损失函数用来表现预测值与真实值之间的差距程度，损失函数越小表明预测值越接近于真实值。此处的预测值是利用当前车辆命名实体识别模型对训练文本进行预测得到的识别结果；真实值是训练文本的类别标注信息。

本申请上述公开的训练车辆命名实体识别模型的方法，首先获取经过人工标注的训练文本集，针对每一训练文本进行处理，得到多个目标对象，利用预先构建的车辆命名实体识别模型对每一训练文本的多个目标对象进行识别，得到每一训练文本的识别结果，通过比对训练文本的识别结果和训练文本的类别标注信息，来调整车辆命名实体识别模型中的模型参数，直至利用调整后的车辆命名实体识别模型对训练文本进行识别得到的识别结果满足预设收敛条件，完成模型的训练过程。

下面对构建训练文本集的过程进行说明，请参见图6所示，包括步骤S301至步骤S303。

步骤S301：获得与汽车相关的多个原始语料。

实施中，可以利用爬虫技术在网络上获取与汽车相关的原始语料。与汽车相关的原始语料包括但不限于针对汽车的评价。

可选的，以汽车车型为关键字，在网络上获取与各车型的汽车相关的原始语料。

步骤S302：对获取的多个原始语料进行数据预处理，得到多个训练文本。

针对原始语料的数据预处理，可以采用如图7所示的方法，包括：

步骤S401：分别对多个原始语料进行文本拼接；

步骤S402：分别对经过拼接处理得到的多个语料进行文本去重处理；

步骤S403：分别对经过去重处理得到的多个语料进行文本纠错处理；

步骤S404：分别对经过文本纠错处理的多个语料进行去除特殊字符处理；

步骤S405：分别对经过去除特殊字符处理的多个语料进行繁简体转换，得到多个训练文本。

需要说明的是，上述图7所示的方法为对原始语料进行数据预处理的最优方案。在实际应用中，其中的某些步骤可以省略，并且部分步骤的顺序可以进行调整。例如，步骤S405是可以省略的。例如，对语料的文本去重处理可以调整至最后执行。

也就是说，对原始语料的预处理包括文本拼接处理、文本去重处理、文本纠错处理、去除特殊字符处理和繁简体转换处理中的多个。其中，前一个处理环节的输出作为下一个处理环节的输入。

可选的，如果经过上述处理得到的语料的数量远超过训练汽车命名实体识别模型所需的训练文本的数量，那么可以在执行上述处理后进一步执行以下步骤：对多个语料进行随机选择，得到多个训练样本。也就是说，利用随机选择算法在多个语料中选择出预设数量的语料，选择出的语料作为训练文本。之后对训练文本进行人工标注。

步骤S303：针对多个训练文本进行人工标注，形成训练文本集。

这里结合实例进行说明：

由于网页中待爬取的文本内容很复杂，如爬取某品牌汽车评论，其中每一条评论涉及到“优点”、“缺点”、“外观”、“内饰”、“空间”、“配置”、“动力”、“操控”、“油耗”以及“舒适”十个部分，每一个部分是由包裹的文本。是HTML的一组标签，被用来组合文档中的行内元素，这些行内元素是包裹在与之间的元素，以便通过css样式来格式化这些元素。上述图片所在的网页中一共有10块这样的区域，该品牌汽车评论共包含601页这样的网页，需要将每一页的评论内容全部爬取下来。

实施中，可以利用scrapy框架爬取汽车评论。

scrapy爬虫框架包含引擎、调度器、下载器、爬虫、项目管道、下载器中间件、调度器中间件等重要模块。其中，引擎负责处理整个系统的数据流，接收和发送请求以及应答，调度器将引擎发送的请求压入队列，并在引擎请求时给予返回，下载器的功能是下载引擎发送请求的网页内容，并将下载好的内容发送回引擎，爬虫用于从已经下载好的页面中解析具体内容，同时如果该页面有新的请求，爬虫也会将该请求发送到引擎中，项目管道负责数据的存储和过滤。

爬取过程如下：

(1)确定需要爬取的具体车型，并将每个车型的评论页面url抽取出来构成原始车型下载队列。

(2)从原始车型下载队列中选择一个url出队，并将该url请求送入调度器进行排队。入口url是在scrapy的爬虫模块中定义的。

(3)将调度器中的一个url请求出队，将该请求送入下载器中，进行相关内容的下载工作。

(4)如果下载器并没有成功下载该页面，那么将该请求继续送回调度器队列中，等待引擎的下一次调用。

(5)如果下载器成功下载该页面，将该页面内容送入爬虫模块中，解析我们需要的具体项目，即“优点”、“缺点”、“外观”、“内饰”、“空间”、“配置”、“动力”、“操控”、“油耗”以及“舒适”十个部分。

(6)如果某款汽车的评论包含的页面数量多于1页，会在页面底部显示“下一页”选项，利用这一选项将下一页的url请求解析出来，并将该请求送入调度器继续排队。

(7)直到没有“下一页”选项，说明该款汽车的评论已经全部爬取完毕，因此要对之前爬取的内容进行存储，这里直接存储到了本地文件系统，因此使用scrapy的feedexports方式进行相应的存储操作。

(8)如果原始车型下载队列没有下载完成，则重新进入第2步进行循环，直到该队列的内容全部下载完成后便停止爬取。

在获得原始语料之后，要对原始语料进行预处理。对原始语料进行预处理的过程包括：

(1)文本拼接：在爬取过程中，由于网页内容本身的格式问题，在存储之后可能出现了串行、空行等问题，因此首先对原始语料进行文本拼接，消除原始语料中的串行和空行问题。

(2)文本去重：如果将内容相似度极高，甚至完全雷同的语料均作为训练文本，那么不利于模型的训练效率。因此，对经过文本拼接的语料进行文本去重处理。实施中，可以采用Simhash方法进行文本去重。

(3)文本纠错：语料中不可避免存在一定的错误文字，因此需要进行文本纠错。

(4)去除特殊字符：一些表情符号或无意义符号需要从语料中剔除。实施中，可以采用正则表达式匹配的方法去除这些特殊字符。

(5)简繁体转换：部分汽车语料包含或者全部为繁体字，为了更加方便的训练字向量，需要将简体字和繁体字进行统一，本专利将繁体字转换为简体字。

(6)随机选择：经过上述步骤之后得到的语料数量较大，如果全部进行人工标注，需要耗费海量的时间，因此可以选择一部分语料作为训练文本。

在对语料进行预处理之后，需要对语料进行人工标注。

经过数据预处理之后的语料形式为：

语料1：车辆的隔音一般，噪音有点大。尤其是凉车启动时的发动机的噪音，快赶上拖拉机了(有点夸张)。

语料2：转向很精准，没发现跑偏什么的，指哪走哪，方向盘也轻盈，转动很轻松，驾校学习时有些车方向盘真叫一个重啊。

语料3：油耗低，是我最中意的一部分，基本都是在市里开，油耗问题是我关注的重点，所以最终选择朗逸，就是因为这一点。

实施中，可以使用轻量级标注工具YEDDA对训练文本进行人工标注。YEDDA并非自动标注工具，而是通过辅助手段让标注过程更加简单。以上三个句子经过标注之后的形式为：

语料1：车辆的[@隔音#ATT*]一般，[@噪音#ATT*]有点大。尤其是凉车启动时的[@发动机#STR*]的[$噪音#ATT*]，快赶上拖拉机了(有点夸张)。

语料2：转向很精准，没发现跑偏什么的，指哪走哪，[@方向盘#STR*]也轻盈，转动很轻松，驾校学习时有些车[$方向盘#STR*]真叫一个重啊

语料3：[@油耗#ATT*]低，是我最中意的一部分，基本都是在市里开，[$油耗#ATT*]问题是我关注的重点，所以最终选择[@朗逸#BRA*]，就是因为这一点。

标注的过程是在YEDDA工具中将语料文件打开，自定义每种命名实体类别的快捷键，通过选中文本框中每一个命名实体进行相应的标注工作。最后将上述标记好的文本通过YEDDA工具生成BMOES规格的数据集Automobile-NER。

本申请上述公开了车辆命名实体识别方法，相应的，本申请还公开车辆命名实体识别系统，说明书中关于两者的描述可以相互参考。

参见图8，图8为本申请公开的一种汽车命名实体识别系统的结构图。该系统包括：

文本获取单元10，用于获得目标文本；

文本处理单元20，用于对目标文本进行处理，得到多个目标对象，目标对象包括字符和词汇；

向量确定单元30，用于分别确定多个目标对象的向量；

识别单元40，用于将多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，得到识别结果。其中，识别结果为目标文本的最优标签组合，最优标签组合指示目标文本中的车辆命名实体以及车辆命名实体的类别。

其中，车辆命名实体识别模型包括依次连接的双向GRU层、至少两个Transformer层、全连接层和CRF层，车辆命名实体识别模型的识别过程，包括：

通过双向GRU层分析多个目标对象的向量，获得目标文本的隐藏状态序列；

通过与双向GRU层连接的Transformer层，利用缩放点积注意力计算方式对目标文本的隐藏状态序列进行加权，获得经过加权的隐藏状态序列；

依次通过其他Transformer层对前一个Transformer层的输出进行处理，获得经过多层复杂加权的隐藏状态序列，经过多层复杂加权的隐藏状态序列为高维矩阵；

通过全连接层对最后一个Transformer层输出的高维矩阵进行转换，使得转换后的高维矩阵的最低维的维度为标签数量；

CRF层基于全连接层输出的高维矩阵，输出目标文本的最优标签序列。

本申请公开的汽车命名实体识别系统，在获得待识别的目标文本后，对目标文本进行处理，获得多个目标对象(包括字符和词汇)，之后确定多个目标对象的向量，将多个目标对象的向量输入预先完成训练的车辆命名实体识别模型，就可以得到识别结果，从而确定该目标文本中的车辆命名实体以及各车辆命名实体的类别。而且，车辆命名实体识别模型包括双向GRU层和至少两个Transformer层，Transformer层中的Self-Attention子层能够对文本特征进行深层次的抽取和计算，因此通过多个Transformer层的处理能够提升对车辆命名实体识别的边界准确性，而双向GRU层能够加强模型对特征的抽取能力，因此通过双向GRU层的处理能够更好的挖掘汽车领域文本中蕴含的深层次信息，能够提升车辆命名实体的识别效果。

在另一个实施例中，在图8所示系统结构的基础上，进一步设置模型训练单元。

该模型训练单元用于：获取训练文本集，训练文本集包括多个训练文本，每个训练文本包括至少一个车辆命名实体以及每个车辆命名实体的类别标注信息；针对每一训练文本进行处理，得到多个目标对象；利用预先构建的车辆命名实体识别模型对每一训练文本的多个目标对象进行识别，得到每一训练文本的识别结果；依据各个训练文本的识别结果和对应的类别标注信息，调整车辆命名实体识别模型中的模型参数，直至利用调整后的车辆命名实体识别模型对训练文本进行识别得到的识别结果满足预设收敛条件。

可选的，模型训练单元获取训练文本集，具体为：获得与汽车相关的多个原始语料；对多个原始语料进行数据预处理，得到多个训练文本；针对多个训练文本进行人工标注，形成训练文本集。

可选的，模型训练单元对多个原始语料进行数据预处理，得到多个原始文本，具体为：对多个原始原料进行文本拼接处理、文本纠错处理、去除特殊字符处理和繁简体转换处理中的多个。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种车辆命名实体识别方法，其特征在于，包括：

获得目标文本；

分别确定所述多个目标对象的向量；

依次通过其他Transformer层对前一个Transformer层的输出进行处理，获得经过多层复杂加权的隐藏状态序列，所述经过多层复杂加权的隐藏状态序列为高维矩阵，每个所述Transformer层由Self-Attention子层和Feed-Forward子层构成；

通过所述全连接层对所述高维矩阵进行转换，使得转换后的高维矩阵的最低维的维度为标签数量；

所述CRF层基于转换后的高维矩阵，输出所述目标文本的最优标签序列；

其中，所述双向GRU层中的网络单元cell包括字处理网络单元、词处理网络单元和多输入字网络单元；

2.根据权利要求1所述的方法，其特征在于，预先训练车辆命名实体识别模型，包括：

针对每一训练文本进行处理，得到多个目标对象；

3.根据权利要求2所述的方法，其特征在于，所述获取训练文本集，包括：

获得与汽车相关的多个原始语料；

对所述多个原始语料进行数据预处理，得到多个训练文本；

针对多个训练文本进行人工标注，形成训练文本集。

4.根据权利要求3所述的方法，其特征在于，对所述多个原始语料进行数据预处理，得到多个原始文本，包括：

对多个原始预料进行文本拼接处理、文本去重处理、文本纠错处理、去除特殊字符处理和繁简体转换处理中的多个。

5.一种车辆命名实体识别系统，其特征在于，包括：

文本获取单元，用于获得目标文本；

向量确定单元，用于分别确定所述多个目标对象的向量；

所述双向GRU层中的网络单元cell包括字处理网络单元、词处理网络单元和多输入字网络单元；

6.根据权利要求5所述的系统，其特征在于，还包括模型训练单元，所述模型训练单元用于：

7.根据权利要求6所述的系统，其特征在于，所述模型训练单元获取训练文本集，具体为：

8.根据权利要求7所述的系统，其特征在于，所述模型训练单元对所述多个原始语料进行数据预处理，得到多个原始文本，具体为：

对多个原始原料进行文本拼接处理、文本去重处理、文本纠错处理、去除特殊字符处理和繁简体转换处理中的多个。