CN114662476A

CN114662476A - 一种融合词典与字符特征的字符序列识别方法

Info

Publication number: CN114662476A
Application number: CN202210177253.0A
Authority: CN
Inventors: 张春; 张宁; 贺璐
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-24

Abstract

本发明提供了一种融合词典与字符特征的字符序列识别方法。该方法包括：获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量；将词典增强的字符嵌入向量与三类词典匹配词进行拼接后，送入Transformer的编码层，Transformer的编码层输出待解码信息；将待解码信息输入至条件随机场CRF解码层进行解码，得到输入序列的标注结果。本发明的方法通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示，从而有效地增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解。

Description

一种融合词典与字符特征的字符序列识别方法

技术领域

本发明涉及字符识别技术领域，尤其涉及一种融合词典与字符特征的字符序列识别方法。

背景技术

随着互联网的发展，各类数据呈指数式增长，只靠传统的人工手动标注早已无法及时有效地识别出实体，进而无法及时挖掘出有价值的信息。特别是近年来人工智能技术的飞速发展与广泛应用，知识图谱在各行各业逐渐成为推荐系统、智能问答、精准匹配等应用的核心技术，而命名实体识别作为构建知识图谱的一项关键技术，又是自然语言处理的基础任务，一直受到广泛研究与关注。

由于英文句子是以词为单位，词与词之间以空格进行分割，而中文句子由单独的字符组成，单独的每个字符并没有实际的语义，这使得中文实体识别的难度增大。

现有技术中的一种中文实体识别方法包括：按照句子输入的类型，将中文实体分为三类：字符嵌入、词嵌入以及字词联合嵌入。由于字词联合嵌入可同时解决前两类方法的不足，因此目前主流方法聚焦于联合嵌入，即同时使用字符与词作为模型的输入。按照联合嵌入的词来源，可分为工具分词、n-gram特征词以及外部词典词，近年来的研究都集中于外部词典，通过将输入句子所对应的匹配词与输入句子的每个字符进行融合，进而增强句子的表示。

上述现有技术中的中文实体识别方法的缺点为：

单独使用字符嵌入的方法，忽略了词的语义特征，无法充分获取字符的语义信息；单独使用词嵌入的方法，对分词工具依赖性高，易造成误差传播以及实体边界划分错误的问题。

字词联合嵌入方法中，基于工具分词的联合嵌入方法对分词工具要求高、依赖性强，基于n-gram特征词的联合嵌入方法存在较多无价值的特征信息干扰。

目前基于词典的联合嵌入方法对词典信息利用不够充分，只在单一过程使用词特征信息，导致划分实体边界与识别实体类型误差增大。

发明内容

本发明的实施例提供了一种融合词典与字符特征的字符序列识别方法，以实现有效的字符的中文命名实体识别。

为了实现上述目的，本发明采取了如下技术方案。

一种融合词典与字符特征的字符序列识别方法，包括：

获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量；

将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后，送入Transformer的编码层，Transformer的编码层输出待解码信息；

将所述待解码信息输入至条件随机场CRF解码层进行解码，得到所述输入序列的标注结果。

优选地，所述的获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量，包括：

给定输入序列为C＝[c₁，c₂，c₃，...，c_n]，输入序列C中的第i个字符为c_i，通过预定义的字符表对字符c_i进行标记并输入至BERT编码器，得到字符c_i的字符嵌入向量

分别表示与字符c_i对应的该字符在词首、词中、词尾的三类词典匹配词集嵌入向量，B、M、E分别表示该字符在词首、词中、词尾的三类匹配词集，令词集Z＝B|M|E，词集R＝B∪M∪E，则

具体计算如下：

其中，weight(w)表示匹配词w在某一类词集中的权重，hum(w)表示匹配词w在语料中出现的频数，e(w)表示匹配词w的嵌入表示，e表示词典的查找表；

将字符嵌入向量

与对应的三类匹配词嵌入向量

进行拼接，将拼接结果作为第i个词典增强的字符嵌入向量

词典增强的字符序列

优选地，所述的将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后，送入Transformer的编码层，Transformer的编码层输出待解码信息，包括：

将词典增强的字符序列x^rep经过线性降维后，与字符c_i对应的词首、词中、词尾的三类匹配词集B、M、E进行拼接后，分别加上开始位置嵌入向量p^start以及结束位置嵌入向量p^end，得到词典增强模型的输入x^dec，字符序列的开始位置与结束位置相同，每个匹配词的开始位置即为该词第一个字符所在的位置，结束位置即为该词最后一个字符所在的位置，计算如下：

x^dec＝[x^repW₁；e(w₁)，e(w₂)，e(w₃)，...，e(w_k)]+p^start+p^end

其中，W₁表示模型参数，p表示位置信息的查找表；

将x^dec输入至Transformer的编码结构，Transformer的编码结构输出待解码信息A。

优选地，所述的将所述待解码信息输入至条件随机场CRF解码层进行解码，得到所述输入序列的标注结果，包括：

将待解码信息A输入至CRF解码层进行解码预测，将CRF获取的概率最大的序列作为所述输入序列C的标签序列y；

标签序列y＝[y₁，y₂，y₃，...，y_n]，Y表示所有可能的标签序列集合，标注序列y概率计算如下：

其中，W_y，y′，b_y，y′是依据标签对(y，y′)的训练参数，θ表示模型所有的可训练参数。

由上述本发明的实施例提供的技术方案可以看出，本发明的方法可以更加充分准确的表示输入句子的语义信息，最终实现更加准确的字符的自动识别命名实体。可以解决输入句子每个字符的语义信息捕获不充分进而可能导致实体边界划分不准确的问题，以及忽略词特征与字符交互进而可能造成实体类型识别不准的问题。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的实现原理图

图2为本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例利用词典匹配词信息，即在句子的字符嵌入过程和模型推理预测过程同时使用词典的词特征，增强模型对文本句子在字符嵌入过程以及模型推理决策过程中对语义信息的理解，进而提高实体识别的F1值。

本发明实施例提供的一种融合词典与字符特征的字符序列识别方法的实现原理图如图1所示，包括词典增强的字符嵌入层、词典增强的推理层以及CRF(conditionalrandom field,条件随机场)解码层三个部分。上述方法的具体处理流程如图2所示，包括如下的处理步骤：

步骤S10、获取输入序列中的每个字符匹配的词典中的三类词典匹配词，将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量。

获取输入序列中的每个字符匹配的词典中的三类词典匹配词，即该字符在词首、词中、词尾的匹配词集。该处理过程具体实现包括：判断句子的任意子字符串是否在词典中存在，若存在，则可将该匹配词按照每个字符在匹配词中出现的位置划分到句子对应的字符中。

由于上述三类词典匹配词都会对识别结果产生影响，因此，根据每个词典匹配词在语料中出现的频率，计算三类词典匹配词集嵌入向量，之后将输入字符序列的每个字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进行拼接，得到词典增强的字符嵌入向量。

增强每个字符的向量表示，为每个字符赋予更加丰富的词语义信息，进而更加充分表示句子的语义，以此提高识别边界划分的准确性。

步骤S20、将词典增强的字符嵌入向量与上述三类词典匹配词进行拼接后，送入Transformer(变换器)的编码层，Transformer的编码层输出待解码信息A。

在词典增强的推理层，再次引入上述三类词典匹配词，将词典增强的字符嵌入层输出的词典增强的字符嵌入向量经过线性降维后，与上述三类词典匹配词进行拼接，将词典增强的字符嵌入向量分别加上对应的词典匹配词的字符以及词典匹配词的开始位置信息和结束位置信息，并送入Transformer的编码层，即通过注意力机制捕获输入每个字符与匹配词之间的交互，Transformer的编码层输出待解码信息A，以此捕获词典匹配词对每个字符的交互特征，进而提高实体类型识别的准确性。

步骤S30、将待解码信息A输入至CRF解码层进行解码，得到上述输入序列的标注结果。

具体的，在词典增强的字符嵌入层，将字符嵌入向量

与对应的三类匹配词嵌入向量

进行拼接，将拼接结果作为第i个词典增强的字符嵌入向量

即为词典增强的字符嵌入层的输出；

给定输入的句子序列，记为C＝[c₁，c₂，c₃，...，c_n]，词典增强的第i个字符嵌入向量

计算如下：

其中，

表示字符嵌入向量，通过预定义的字符表对字符c_i进行标记并输入至BERT编码器，输出即为

分别表示与字符ci对应的该字符在词首、词中、词尾的匹配词集的嵌入向量，B、M、E分别表示该字符在词首、词中、词尾的匹配词集，令词集Z＝B|M|E，词集R＝B∪M∪E，则

具体计算如下：

其中，weight(w)表示匹配词w在某一类词集中的权重，num(w)表示匹配词w在语料中出现的频数，e(w)表示匹配词w的嵌入表示，e表示词典的查找表。

词典增强的模型推理层

将词典增强的字符序列x^rep经过线性降维后，与对应的匹配词拼接，分别加上开始位置嵌入向量p^start以及结束位置嵌入向量p^end作为词典增强模型的输入x^dec。字符序列的开始位置与结束位置相同，每个匹配词的开始位置即为该词第一个字符所在的位置，结束位置即为该词最后一个字符所在的位置，计算如下：

x^dec＝[x^repW₁；e(w₁)，e(w₂)，e(w₃)，...，e(w_k)]+p^start+p^end (4)

其中，W₁表示模型参数，p表示位置信息的查找表。

随后，将x^dec输入至Transformer的编码结构，由Self-Attention及FFN两部分组成，每部分后接残差连接与归一化部分，以此获取输入每个字符与匹配词之间的交互特征，输出待解码信息A。

解码层

将待解码信息A输入至序列标注任务中常用的解码器CRF进行解码预测，将CRF获取概率最大的序列作为上述输入序列的序列标注结果。

标签序列y＝[y₁，y₂，y₃，...，y_n]，标注序列y概率计算如下：

其中，A为待解码信息，Y表示所有可能的标签序列集合，W_y，y′，b_y，y′是依据标签对(y，y′)的训练参数，θ表示模型所有的可训练参数。

在模型训练过程中，通过预测值与真实值的最大化对数似然进行优化，损失函数计算如下：

Loss＝-∑log(p|C；θ)

本发明的实验数据来自于新闻领域公开的中文命名实体识别数据集PeopleDaily，通过在该数据集上对比该方法与其他方法在中文实体识别任务的性能。实验数据的训练集、验证集、测试集分别包含20864、2318以及4636条中文文本句子，涉及的实体类型包含人名、地名、机构名3类实体类型。步骤如下：

数据预处理阶段可提前获取每个输入句子的匹配词以及匹配词在语料中出现的频率。其中，输入句子匹配词的获取可将输入句子序列视为一个字符串，该字符串的子串若存在于词典，则该词为匹配词，否则继续判断下一个子串，以此类推，每出现一个匹配词，该匹配词的个数加1，以此获得匹配词的频率。

模型的训练步骤如下：

(1)词典增强的字符表示层：通过拼接字符表示向量

与匹配词表示向量

作为词典增强的字符表示向量

(2)词典增强的模型推理层：将词典增强的字符表示x^rep经过线性降维与对应的匹配词拼接后，加上开始位置P^start信息以及结束位置信息P^end作为词典增强模型的输入x^dec，将其输入至Transformer的编码结构，输出待解码信息A；

(3)解码：将待解码信息A输入至条件随机场进行解码，输出序列标注结果。

按照上述步骤，将本发明与常用的命名实体识别模型进行对比，包括未使用词典信息的BiLSTM-CRF以及BERT-BiLSTM-CRF，以及在某一部分使用词典信息的LR-CNN、LGN、Lattice LSTM、Flat以及Soft Lexicon，采用准确率、召回率和F1值作为评价指标，对比结果见表1。

表1本发明模型与其他模型在Boson数据集上的实验结果

实验结果表明：

通过将本模型与现有的实体识别模型进行对比，可以看到，模型在People Daily数据集上F1值表现最高，相比于未使用词典信息的模型，本发明性能提升明显，相比于其他使用词典的模型，均有不同程度的提升。

综上所述，本发明实施例的深度融合词典与字符特征的字符序列的中文命名实体识别方法，通过综合词典的匹配词在字符嵌入、模型推理阶段对字符特征的交互、匹配词以及字符的位置信息增强的向量表示，进一步增强模型对文本句子在嵌入过程以及推理过程中对语义信息的表示与理解，提高了字符的命名实体识别的F1值。

本发明实施例提出的深度融合词典与字符特征的字符序列的中文命名实体识别方法可以更加充分准确的表示输入句子的语义信息，最终实现更加准确的自动识别命名实体，提高实体识别的F1值。可以解决输入句子每个字符的语义信息捕获不充分进而可能导致实体边界划分不准确的问题，以及忽略词特征与字符交互进而可能造成实体类型识别不准的问题。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。