CN117436452A

CN117436452A - 融合上下文感知和多层次特征的金融实体识别方法

Info

Publication number: CN117436452A
Application number: CN202311727232.2A
Authority: CN
Inventors: 杨先凤; 范玥; 李艳; 蒋欣岑
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-23
Anticipated expiration: 2043-12-15
Also published as: CN117436452B

Abstract

本发明涉及融合上下文感知和多层次特征的金融实体识别方法，属于自然语言处理领域；它解决了现有实体识别模型忽略全局上下文信息和未融合多层次特征的问题。其技术方案是：采用字符级嵌入和基于金融语料的预训练词向量作为文本表示，对两种文本表示进行局部和全局特征提取并融合多层次特征，采用跳跃式空洞卷积网络提取全局上下文特征，通过双仿射分类器进行实体分类。本发明具有以下有益效果：从局部和全局两个层次去捕捉字符级和单词级特征，增强文本表征的准确性；在多层次特征融合时引入分组约束，提高模型的特征选择能力；跳跃式膨胀卷积网络有助于梯度的流动和信息的保留，使模型能够更深入、灵活地学习上下文信息。

Description

融合上下文感知和多层次特征的金融实体识别方法

技术领域

本发明涉及一种融合上下文感知和多层次特征的金融实体识别方法，属于自然语言处理领域。

背景技术

命名实体识别作为信息抽取的一个子任务，在自然语言处理领域发挥着十分重要的作用。一系列下游自然语言处理任务例如实体链接、关系抽取、事件抽取等都是基于命名实体识别的。准确识别出非结构化文本中与特定语义实体类型相关的文本跨度及其正确实体类别如人、地点、组织等是命名实体识别任务的最终目标。目前的实体识别方法主要分为：基于规则的方法，如LaSIE-II、NetOwl、Facile、SAR；基于统计机器学习的方法，如隐马尔可夫模型（HMM）、最大熵（ME）、条件随机场（CRF）、支持向量机（SVM）等。随着深度学习技术的快速发展，基于深度学习的命名实体识别方法逐渐占据主导地位并持续取得了性能提升。

基于规则的实体识别方法仅仅依赖于手工制作的规则和特定领域的字典来识别命名实体。由于字典无法做到详尽无遗和不同领域的规则不同，导致识别结果具有较高的精确率和较低的召回率，并且该方法不能转移到其他领域。基于统计的方法将实体识别任务转换为序列标记任务。给定带注释的语料库，精心设计命名实体的特征来表示每个字符，通过在这些语料库上训练基于统计的机器学习模型，文本中的每个字符都被序列化，并由训练的模型自动标记。然后可以根据标签方案对自动标记的序列进行解码，并将文本中由几个字符组成的命名实体集成在一起。基于统计的机器学习模型通过对示例输入及其预期输出进行训练而不是人工创建的规则来学习和预测。基于深度学习的实体识别方法可分为三大类，分别是通过利用单词级嵌入、字符级嵌入或融合两种嵌入来学习隐含特征的神经网络模型。基于深度学习的实体识别模型能够通过非线性激活函数从数据中学习复杂的特征并且节省设计命名实体识别特征的大量精力。然而，这些方法在很大程度上忽略或过于简化了不同层次特征（如单词级和字符级特征）之间的相关性。除此之外，也很少有方法去融合多层次特征和关注全局与局部上下文之间的联系，导致丢失大量特征信息。

发明内容

本发明目的是：为了解决现有的金融命名实体识别模型只关注局部上下文信息而忽略全局上下文信息和未融合多层次特征的问题，同时使得整个模型具有更好的泛化性和可迁移性。

为实现上述目的，本发明设计出一种融合上下文感知和多层次特征的金融实体识别方法。该方法包括以下步骤：

S100、通过爬虫获取金融新闻文本数据构建用于训练深度学习模型的数据集；将用于训练深度学习模型的数据集进行预处理和标注；

S101、对数据集进行清洗和去停用词处理；将数据集随机按照8:1:1的比例划分为训练集、测试集和验证集；

S102、对数据进行标注，每行一共两列，分别由一个字符和一个标签组成，其中标签label为采用BIOES标记法对词进行标记的符号，BIOES标记法中，B表示这个词处于一个实体的起始位置（Begin）,I表示实体内部位置（Inside）,O表示实体之外的位置（Outside），E表示这个词处于一个实体的结尾位置（End）,S表示一个单独的字词本身就是一个实体（Single）；

S200、对于给定的输入单词序列，通过同时采用单词级嵌入和字符级嵌入表示句子中的每个跨度；单词序列中第t个单词的单词级嵌入/>表示为：，每个字符在第i个单词中的字符级嵌入/>表示为：/>；其中，/>表示第t个单词，/>表示预训练的词嵌入查找表，/>表示字符嵌入查找，是一个随机初始化的值；

S300、为实现多层次特征提取，对字符级嵌入和单词级嵌入分别进行局部和全局特征选择，采用深度可分离卷积网络和transformer的全局自注意力机制获得字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征；

S301、采用深度可分离卷积提取字符级嵌入和单词级嵌入的局部特征，再采用最大池化层突出重点特征，字符级局部特征和单词级局部特征表示为：

；

其中，和/>分别表示字符级局部特征和单词级局部特征，/>表示深度可分离卷积，/>表示最大池化运算；

S302、采用transformer中的全局自注意力机制提取字符级嵌入和单词级嵌入的全局特征，字符级全局特征和单词级全局特征表示为：

;

其中，和/>分别表示字符级嵌入和单词级嵌入，/>和/>分别表示字符级全局特征和单词级全局特征，/>表示transformer编码器中的全局自注意力机制；

S400、对获取到的多层次特征信息通过级联和微调策略进行融合；融合时引入对模型参数的分组约束，分为局部特征和全局特征两组，每组特征内部可共享相似权重，促使模型在学习过程中对一些参数进行稀疏化，提高模型特征选择性能；多层次特征融合结果表示为：

；

其中，，/>，/>，/>别表示S400中提及的字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征，/>控制每项特征的重要性，是随机初始化的值，/>和/>是强度系数，用于控制每个组的稀疏性；

S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络（G-IDCNN）进行全局上下文感知特征提取，跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现，跳跃式膨胀卷积网络模型图如图3所示；膨胀率分别设置为{1，2，5}，卷积核大小设置为3；一个连续的序列表示为：，其中，L表示序列长度；则第i个跨度在跳跃式膨胀卷积网络中表示为：

；

其中，表示膨胀卷积，/>表示膨胀率，/>表示激活函数，/>表示跳跃连接；

S501、构造三个残差块，每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成，三个残差块中的双层膨胀卷积率大小分别设置为{1，2}，{2，5}和{4，5}；

S502、每个残差块的输出被传递给下一个残差块作为输入，形成了一个串行的层次结构；

S600、采用两个前馈神经网络（FFNN）对S500中通过跳跃式膨胀卷积网络获得的上下文感知特征的起始和结束创建两个不同的表示，这样有助于模型分别学习区分跨度的起始和结束；跨度起始和结束的表示的计算公式表示为：

；

其中，和/>分别表示第/>个跨度的起始位置和结束位置的上下文感知特征，和/>分别表示用于构建起始表示向量和结束表示向量的前馈神经网络，/>和分别表示第/>个跨度的起始表示向量和结束表示向量；

S700、在si≤ei（si和ei分别表示第i个token的起始位置和结束位置）的约束条件下，采用双仿射分类器对所有可能构成命名实体的token进行分数计算，其中每一个跨度都有一个对应的命名实体类别，并且会创建评分张量/>，其中l表示句子长度，c表示标签类别的数量；第i个跨度的分数和每个跨度对应的命名实体类别表示为：

；

)；

其中，表示token（跨度）序号，/>是一个/>的张量，/>是一个/>的矩阵，/>表示拼接，/>是偏差，/>表示筛选最大分数；

S800、根据类别得分按降序对所有具有“非实体”以外类别的跨度进行排名，后处理约束按照对于嵌套的命名实体识别，只要实体不与排名较高的实体的边界冲突，就会选择实体；如果或/>（/>，/>表示实体i和实体j的起始位置，/>，/>表示实体i和实体j的结束位置），则将实体i表示为与另一个实体j的边界冲突，只选择类别得分较高的跨度；对于平面命名实体识别，不选择任何包含或位于排名在其之前的实体内部的实体；本命名实体识别方法的学习目标是为每个有效跨度分配一个正确的类别（包括非实体）；作为一个多类分类问题，使用softmax交叉熵优化本方法：

；

其中，C表示实体类别数，N是数据集大小，是估计实体类别，/>表示第i个token为实体类别c的概率，/>表示token为估计实体类别/>的概率，/>表示每个token属于每个类别的实际概率，/>表示每个token属于每个类别的估计概率，loss是损失函数的值，通过降低损失函数来不断优化模型。

本发明的有益效果为：

1、本发明设计的方法通过采用深度可分离卷积网络和transformer自注意力机制分别从局部和全局两个层次捕捉字符级特征和单词级特征，有效增强文本表征的准确性；

2、通过在多层次特征融合时引入分组约束，提高模型的特征选择性能；

3、通过跳跃式膨胀卷积网络对进行上下文感知特征提取，有助于梯度的流动和信息的保留，使得整个模型能够更深入、更灵活地学习上下文特征，提高模型性能；

4、采用两个单独的前馈神经网络来为跨度的起始/结束创建不同的表示，进一步提升本发明所提方法在分类时的准确性。

附图说明

图1是本发明的技术流程图。

图2是本发明的总体模型图（S100-S800所提模块的组合）。

图3是跳跃式膨胀卷积网络模块图。

实施方式

为使本发明的目的、技术方案和优势更加清楚明白，下面结合实施方式和附图，对本发明进一步详细说明。在此，本发明的示意性实施方式以及其说明用于解释本发明，但并不作为本发明的限定。

如图1和图2所示，一种融合上下文信息和多层次特征的金融实体识别方法的技术流程图和总体模型图，该方法包括以下步骤：

；

其中，和/>分别表示字符级嵌入和单词级嵌入，/>和/>分别表示字符级局部特征和单词级局部特征，/>表示深度可分离卷积，/>表示最大池化运算；

；

S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络（G-IDCNN）进行全局上下文感知特征提取，跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现；膨胀率分别设置为{1，2，5}，卷积核大小设置为3；一个连续的序列表示为：，其中，L表示序列长度；则第i个跨度在跳跃式膨胀卷积网络中表示为：

；

S501、构造三个残差块，每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成，三个残差块中的双层膨胀卷积率大小分别设置为{1，2}、{2，5}和{4，5}；

S600、采用两个前馈神经网络（FFNN）对S500中通过跳跃式膨胀卷积网络获得的感知上下文特征的起始和结束创建两个不同的表示，这样有助于模型分别学习区分跨度的起始和结束；跨度起始和结束的表示的计算公式表示为：

；

)；

其中，表示token序号，/>是一个/>的张量，/>是一个/>的矩阵，/>表示拼接，/>是偏差，/>表示筛选最大分数；

；

最后所应说明的是：以上实施例仅用以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应该理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种融合上下文感知和多层次特征的金融实体识别方法，其特征在于，所述方法包括以下步骤：

S200、对于给定的输入单词序列，通过同时采用单词级嵌入和字符级嵌入表示句子中的每个token（跨度）；单词序列中第t个单词的单词级嵌入/>表示为：，每个字符在第i个单词中的字符级嵌入/>表示为：/>；其中，/>表示第t个单词，/>表示预训练的词嵌入查找表，/>表示字符嵌入查找，是一个随机初始化的值；

；

S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络（G-IDCNN）进行全局上下文感知特征提取，跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现；膨胀率分别设置为{1，2，5}，卷积核大小设置为3；一个连续的序列表示为：，其中，L表示序列长度；则第i个token在跳跃式膨胀卷积网络中表示为：

；

S600、采用两个前馈神经网络（FFNN）对S500中通过跳跃式膨胀卷积网络获得的上下文感知特征的起始和结束创建两个不同的表示，这样有助于模型分别学习区分token的起始和结束；token起始和结束的表示的计算公式表示为：

；

其中，和/>分别表示第/>个token的起始位置和结束位置的上下文感知特征，/>和/>分别表示用于构建起始表示向量和结束表示向量的前馈神经网络，/>和/>分别表示第/>个token的起始表示向量和结束表示向量；

S700、在si≤ei（si和ei分别表示第i个token的起始位置和结束位置）的约束条件下，采用双仿射分类器对所有可能构成命名实体的token进行分数计算，其中每一个token都有一个对应的命名实体类别，并且会创建评分张量/>，其中l表示句子长度，c表示标签类别的数量；第i个token的分数和每个token对应的命名实体类别表示为：

；

)；

S800、根据类别得分按降序对所有具有“非实体”以外类别的token进行排名，后处理约束按照对于嵌套的命名实体识别，只要实体不与排名较高的实体的边界冲突，就会选择实体；如果或/>（/>，/>表示实体i和实体j的起始位置，/>，/>表示实体i和实体j的结束位置），则将实体i表示为与另一个实体j的边界冲突，只选择类别得分较高的token；对于平面命名实体识别，不选择任何包含或位于排名在其之前的实体内部的实体；本命名实体识别方法的学习目标是为每个有效token分配一个正确的类别（包括非实体）；作为一个多类分类问题，使用softmax交叉熵优化本方法：

；

2.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法，其特征在于：其中，所述S100中对数据集的预处理和标注具体包含以下步骤：

S102、对数据进行标注，每行一共两列，分别由一个字符和一个标签组成，其中标签label为采用BIOES标记法对词进行标记的符号，BIOES标记法中，B表示这个词处于一个实体的起始位置（Begin）,I表示实体内部位置（Inside）,O表示实体之外的位置（Outside），E表示这个词处于一个实体的结尾位置（End）,S表示一个单独的字词本身就是一个实体（Single）。

3.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法，其特征在于：其中，所述S300中提取字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征具体包含以下步骤：

S301、采用深度可分离卷积网络提取字符级嵌入和单词级嵌入的局部特征，再采用最大池化层突出重点特征，字符级局部特征和单词级局部特征表示为：

；

其中，和/>分别表示字符级嵌入和单词级嵌入，/>和/>分别表示字符级全局特征和单词级全局特征，/>表示transformer编码器中的全局自注意力机制。

4.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法，其特征在于：其中，所述S500中通过跳跃式膨胀卷积网络提取全局上下文特征信息具体包含以下步骤：

S502、每个残差块的输出被传递给下一个残差块作为输入，形成了一个串行的层次结构。