CN115935998A

CN115935998A - 多特征金融领域命名实体识别方法

Info

Publication number: CN115935998A
Application number: CN202211679883.4A
Authority: CN
Inventors: 张晗; 姬莉霞; 王新宇
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-07

Abstract

本发明针对中文金融领域中一些长度较长，难以划定边界和表达形式多样的命名实体，提出了一种多特征金融领域命名实体识别方法。首先，该方法将实体边界划分和实体分类作为两个独立任务，引入基于门控的多通道注意机制，在预训练语言模型的基础上划分金融实体边界，学习增强的汉字特征。然后，将边界划分结果以MASK的形式输入到预训练语言模型中，以进行数据增强。随后，引入了基于文档级实体的增强特征来构建金融实体分类模型。通过实验从几个最先进的模型中确定了表现最好的中文预训练语言模型，然后将其嵌入到本发明的方法中，并与其他基准模型进行比较。实验结果表明，所提模型在金融领域的命名实体识别任务上优于其他基准模型。

Description

多特征金融领域命名实体识别方法

技术领域

本发明涉及命名实体识别技术领域，具体涉及一种多特征金融领域命名实体识别方法。

背景技术

命名实体识别(NER)是信息提取的一个重要任务，旨在将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式、数量、货币值、百分比等，而关于不同领域的文本又有不同的特点，在金融领域的文本中除了人名、位置、时间的识别以外,还包含属于专业领域的金融实体，如公司名、公司名简称、产品名称、项目名称、金融领域专业名词等。总的来说，金融领域中文NER的新挑战主要集中在以下两点：1)金融实体的表达形式多样，例如，对于同一个机构的表达方式多样,从全称中抽取个别字组成新的不同简称，甚至有一些网络昵称。2)实体的领域特征较强，如产品类型实体“对冲基金”、“白骑士”等，且金融文本中经常出现中文、英文和数字混合组成的实体名，造成分词工具难以准确分词。

现有的NER方法主要包括：基于规则和字典的方法、基于传统机器学习的方法、基于深度学习的方法。基于规则和字典的方法依赖于人工制定的规则，当字典大小有限时，基于规则的NER系统可以达到很好的效果。由于特定领域的规则以及不完全的字典，这种NER系统的特点是高精确率与低召回率，并且类似的系统难以迁移应用到别的领域中去，对新的领域而言，需要重新制定规则且不同领域字典不同，不仅需要消耗巨大的人力劳动，且不容易在其他实体类型或数据集扩展。基于机器学习的方法对语料库的依赖也比较大，而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。基于深度学习的方法容易受到训练模型过大的影响，从而导致效率降低。

发明内容

本发明提供一种多特征金融领域命名实体识别方法，以解决现有的命名实体识别方法针对金融领域的文本识别效率低、准确性差的技术问题。

为解决上述技术问题，本发明采用如下技术方案：

设计一种多特征金融领域命名实体识别方法，包括：

该方法由两部分构成，第一部分是金融实体边界划分模型，第二部分是金融实体分类模型。这里之所以要把命名实体识别任务划分成两个子任务，主要原因在于，1)金融实体中部分实体较长，例如公司名称等，采用单独的边界划分模型有助于对长实体的边界进行划分；2)对于中文来说，以单词为单位进行MASk比以单个字符作为MAsk单位所学习到的特征表示更好。另外为了更好的解决金融实体多样性表示的问题，本发明在实体分类模型中加入了单词在文档层面的特征表示，同样为了减少计算复杂度，本发明没有采取对文档所有单词特征进行学习的方法，而是通过预处理，仅选择了与当前单词所在句子关联度比较高的若干句子进行了学习。

具体如下：假设有文档D＝{s₁,s₂,...,s_n},其中，s_i＝{c₁,c₂,...,c_m}表示文档中的第i个句子，c_j表示组成句子s_i的字符，本发明提出的方法需要首先预测出句子s_i中的实体E＝{e₁,e₂,...,e_l}，

E＝f(s_i,GATE(MA(S))) (1)

接着把句子sⁱ以单个实体作为mask单位再次交给预训练语言模型-CRF预测标签序列

其中，MA()表示多通道注意力模块，S表示的是s_i在字典中出现的n-gram集合，GATE()表示门控机制，GA()表示获取实体在文档中的全局特征，有关细节会在下面进行详细介绍。

(1)金融实体边界划分模型

本发明提出一种可以适应于金融领域的实体边界划分模型，该模型引入了门控机制，可以灵活调整进入多通道注意力模块的样本。

将s_i作为Bert模型的输入序列，假设当前字符c_j通过Bert模型学习到的特征表示为h_j，将其传递给CRF模型，计算出关于c_j的联合标签的条件分布概率p(c_j|1,2,...,c_j-1)，通过一个规范化熵expectation即判断c_j的输出是否符合预期，计算公式如下：

这里，N表示所有序列标签的个数。

定义1：door_threshhold:是否需要将字符c_j交给多通道注意力模型的阈值。

如果expectaion(c_j)＞door_threshold,，则CRF模型得出的结果即是预期结果，否则将c_j通过Bert得到的特征表示h_j交给多通道注意力机制。对于一些复杂的金融实体来说，其长度要远远超出6，而有些实体又相对较短，因此本发明对匹配方式进行了改进，首先以目标字符c_j为单位在字典Ν中通过n-gram匹配得到词语组集合{phrases¹,phrases²,...,phrasesⁿ}，并不是每一个词语组phrases^l都包含了词语，因此，本发明将n设置成词典中词语的最大长度，对于空词语组phrases^l所对应的注意力通道，本发明采取Mask的方式将其掩盖住不参与计算。则，多通道注意力机制可简化为：

这里，为每个非空词语组phrases^k所包含的词语，是词语的特征表示。d表示词语组phrases^k中所包含的词语个数。

然后得到关于字符c_j的新的特征表示

W表示训练权重。之后，就将得到的新的特征表示交给CRF模型来预测标签。

(2)金融实体分类模型

接下来，将分词结果作为预训练语言模型的输入，这里的预训练语言模型指的是以transformer为基础的各种预训练语言模型，如，BERT,ERNIE等。此时，原来的句子s_i由实体和一般单词{w₁,w₂,...,w_s}组成(下文统一简称为单词)。同时，为了更好的解决金融领域实体表达的多样性问题，仅仅使用当前句子的上下文还是不够的，可能需要从整个文档的层面来考虑当前单词的全局特征，鉴于BiLSTM和attention在学习长本文表示时的优越性能,本发明将s_i以单词为Mask为单位输入进预训练语言模型的同时，也把s_i所在的文档D以单词为单位作为BiLSTM层的输入，并通过attention层来计算当前单词w_j和文档中其他单词的相关性，以计算出w_j的全局特征表示

但是，如果此时将文档D中所有的单词都参与计算，无疑会引入更多的噪声并且可能导致重要特征的丢失，因此，本发明对文本进行了预处理，仅保留对文档中与当前句子s_i更加相关的句子参与计算。为了减少对训练数据的依赖，这里本发明选择采用无监督方法来自动提取文档中与s_i相关的句子。TextRank是一种经常用来无监督提取文档中关键句子的方法，将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边，计算句子s_i在文本中权重的公式如下：

这里d表示阻尼系数，In()和Out()表示的是指向该句子的句子集合以及从该句子出发达到别的句子的集合，w_j ⁱ表示的是句子s_i和s_j的相似权重。

因为这里本发明的目的是为了寻找文本中与当前句子s_i相关性比较密切的句子而不是提取摘要，因此本发明在该方法的基础上做了改进，首先采用皮尔森相关系数来代替原来方法中的相似性，如果两个句子之间有相关性，那么认为两个句子对应的节点之间有一条边，边上权重为两个句子的皮尔森系数值，关于句子s_i的相关图构造完成之后，来计算图中句子s_j与当前句子s_i的相关分数score(s_j).

表示句子s_i的特征表示，cov()表示协方差，σ()表示标准差。对图中句子按照分数进行排序，选取其中的top k个句子作为s_i密切相关的句子，构成集合S＝{s₁,s₂,...,s_i,...,s_k+1},将这些句子以单词为单位即{w₁,w₂,...,w_N}作为BiLSTM的输入。设当前单词为句子s_i中的单词w_j，则可得到关于w_j的特征表示h'_j：

h'_j＝BiLSTM(S) (12)

将其作为Attention层的输入，这里Attention层主要用来计算当前单词w_j与集合S中其他单词w_d(d＝1,2,...,j-1,j+1,...,N)的相关性，该Attention权重值b_jd可表示为：

f(w_j,w_d)＝(h'_j)^TW_ah'_d (14)

此时,可以得出单词w_j基于文档层面的一个全局特征表示

单词w_j由Attention层得到的输出可表示为：

将该特征与w_j通过预训练语言模型得到的特征表示组合在一起，得到关于单词w_j的新的特征表示

将传递给上层的CRF作为输入，输出最后的分类结果。

与现有技术相比，本发明的有益技术效果在于：

1.本文提出了一种基于预训练语言模型的多特征金融领域命名实体识别方法，该方法针对金融领域命名实体识别任务中的现存问题，将划分金融实体边界作为一个独立任务，引入领域专家知识来学习字符的领域增强特征表示，再将输出结果做为Mask单位再次输入预训练语言模型，并引入了文档层面的全局特征共同作为金融领域命名实体识别任务的特征表示。实验证明，该方法与其他的基准模型相比具有更好的性能。

2.本文提出了一种可以适应于金融领域实体边界划分模型.该模型引入了门控机制，灵活调整进入多通道注意力模块的样本并对多通道注意力模块进行了简化改进，使其可以灵活适应于不同情况，避免了冗余计算，提高了模型的效率。

3.提出了一种针对长文本的文本层面单词全局特征提取方法，解决由于文本长度过长导致的特征丢失及噪声引入问题。

附图说明

图1为本发明中的识别模型示意图。

图2为本发明中N-gram匹配示意图。

图3为本发明的流程示意图。

具体实施方式

下面结合附图和实施例来说明本发明的具体实施方式，但以下实施例只是用来详细说明本发明，并不以任何方式限制本发明的范围。

实施例1：一种多特征金融领域命名实体识别方法，参见图1至图3，其中，使用的数据集分为两部分，第一部分主要用于比较本文所提分词模型在数据集上的运行时间和运行效果，这里用到的数据集采用的是公共数据集CTB8.0，称为数据集一。第二部分主要用于比较本发明中的模型与其他基准模型在金融领域命名实体识别任务上的性能，该部分数据集主要来自于金融领域，包括来自于各财经网站的新闻、公司发布财报、社交媒体上的财经短消息以及金融类文章摘要，从中摘取7521条句子(其中连续段落包括50篇摘要，30篇财经新闻，40段财经短消息以及40篇公司财报)，人工标注了6种实体类型，分别为：person_name(人名，5141个)，product_name(产品名称，7222个)，company_name(公司名，5475个)，location(位置，6597个)，org_name(组织名称，5689个)，time(时间，4250个)，称为数据集二。

将数据集中的一条文本s_i作为BERT模型的输入序列，文本s_i中含有多个字符c_j，在本实施例中s_i为“中国外汇交易中心成立”，最终需要识别出“中国外汇交易中心”这个组织名。假设当前字符c_j通过Bert模型学习到的特征表示为h_j，将其传递给CRF模型，计算出关于c_j的联合标签的条件分布概率p(c_j|1,2,...,c_j-1)，通过一个规范化熵expectation即判断c_j的输出是否符合预期，计算公式如下：

其中，N表示所有序列标签的个数。

定义door_thresh:是否需要将字符c_j交给多通道注意力模型的阈值。如果expectaion(c_j)＞door_threshold,，则CRF模型得出的结果即是预期结果，否则将c_j通过Bert得到的特征表示h_j交给多通道注意力机制N-grams。本发明对现有的多通道注意力机制进行了简化，现有的多通道注意力机制对句子中所包含的所有字符在字典Ν中进行n-gram匹配，然后把所有匹配到的词语按照n进行分组，再交给对应的attention通道，计算权重，即

表示的是句子s_i中每一个字符在字典Ν中通过n-gram匹配到的词语组{phrases¹,phrases²,...,phrasesⁿ}中每个词语组phrases^k所包含的词语的特征表示，用于表示当前字符c_j是否是词语的一部分，如果是，否则，这也就意味着，如果不是由c_j组成的短语，那么在学习c_j上下文特征表示时是发挥不了作用的，而且当句子比较长时，这种匹配方式会耗费大量的时间在字符匹配上，并且匹配出的词语可能并不能发挥什么用处，此外，现有的注意力机制把n固定为定值，但是事实上，对于一些复杂的金融实体来说，其长度要远远超出设定值，而有些实体又相对较短，因此本发明对匹配方式进行了改进，首先以目标字符c_j为单位在字典Ν中通过n-gram匹配得到词语组集合{phrases¹,phrases²,...,phrasesⁿ}，如图2所示，并不是每一个词语组phrases^l都包含了词语，因此，本发明将n设置成词典中词语的最大长度，对于空词语组phrases^l所对应的注意力通道，采取Mask的方式将其掩盖住不参与计算。则，多通道注意力机制可简化为：

然后得到关于字符cj的新的特征表示

W表示训练权重，之后，就将得到的新的特征表示交给CRF模型来预测标签。

接下来，将分词结果作为预训练语言模型的输入，此时，原来的句子s_i由实体和一般单词{w₁,w₂,...,w_s}组成。同时，为了更好的解决金融领域实体表达的多样性问题，仅仅使用当前句子的上下文还是不够的，需要从整个文档的层面来考虑当前单词的全局特征，因此本发明将s_i以单词为单位输入进预训练语言模型的同时，也把s_i所在的文档D以单词为单位作为BiLSTM层的输入，并通过attention层来计算当前单词w_j和文档中其他单词的相关性，以计算出w_j的全局特征表示

但是，如果此时将文档D中所有的单词都参与计算，无疑会引入更多的噪声并且可能导致重要特征的丢失，因此，本发明对文本进行了预处理，仅保留对文档中与当前句子s_i更加相关的句子参与计算。为了减少对训练数据的依赖，这里选择采用无监督方法来自动提取文档中与s_i相关的句子s_j。TextRank是一种经常用来无监督提取文档中关键句子的方法，将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边，计算句子s_i在文本中权重的公式如下：

这里d表示阻尼系数，In()和Out()表示的是指向该句子的句子集合以及从该句子出发达到别的句子的集合，w_ji表示的是句子s_i和s_j的相似权重。

因为这里的目的是为了寻找文本中与当前句子s_i相关性比较密切的句子而不是提取摘要，因此在上述方法的基础上做了改进，首先采用皮尔森相关系数来代替原来方法中的相似性，如果两个句子之间有相关性，那么认为两个句子对应的节点之间有一条边，边上权重为两个句子的皮尔森系数值，关于句子s_i的相关图构造完成之后，来计算图中句子s_j与当前句子s_i的相关分数score(s_j).

v_si表示句子s_i的特征表示，cov()表示协方差，σ()表示标准差。对图中句子按照分数进行排序，选取其中的top k个句子作为s_i密切相关的句子，构成集合S＝{s₁,s₂,...,s_i,...,s_k+1},将这些句子以单词为单位即{w₁,w₂,...,w_N}作为BiLSTM的输入。设当前单词为句子s_i中的单词w_j，则可得到关于w_j的特征表示h'_j：

h'_j＝BiLSTM(S) (10)

将其作为BiLSTM模型中的Attention层的输入，这里Attention层主要用来计算当前单词w_j与集合S中其他单词w_d(d＝1,2,...,j-1,j+1,...,N)的相关性，该Attention权重值b_jd可表示为：

f(w_j,w_d)＝(h'_j)^TW_ah'_d (12)

此时,可以得出单词w_j基于文档层面的一个全局特征表示

单词w_j由Attention层得到的输出可表示为：

将传递给上层的CRF作为输入，输出最后的分类结果。此时，以模型图为例，输出的是“中国外汇交易中心”，“成立”两个词语，最终识别出来“中国外汇交易中心”这个实体，为组织名。而“成立”不是实体，不需要识别。

上述命名实体识别的方法，第一部分是金融实体边界划分模型，第二部分是金融实体分类模型。提出了一个在Bert模型的基础上加入了n-gram多通道注意力增强的神经网络模型用于汉语分词任务。但是事实上，对于普通情况下的汉语分词，Bert的准确率可以达到96％左右，这也就是意味着并不是所有的词语都需要通过多通道注意力增强模块。因此，本发明提出一种可以适应于金融领域的实体边界划分模型.该模型引入了门控机制，可以灵活调整进入多通道注意力模块的样本。接下来，将分词结果作为预训练语言模型的输入，此时，原来的句子s_i由实体和一般单词{w₁,w₂,...,w_s}组成(下文统一简称为单词)。同时，为了更好的解决金融领域实体表达的多样性问题，仅仅使用当前句子的上下文还是不够的，可能需要从整个文档的层面来考虑当前单词的全局特征，鉴于BiLSTM和attention在学习长本文表示时的优越性能,本发明将s_i以单词为Mask为单位输入进预训练语言模型的同时，也把s_i所在的文档D以单词为单位作为BiLSTM层的输入，并通过attention层来计算当前单词w_j和文档中其他单词的相关性，以计算出w_j的全局特征表示将该特征与w_j通过预训练语言模型得到的特征表示组合在一起，得到关于单词w_j的新的特征表示最后将传递给上层的CRF作为输入，输出最后的分类结果。这样做不仅更适应于金融领域，同时也提高了模型效率。

上面结合附图和实施例对本发明作了详细的说明，但是，所属技术领域的技术人员能够理解，在不脱离本发明宗旨的前提下，还可以对上述实施例中的各个具体参数进行变更，形成多个具体的实施例，均为本发明的常见变化范围，在此不再一一详述。

Claims

1.一种多特征金融领域命名实体识别方法，其特征在于，该方法由两部分构成，第一部分是金融实体边界划分模型，第二部分是金融实体分类模型：

(1)金融实体边界划分模型：该模型引入门控机制，可以灵活调整进入多通道注意力模块的样本；将s_i作为Bert模型的输入序列，假设当前字符c_j通过Bert模型学习到的特征表示为h_j，将其传递给CRF模型，计算出关于c_j的联合标签的条件分布概率p(c_j|1,2,...,c_j-1)，通过一个规范化熵exp ectation即判断c_j的输出是否符合预期，计算公式如下：

这里，N表示所有序列标签的个数；

(2)金融实体分类模型：将分词结果作为预训练语言模型的输入，此时，原来的句子s_i由实体和一般单词{w₁,w₂,...,w_s}组成，同时，为了更好的解决金融领域实体表达的多样性问题，将s_i以单词Mask为单位输入进预训练语言模型的同时，也把s_i所在的文档D以单词为单位作为BiLSTM层的输入，并通过attention层来计算当前单词w_j和文档中其他单词的相关性，以计算出w_j的全局特征表示

2.根据权利要求1所述的多特征金融领域命名实体识别方法，其特征在于，所述金融实体边界划分模型的多通道注意力机制如下：

定义1door_threshhold为是否需要将字符c_j交给多通道注意力模型的阈值，如果expectaion(c_j)＞door_threshold则CRF模型得出的结果即是预期结果，否则将c_j通过Bert得到的特征表示h_j交给多通道注意力机制；

对于一些复杂的金融实体来说，首先以目标字符c_j为单位在字典Ν中通过n-gram匹配得到词语组集合{phrases¹,phrases²,...,phrasesⁿ}，将n设置成词典中词语的最大长度，对于空词语组phrases^l所对应的注意力通道，采取Mask的方式将其掩盖住不参与计算，则多通道注意力机制可简化为：

这里，为每个非空词语组phrases^k所包含的词语，是词语的特征表示，d表示词语组phrases^k中所包含的词语个数，然后得到关于字符c_j的新的特征表示

3.根据权利要求1所述的多特征金融领域命名实体识别方法，其特征在于，所述金融实体分类模型中首先对文本进行了预处理，仅保留对文档中与当前句子s_i更加相关的句子参与计算，然后引入BiLSTM层和attention层，将s_i以单词为单位输入BERT模型的同时，也把s_i所在的文档D以单词为单位作为BiLSTM层的输入，并通过attention层来计算当前单词w_j和文档中其他单词的相关性，以计算出w_j的全局特征表示

4.根据权利要求3所述的多特征金融领域命名实体识别方法，其特征在于，文本预处理采用无监督方法来自动提取文档中与s_i相关的句子，利用TextRank是将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边，计算句子s_i在文本中权重的公式如下：

这里d表示阻尼系数，In()和Out()表示的是指向该句子的句子集合以及从该句子出发达到别的句子的集合，w_ji表示的是句子s_i和s_j的相似权重，

之后，先采用皮尔森相关系数来代替原来方法中的相似性，如果两个句子之间有相关性，那么认为两个句子对应的节点之间有一条边，边上权重为两个句子的皮尔森系数值，关于句子s_i的相关图构造完成之后，来计算图中句子s_j与当前句子s_i的相关分数score(s_j)，

表示句子s_i的特征表示，cov()表示协方差，σ()表示标准差，对相关图中句子按照分数进行排序，选取其中的top k个句子作为s_i密切相关的句子，构成集合S＝{s₁,s₂,...,s_i,...,s_k+1},将这些句子以单词为单位即{w₁,w₂,...,w_N}作为BiLSTM的输入，设当前单词为句子s_i中的单词w_j，则可得到关于w_j的特征表示h'_j：

h'_j＝BiLSTM(S)。

5.根据权利要求4所述的多特征金融领域命名实体识别方法，其特征在于，金融实体分类模型中的所得到的特征h'_j作为Attention层的输入，利用Attention层来计算当前单词w_j与集合S中其他单词w_d(d＝1,2,...,j-1,j+1,...,N)的相关性，该Attention权重值b_jd可表示为：

f(w_j,w_d)＝(h'_j)^TW_ah'_d

此时,可以得出单词w_j基于文档层面的一个全局特征表示

单词w_j由Attention层得到的输出可表示为：

将传递给上层的CRF作为输入，输出最后的分类结果。