CN117436452A - 融合上下文感知和多层次特征的金融实体识别方法 - Google Patents
融合上下文感知和多层次特征的金融实体识别方法 Download PDFInfo
- Publication number
- CN117436452A CN117436452A CN202311727232.2A CN202311727232A CN117436452A CN 117436452 A CN117436452 A CN 117436452A CN 202311727232 A CN202311727232 A CN 202311727232A CN 117436452 A CN117436452 A CN 117436452A
- Authority
- CN
- China
- Prior art keywords
- level
- word
- entity
- character
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000004321 preservation Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合上下文感知和多层次特征的金融实体识别方法,属于自然语言处理领域;它解决了现有实体识别模型忽略全局上下文信息和未融合多层次特征的问题。其技术方案是:采用字符级嵌入和基于金融语料的预训练词向量作为文本表示,对两种文本表示进行局部和全局特征提取并融合多层次特征,采用跳跃式空洞卷积网络提取全局上下文特征,通过双仿射分类器进行实体分类。本发明具有以下有益效果:从局部和全局两个层次去捕捉字符级和单词级特征,增强文本表征的准确性;在多层次特征融合时引入分组约束,提高模型的特征选择能力;跳跃式膨胀卷积网络有助于梯度的流动和信息的保留,使模型能够更深入、灵活地学习上下文信息。
Description
技术领域
本发明涉及一种融合上下文感知和多层次特征的金融实体识别方法,属于自然语言处理领域。
背景技术
命名实体识别作为信息抽取的一个子任务,在自然语言处理领域发挥着十分重要的作用。一系列下游自然语言处理任务例如实体链接、关系抽取、事件抽取等都是基于命名实体识别的。准确识别出非结构化文本中与特定语义实体类型相关的文本跨度及其正确实体类别如人、地点、组织等是命名实体识别任务的最终目标。目前的实体识别方法主要分为:基于规则的方法,如LaSIE-II、NetOwl、Facile、SAR;基于统计机器学习的方法,如隐马尔可夫模型(HMM)、最大熵(ME)、条件随机场(CRF)、支持向量机(SVM)等。随着深度学习技术的快速发展,基于深度学习的命名实体识别方法逐渐占据主导地位并持续取得了性能提升。
基于规则的实体识别方法仅仅依赖于手工制作的规则和特定领域的字典来识别命名实体。由于字典无法做到详尽无遗和不同领域的规则不同,导致识别结果具有较高的精确率和较低的召回率,并且该方法不能转移到其他领域。基于统计的方法将实体识别任务转换为序列标记任务。给定带注释的语料库,精心设计命名实体的特征来表示每个字符,通过在这些语料库上训练基于统计的机器学习模型,文本中的每个字符都被序列化,并由训练的模型自动标记。然后可以根据标签方案对自动标记的序列进行解码,并将文本中由几个字符组成的命名实体集成在一起。基于统计的机器学习模型通过对示例输入及其预期输出进行训练而不是人工创建的规则来学习和预测。基于深度学习的实体识别方法可分为三大类,分别是通过利用单词级嵌入、字符级嵌入或融合两种嵌入来学习隐含特征的神经网络模型。基于深度学习的实体识别模型能够通过非线性激活函数从数据中学习复杂的特征并且节省设计命名实体识别特征的大量精力。然而,这些方法在很大程度上忽略或过于简化了不同层次特征(如单词级和字符级特征)之间的相关性。除此之外,也很少有方法去融合多层次特征和关注全局与局部上下文之间的联系,导致丢失大量特征信息。
发明内容
本发明目的是:为了解决现有的金融命名实体识别模型只关注局部上下文信息而忽略全局上下文信息和未融合多层次特征的问题,同时使得整个模型具有更好的泛化性和可迁移性。
为实现上述目的,本发明设计出一种融合上下文感知和多层次特征的金融实体识别方法。该方法包括以下步骤:
S100、通过爬虫获取金融新闻文本数据构建用于训练深度学习模型的数据集;将用于训练深度学习模型的数据集进行预处理和标注;
S101、对数据集进行清洗和去停用词处理;将数据集随机按照8:1:1的比例划分为训练集、测试集和验证集;
S102、对数据进行标注,每行一共两列,分别由一个字符和一个标签组成,其中标签label为采用BIOES标记法对词进行标记的符号,BIOES标记法中,B表示这个词处于一个实体的起始位置(Begin),I表示实体内部位置(Inside),O表示实体之外的位置(Outside),E表示这个词处于一个实体的结尾位置(End),S表示一个单独的字词本身就是一个实体(Single);
S200、对于给定的输入单词序列,通过同时采用单词级嵌入和字符级嵌入表示句子中的每个跨度;单词序列中第t个单词的单词级嵌入/>表示为:,每个字符在第i个单词中的字符级嵌入/>表示为:/>;其中,/>表示第t个单词,/>表示预训练的词嵌入查找表,/>表示字符嵌入查找,是一个随机初始化的值;
S300、为实现多层次特征提取,对字符级嵌入和单词级嵌入分别进行局部和全局特征选择,采用深度可分离卷积网络和transformer的全局自注意力机制获得字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征;
S301、采用深度可分离卷积提取字符级嵌入和单词级嵌入的局部特征,再采用最大池化层突出重点特征,字符级局部特征和单词级局部特征表示为:
;
;
其中,和/>分别表示字符级局部特征和单词级局部特征,/>表示深度可分离卷积,/>表示最大池化运算;
S302、采用transformer中的全局自注意力机制提取字符级嵌入和单词级嵌入的全局特征,字符级全局特征和单词级全局特征表示为:
;
;
其中,和/>分别表示字符级嵌入和单词级嵌入,/>和/>分别表示字符级全局特征和单词级全局特征,/>表示transformer编码器中的全局自注意力机制;
S400、对获取到的多层次特征信息通过级联和微调策略进行融合;融合时引入对模型参数的分组约束,分为局部特征和全局特征两组,每组特征内部可共享相似权重,促使模型在学习过程中对一些参数进行稀疏化,提高模型特征选择性能;多层次特征融合结果表示为:
;
;
其中,,/>,/>,/>别表示S400中提及的字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征,/>控制每项特征的重要性,是随机初始化的值,/>和/>是强度系数,用于控制每个组的稀疏性;
S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络(G-IDCNN)进行全局上下文感知特征提取,跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现,跳跃式膨胀卷积网络模型图如图3所示;膨胀率分别设置为{1,2,5},卷积核大小设置为3;一个连续的序列表示为:,其中,L表示序列长度;则第i个跨度在跳跃式膨胀卷积网络中表示为:
;
其中,表示膨胀卷积,/>表示膨胀率,/>表示激活函数,/>表示跳跃连接;
S501、构造三个残差块,每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成,三个残差块中的双层膨胀卷积率大小分别设置为{1,2},{2,5}和{4,5};
S502、每个残差块的输出被传递给下一个残差块作为输入,形成了一个串行的层次结构;
S600、采用两个前馈神经网络(FFNN)对S500中通过跳跃式膨胀卷积网络获得的上下文感知特征的起始和结束创建两个不同的表示,这样有助于模型分别学习区分跨度的起始和结束;跨度起始和结束的表示的计算公式表示为:
;
;
其中,和/>分别表示第/>个跨度的起始位置和结束位置的上下文感知特征,和/>分别表示用于构建起始表示向量和结束表示向量的前馈神经网络,/>和分别表示第/>个跨度的起始表示向量和结束表示向量;
S700、在si≤ei(si和ei分别表示第i个token的起始位置和结束位置)的约束条件下,采用双仿射分类器对所有可能构成命名实体的token进行分数计算,其中每一个跨度都有一个对应的命名实体类别,并且会创建评分张量/>,其中l表示句子长度,c表示标签类别的数量;第i个跨度的分数和每个跨度对应的命名实体类别表示为:
;
);
其中,表示token(跨度)序号,/>是一个/>的张量,/>是一个/>的矩阵,/>表示拼接,/>是偏差,/>表示筛选最大分数;
S800、根据类别得分按降序对所有具有“非实体”以外类别的跨度进行排名,后处理约束按照对于嵌套的命名实体识别,只要实体不与排名较高的实体的边界冲突,就会选择实体;如果或/>(/>,/>表示实体i和实体j的起始位置,/>,/>表示实体i和实体j的结束位置),则将实体i表示为与另一个实体j的边界冲突,只选择类别得分较高的跨度;对于平面命名实体识别,不选择任何包含或位于排名在其之前的实体内部的实体;本命名实体识别方法的学习目标是为每个有效跨度分配一个正确的类别(包括非实体);作为一个多类分类问题,使用softmax交叉熵优化本方法:
;
;
其中,C表示实体类别数,N是数据集大小,是估计实体类别,/>表示第i个token为实体类别c的概率,/>表示token为估计实体类别/>的概率,/>表示每个token属于每个类别的实际概率,/>表示每个token属于每个类别的估计概率,loss是损失函数的值,通过降低损失函数来不断优化模型。
本发明的有益效果为:
1、本发明设计的方法通过采用深度可分离卷积网络和transformer自注意力机制分别从局部和全局两个层次捕捉字符级特征和单词级特征,有效增强文本表征的准确性;
2、通过在多层次特征融合时引入分组约束,提高模型的特征选择性能;
3、通过跳跃式膨胀卷积网络对进行上下文感知特征提取,有助于梯度的流动和信息的保留,使得整个模型能够更深入、更灵活地学习上下文特征,提高模型性能;
4、采用两个单独的前馈神经网络来为跨度的起始/结束创建不同的表示,进一步提升本发明所提方法在分类时的准确性。
附图说明
图1是本发明的技术流程图。
图2是本发明的总体模型图(S100-S800所提模块的组合)。
图3是跳跃式膨胀卷积网络模块图。
实施方式
为使本发明的目的、技术方案和优势更加清楚明白,下面结合实施方式和附图,对本发明进一步详细说明。在此,本发明的示意性实施方式以及其说明用于解释本发明,但并不作为本发明的限定。
如图1和图2所示,一种融合上下文信息和多层次特征的金融实体识别方法的技术流程图和总体模型图,该方法包括以下步骤:
S100、通过爬虫获取金融新闻文本数据构建用于训练深度学习模型的数据集;将用于训练深度学习模型的数据集进行预处理和标注;
S101、对数据集进行清洗和去停用词处理;将数据集随机按照8:1:1的比例划分为训练集、测试集和验证集;
S102、对数据进行标注,每行一共两列,分别由一个字符和一个标签组成,其中标签label为采用BIOES标记法对词进行标记的符号,BIOES标记法中,B表示这个词处于一个实体的起始位置(Begin),I表示实体内部位置(Inside),O表示实体之外的位置(Outside),E表示这个词处于一个实体的结尾位置(End),S表示一个单独的字词本身就是一个实体(Single);
S200、对于给定的输入单词序列,通过同时采用单词级嵌入和字符级嵌入表示句子中的每个跨度;单词序列中第t个单词的单词级嵌入/>表示为:,每个字符在第i个单词中的字符级嵌入/>表示为:/>;其中,/>表示第t个单词,/>表示预训练的词嵌入查找表,/>表示字符嵌入查找,是一个随机初始化的值;
S300、为实现多层次特征提取,对字符级嵌入和单词级嵌入分别进行局部和全局特征选择,采用深度可分离卷积网络和transformer的全局自注意力机制获得字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征;
S301、采用深度可分离卷积提取字符级嵌入和单词级嵌入的局部特征,再采用最大池化层突出重点特征,字符级局部特征和单词级局部特征表示为:
;
;
其中,和/>分别表示字符级嵌入和单词级嵌入,/>和/>分别表示字符级局部特征和单词级局部特征,/>表示深度可分离卷积,/>表示最大池化运算;
S302、采用transformer中的全局自注意力机制提取字符级嵌入和单词级嵌入的全局特征,字符级全局特征和单词级全局特征表示为:
;
;
其中,和/>分别表示字符级嵌入和单词级嵌入,/>和/>分别表示字符级全局特征和单词级全局特征,/>表示transformer编码器中的全局自注意力机制;
S400、对获取到的多层次特征信息通过级联和微调策略进行融合;融合时引入对模型参数的分组约束,分为局部特征和全局特征两组,每组特征内部可共享相似权重,促使模型在学习过程中对一些参数进行稀疏化,提高模型特征选择性能;多层次特征融合结果表示为:
;
;
其中,,/>,/>,/>别表示S400中提及的字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征,/>控制每项特征的重要性,是随机初始化的值,/>和/>是强度系数,用于控制每个组的稀疏性;
S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络(G-IDCNN)进行全局上下文感知特征提取,跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现;膨胀率分别设置为{1,2,5},卷积核大小设置为3;一个连续的序列表示为:,其中,L表示序列长度;则第i个跨度在跳跃式膨胀卷积网络中表示为:
;
其中,表示膨胀卷积,/>表示膨胀率,/>表示激活函数,/>表示跳跃连接;
S501、构造三个残差块,每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成,三个残差块中的双层膨胀卷积率大小分别设置为{1,2}、{2,5}和{4,5};
S502、每个残差块的输出被传递给下一个残差块作为输入,形成了一个串行的层次结构;
S600、采用两个前馈神经网络(FFNN)对S500中通过跳跃式膨胀卷积网络获得的感知上下文特征的起始和结束创建两个不同的表示,这样有助于模型分别学习区分跨度的起始和结束;跨度起始和结束的表示的计算公式表示为:
;
;
其中,和/>分别表示第/>个跨度的起始位置和结束位置的上下文感知特征,和/>分别表示用于构建起始表示向量和结束表示向量的前馈神经网络,/>和分别表示第/>个跨度的起始表示向量和结束表示向量;
S700、在si≤ei(si和ei分别表示第i个token的起始位置和结束位置)的约束条件下,采用双仿射分类器对所有可能构成命名实体的token进行分数计算,其中每一个跨度都有一个对应的命名实体类别,并且会创建评分张量/>,其中l表示句子长度,c表示标签类别的数量;第i个跨度的分数和每个跨度对应的命名实体类别表示为:
;
);
其中,表示token序号,/>是一个/>的张量,/>是一个/>的矩阵,/>表示拼接,/>是偏差,/>表示筛选最大分数;
S800、根据类别得分按降序对所有具有“非实体”以外类别的跨度进行排名,后处理约束按照对于嵌套的命名实体识别,只要实体不与排名较高的实体的边界冲突,就会选择实体;如果或/>(/>,/>表示实体i和实体j的起始位置,/>,/>表示实体i和实体j的结束位置),则将实体i表示为与另一个实体j的边界冲突,只选择类别得分较高的跨度;对于平面命名实体识别,不选择任何包含或位于排名在其之前的实体内部的实体;本命名实体识别方法的学习目标是为每个有效跨度分配一个正确的类别(包括非实体);作为一个多类分类问题,使用softmax交叉熵优化本方法:
;
;
其中,C表示实体类别数,N是数据集大小,是估计实体类别,/>表示第i个token为实体类别c的概率,/>表示token为估计实体类别/>的概率,/>表示每个token属于每个类别的实际概率,/>表示每个token属于每个类别的估计概率,loss是损失函数的值,通过降低损失函数来不断优化模型。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应该理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于,所述方法包括以下步骤:
S100、通过爬虫获取金融新闻文本数据构建用于训练深度学习模型的数据集;将用于训练深度学习模型的数据集进行预处理和标注;
S200、对于给定的输入单词序列,通过同时采用单词级嵌入和字符级嵌入表示句子中的每个token(跨度);单词序列中第t个单词的单词级嵌入/>表示为:,每个字符在第i个单词中的字符级嵌入/>表示为:/>;其中,/>表示第t个单词,/>表示预训练的词嵌入查找表,/>表示字符嵌入查找,是一个随机初始化的值;
S300、为实现多层次特征提取,对字符级嵌入和单词级嵌入分别进行局部和全局特征选择,采用深度可分离卷积网络和transformer的全局自注意力机制获得字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征;
S400、对获取到的多层次特征信息通过级联和微调策略进行融合;融合时引入对模型参数的分组约束,分为局部特征和全局特征两组,每组特征内部可共享相似权重,促使模型在学习过程中对一些参数进行稀疏化,提高模型特征选择性能;多层次特征融合结果表示为:
;
;
其中,,/>,/>,/>别表示S400中提及的字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征,/>控制每项特征的重要性,是随机初始化的值,/>和/>是强度系数,用于控制每个组的稀疏性;
S500、将S400中的融合后的多层次特征通过跳跃式膨胀卷积网络(G-IDCNN)进行全局上下文感知特征提取,跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现;膨胀率分别设置为{1,2,5},卷积核大小设置为3;一个连续的序列表示为:,其中,L表示序列长度;则第i个token在跳跃式膨胀卷积网络中表示为:
;
其中,表示膨胀卷积,/>表示膨胀率,/>表示激活函数,/>表示跳跃连接;
S600、采用两个前馈神经网络(FFNN)对S500中通过跳跃式膨胀卷积网络获得的上下文感知特征的起始和结束创建两个不同的表示,这样有助于模型分别学习区分token的起始和结束;token起始和结束的表示的计算公式表示为:
;
;
其中,和/>分别表示第/>个token的起始位置和结束位置的上下文感知特征,/>和/>分别表示用于构建起始表示向量和结束表示向量的前馈神经网络,/>和/>分别表示第/>个token的起始表示向量和结束表示向量;
S700、在si≤ei(si和ei分别表示第i个token的起始位置和结束位置)的约束条件下,采用双仿射分类器对所有可能构成命名实体的token进行分数计算,其中每一个token都有一个对应的命名实体类别,并且会创建评分张量/>,其中l表示句子长度,c表示标签类别的数量;第i个token的分数和每个token对应的命名实体类别表示为:
;
);
其中,表示token序号,/>是一个/>的张量,/>是一个/>的矩阵,/>表示拼接,/>是偏差,/>表示筛选最大分数;
S800、根据类别得分按降序对所有具有“非实体”以外类别的token进行排名,后处理约束按照对于嵌套的命名实体识别,只要实体不与排名较高的实体的边界冲突,就会选择实体;如果或/>(/>,/>表示实体i和实体j的起始位置,/>,/>表示实体i和实体j的结束位置),则将实体i表示为与另一个实体j的边界冲突,只选择类别得分较高的token;对于平面命名实体识别,不选择任何包含或位于排名在其之前的实体内部的实体;本命名实体识别方法的学习目标是为每个有效token分配一个正确的类别(包括非实体);作为一个多类分类问题,使用softmax交叉熵优化本方法:
;
;
其中,C表示实体类别数,N是数据集大小,是估计实体类别,/>表示第i个token为实体类别c的概率,/>表示token为估计实体类别/>的概率,/>表示每个token属于每个类别的实际概率,/>表示每个token属于每个类别的估计概率,loss是损失函数的值,通过降低损失函数来不断优化模型。
2.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S100中对数据集的预处理和标注具体包含以下步骤:
S101、对数据集进行清洗和去停用词处理;将数据集随机按照8:1:1的比例划分为训练集、测试集和验证集;
S102、对数据进行标注,每行一共两列,分别由一个字符和一个标签组成,其中标签label为采用BIOES标记法对词进行标记的符号,BIOES标记法中,B表示这个词处于一个实体的起始位置(Begin),I表示实体内部位置(Inside),O表示实体之外的位置(Outside),E表示这个词处于一个实体的结尾位置(End),S表示一个单独的字词本身就是一个实体(Single)。
3.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S300中提取字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征具体包含以下步骤:
S301、采用深度可分离卷积网络提取字符级嵌入和单词级嵌入的局部特征,再采用最大池化层突出重点特征,字符级局部特征和单词级局部特征表示为:
;
;
其中,和/>分别表示字符级嵌入和单词级嵌入,/>和/>分别表示字符级局部特征和单词级局部特征,/>表示深度可分离卷积,/>表示最大池化运算;
S302、采用transformer中的全局自注意力机制提取字符级嵌入和单词级嵌入的全局特征,字符级全局特征和单词级全局特征表示为:
;
;
其中,和/>分别表示字符级嵌入和单词级嵌入,/>和/>分别表示字符级全局特征和单词级全局特征,/>表示transformer编码器中的全局自注意力机制。
4.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S500中通过跳跃式膨胀卷积网络提取全局上下文特征信息具体包含以下步骤:
S501、构造三个残差块,每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成,三个残差块中的双层膨胀卷积率大小分别设置为{1,2}、{2,5}和{4,5};
S502、每个残差块的输出被传递给下一个残差块作为输入,形成了一个串行的层次结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727232.2A CN117436452B (zh) | 2023-12-15 | 2023-12-15 | 融合上下文感知和多层次特征的金融实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727232.2A CN117436452B (zh) | 2023-12-15 | 2023-12-15 | 融合上下文感知和多层次特征的金融实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436452A true CN117436452A (zh) | 2024-01-23 |
CN117436452B CN117436452B (zh) | 2024-02-23 |
Family
ID=89550142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311727232.2A Active CN117436452B (zh) | 2023-12-15 | 2023-12-15 | 融合上下文感知和多层次特征的金融实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436452B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527351A (zh) * | 2017-08-31 | 2017-12-29 | 华南农业大学 | 一种融合fcn和阈值分割的哺乳母猪图像分割方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN112489164A (zh) * | 2020-12-07 | 2021-03-12 | 南京理工大学 | 基于改进深度可分离卷积神经网络的图像着色方法 |
CN112861727A (zh) * | 2021-02-09 | 2021-05-28 | 北京工业大学 | 一种基于混合深度可分离卷积的实时语义分割方法 |
CN113312483A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制和BiGRU的文本分类方法 |
CN115439751A (zh) * | 2022-09-22 | 2022-12-06 | 桂林理工大学 | 一种融合多注意力的高分辨率遥感影像道路提取方法 |
CN115690479A (zh) * | 2022-05-23 | 2023-02-03 | 安徽理工大学 | 一种基于卷积Transformer的遥感图像分类方法及系统 |
CN115761238A (zh) * | 2022-12-19 | 2023-03-07 | 桂林电子科技大学 | 基于多分支深度可分离空洞卷积的实时语义分割方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
-
2023
- 2023-12-15 CN CN202311727232.2A patent/CN117436452B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527351A (zh) * | 2017-08-31 | 2017-12-29 | 华南农业大学 | 一种融合fcn和阈值分割的哺乳母猪图像分割方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN112489164A (zh) * | 2020-12-07 | 2021-03-12 | 南京理工大学 | 基于改进深度可分离卷积神经网络的图像着色方法 |
CN112861727A (zh) * | 2021-02-09 | 2021-05-28 | 北京工业大学 | 一种基于混合深度可分离卷积的实时语义分割方法 |
CN113312483A (zh) * | 2021-06-02 | 2021-08-27 | 郑州大学 | 一种基于自注意力机制和BiGRU的文本分类方法 |
CN115690479A (zh) * | 2022-05-23 | 2023-02-03 | 安徽理工大学 | 一种基于卷积Transformer的遥感图像分类方法及系统 |
CN115439751A (zh) * | 2022-09-22 | 2022-12-06 | 桂林理工大学 | 一种融合多注意力的高分辨率遥感影像道路提取方法 |
CN115761238A (zh) * | 2022-12-19 | 2023-03-07 | 桂林电子科技大学 | 基于多分支深度可分离空洞卷积的实时语义分割方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
Non-Patent Citations (5)
Title |
---|
周登文;田金月;马路遥;孙秀秀;: "基于多级特征并联的轻量级图像语义分割", 浙江大学学报(工学版), vol. 54, no. 08, 7 August 2020 (2020-08-07), pages 1516 - 1524 * |
徐诗傲: "基于注意力机制的多特征感知实体关系抽取模型研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 03, 15 March 2023 (2023-03-15), pages 138 - 4120 * |
杨先凤 等: "基于交替注意力机制和图卷积网络的方面级情感分析模型", 《计算机应用》, 7 July 2023 (2023-07-07), pages 1 - 9 * |
白中浩;李智强;蒋彬辉;王鹏辉;: "基于改进YOLOv2模型的驾驶辅助系统实时行人检测", 汽车工程, vol. 41, no. 12, 25 December 2019 (2019-12-25), pages 1416 - 1423 * |
钱宝鑫;肖志勇;宋威;: "改进的卷积神经网络在肺部图像上的分割应用", 计算机科学与探索, vol. 14, no. 08, 6 May 2020 (2020-05-06), pages 1358 - 1367 * |
Also Published As
Publication number | Publication date |
---|---|
CN117436452B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111243699A (zh) | 基于字词信息融合的中文电子病历实体抽取方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN109977199A (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
Bokka et al. | Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及系统 | |
Huang | A CNN model for SMS spam detection | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Tesfagergish et al. | Part-of-speech tagging via deep neural networks for northern-Ethiopic languages | |
CN117436452B (zh) | 融合上下文感知和多层次特征的金融实体识别方法 | |
CN113111654B (zh) | 一种基于分词工具共性信息和部分监督学习的分词方法 | |
CN115759090A (zh) | 一种结合软词典和汉字字形特征的中文命名实体识别方法 | |
Buoy et al. | Joint Khmer word segmentation and part-of-speech tagging using deep learning | |
CN114841148A (zh) | 文本识别模型训练方法、模型训练装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |