CN114330318A - 一种金融领域中文细粒度实体识别方法及装置 - Google Patents

一种金融领域中文细粒度实体识别方法及装置 Download PDF

Info

Publication number
CN114330318A
CN114330318A CN202111563520.XA CN202111563520A CN114330318A CN 114330318 A CN114330318 A CN 114330318A CN 202111563520 A CN202111563520 A CN 202111563520A CN 114330318 A CN114330318 A CN 114330318A
Authority
CN
China
Prior art keywords
financial
sequence
entity
financial field
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111563520.XA
Other languages
English (en)
Inventor
邓飞燕
陈壹华
李杰鸿
陈禧琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202111563520.XA priority Critical patent/CN114330318A/zh
Publication of CN114330318A publication Critical patent/CN114330318A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种金融领域中文细粒度实体识别方法及装置。本发明的一种金融领域中文细粒度实体识别方法包括:获取待识别实体的金融领域语句文本;将金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,实体识别模型包括FinBERT层、BiLSTM层和CRF层;FinBERT层用于获取金融领域语句文本中每个单词的上下文的语义表征;BiLSTM层用于计算每个单词被标注为某个标签的概率;CRF层用于在BiLSTM层的输出中添加约束条件,并对标签序列进行打分;根据分数最高的标签序列,得到金融领域语句文本对应的实体。本发明的一种金融领域中文细粒度实体识别方法,能够有效地学习词汇基于金融领域语料语境的上下文语义特征,实现金融领域中文细粒度实体识别能力的提升。

Description

一种金融领域中文细粒度实体识别方法及装置
技术领域
本发明涉及自然语言处理领域,特别是涉及一种金融领域中文细粒度实体识别方法及装置。
背景技术
随着信息技术的发展,金融行业的日渐繁荣,金融信息呈现出爆炸式增长的趋势。面对浩瀚的互联网金融信息,投资者在进行决策时往往苦恼于难以及时有效掌握有价值的内容。如何高效快速获取相关信息成为当今金融领域重要的话题。为了提高信息获取效率,金融领域实体识别技术应运而生。对于金融相关的数据中出现的实体(包括股票、公司、人物等),该技术能够进行细粒度的实体识别和提取,从而快速得到有价值的信息。
在实体识别过程中,对于需要识别的实体,实体识别任务根据实体类型的粒度来划分可以分为命名实体识别(Named-entity recognition,NER)与细粒度命名实体识别(fine-grained Named-entity recognition,FIGER)两类。前者旨在把非结构化文本中提取到的命名实体定位和分类为预先定义的类别,例如人名、地名等,因此传统的命名实体识别可以认为是粗粒度命名实体分类;后者则着重于在句子及其标注好的实体中,找出能够描述这个标注实体的所有名词。
金融领域是一个具有高度专业性的领域,特别是股票基金、特定机构等强专业性实体名称,一句话中往往不仅含多个实体,而且很多词汇不能从字面意思理解,需要结合金融的专业背景和特殊语境去理解其背后的特殊含义,此类实体往往被认为是细粒度命名实体识别中最具挑战性的部分。尽管实体识别在金融领域的应用备受关注,但是在中文的实体识别领域,目前已经实现标注和完成分词的公开语料较少,金融相关的数据库不够完善,缺乏通用的金融领域词典对金融领域实体的边界进行划分,导致其任务难度更大、更复杂。目前国内外重要刊物上关于金融领域中文细粒度实体识别研究工作的报道少之又少,现有的针对通用语料库的模型和方法在金融领域无法得到有效广泛的应用。
发明内容
基于此,本发明的目的在于,提供一种金融领域中文细粒度实体识别方法及装置,区别于以BERT作为嵌入层的传统模型,使用FinBERT作为嵌入层,有效地学习词汇基于金融领域语料语境的上下文语义特征,实现金融领域中文细粒度实体识别能力的提升。
第一方面,本发明提供一种金融领域中文细粒度实体识别方法,该方法包括以下步骤:
获取待识别实体的金融领域语句文本;
将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分;
根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
进一步地,所述BiLSTM层对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列,包括:
使用以下公式,提取所述BiLSTM层的隐藏向量矩阵:
Figure BDA0003421508230000021
Figure BDA0003421508230000022
Figure BDA0003421508230000023
其中,X代表金融领域语句输入序列X=(x0,x1,.......,xn),
Figure BDA0003421508230000024
Figure BDA0003421508230000025
分别代表第t字的前向和后向隐藏状态;
使用以下公式,得到所述实体识别模型的预测标签序列的分值:
Figure BDA0003421508230000026
其中,X代表金融领域语句输入序列,y表示该序列的分值,n表示词序列的长度,k表示目标标签的数量,P表示大小为n×k的BiLSTM的输出分值矩阵,A表示转移分值矩阵,yi为每个标签分值输出。
进一步地,其特征在于所述CRF层在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分,包括:
所述CRF层对所述BiLSTM层的输出进行编码,使用以下公式,计算CRF层生成目标序列y的概率:
Figure BDA0003421508230000027
其中,X代表金融领域语句输入序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值。
进一步地,其特征在于,根据所述分数最高的标签序列,得到所述语句文本对应的实体,包括:
使用以下公式,计算最大化正确标签序列的对数概率:
Figure BDA0003421508230000031
其中,X代表金融领域语句输入序列X=(x0,x1,.......,xn),y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表CRF生成目标序列y的概率;
使用以下公式,解码预测得到以下最大分值的输出序列:
Figure BDA0003421508230000032
其中,X代表金融领域语句输入序列X=(x0,x1,.......,xn),y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表最终预测标签序列;
根据所述最终预测的标签序列,得到所述金融领域语句的实体识别结果。
进一步地,其特征在于,所述训练好的实体识别模型的参数包括:
预训练词向量维度为768;LSTM隐藏单元的尺寸为256;参数优化算法为Adam;学习率为1e-5;输入序列最大长度为70;批尺寸为32;迭代次数为10;在BiLSTM层的输入、输出中,Dropout率为0.5。
进一步地,其特征在于,所述实体识别模型的训练步骤包括:
获取金融知识数据集;
将所述金融知识数据集按照6:2:2比例随机划分为训练集、验证集、测试集;
将所述训练集输入所述实体识别模型,对所述实体识别模型进行训练;
使用所述验证集选择所述实体识别模型的参数,使用所述测试集检验不同参数对应的所述实体识别模型的性能,得到训练好的实体识别模型。
进一步地,其特征在于,获取金融知识数据集,包括:
获取金融知识数据,根据所述金融知识数据构建金融知识图谱,所述金融知识图谱包括实体集合和关系集合;
根据所述金融知识图谱对应的实体类型和关系类型,生成金融知识语句;
对每个金融知识语句进行BIOS标注,得到所述问句实体识别模型的金融知识数据集。
第二方面,本发明还提供一种金融领域中文细粒度实体识别装置,包括:
文本获取模块,用于获取待识别实体的金融领域语句文本;
标签序列输出模块,用于将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分;
实体结果输出模块,用于根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
第三方面,本发明还提供一种智能设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明第一方面任一所述的一种金融领域中文细粒度实体识别方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种金融领域中文细粒度实体识别方法的步骤。
本发明提供的一种金融领域中文细粒度实体识别方法及装置,针对金融知识图谱投研问答应用场景,构建了高质量的金融领域语句中文细粒度命名实体标记数据集(FinQANER),并区别于以BERT作为嵌入层的传统模型,使用FinBERT作为嵌入层,有效地学习词汇基于金融领域语料语境的上下文语义特征,实现金融领域中文细粒度实体识别能力的提升。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种金融领域中文细粒度实体识别方法的流程示意图;
图2为本发明使用的FinBERT模型的结构示意图;
图3为本发明在一个实施例中构建金融知识图谱的流程示意图;
图4为本发明在一个实施例中保存的股票数据示意图;
图5为本发明在一个实施例中构建的金融知识图谱实体集说明;
图6本发明在一个实施例中构建的金融知识图谱关系集说明;
图7本发明在一个实施例中构建的金融知识图谱部分示例图;
图8为本发明在一个实施例中使用的FinBERT-BiLSTM-CRF细粒度实体识别模型结构示意图;
图9为本发明提供的一种金融领域中文细粒度实体识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对背景技术中的问题,本申请实施例提供一种金融领域中文细粒度实体识别方法,如图1所示,该方法包括以下步骤:
S01:获取待识别实体的金融领域语句文本。
S02:将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分。
在一个具体的实施例中,FinBERT模型是在大规模金融领域语料上训练的开源中文BERT预训练模型,如图2所示,其嵌入层的实现具体包含Token嵌入、Sentence嵌入和Position嵌入。相较于BERT模型,FinBERT模型不仅采用金融财经类新闻、研报/上市公司公告、金融类百科词条三大类金融领域的语料作为预训练数据集,而且能利用字词级别和任务级别的预训练任务,进一步提升金融领域下游任务的性能。因此本发明选用FinBERT模型作为嵌入层,编码单词语境信息,让FinBERT模型能够更好地捕获语言知识和语义信息,以强化词嵌入的上下文语义特征提取质量,达到提升金融领域中文细粒度实体识别效果的目的。
在一个优选的实施例中,BiLSTM层对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列,包括以下子步骤:
S041:使用以下公式,提取所述BiLSTM层的隐藏向量矩阵:
Figure BDA0003421508230000061
Figure BDA0003421508230000062
Figure BDA0003421508230000063
其中,X代表金融领域语句输入序列X=(x0,x1,......xn),
Figure BDA0003421508230000065
Figure BDA0003421508230000066
分别代表第t字的前向和后向隐藏状态;
S042:使用以下公式,得到所述实体识别模型的预测标签序列的分值:
Figure BDA0003421508230000067
其中,X代表金融领域语句输入序列,y表示该序列的分值,n表示词序列的长度,k表示目标标签的数量,P表示大小为n×k的BiLSTM的输出分值矩阵,A表示转移分值矩阵,yi为每个标签分值输出。
在一个优选的实施例中,所述CRF层在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分,包括:
所述CRF层对所述BiLSTM层的输出进行编码,使用以下公式,计算CRF层生成目标序列y的概率:
Figure BDA0003421508230000071
其中,X代表金融领域语句输入序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值。
S03:根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
优选地,步骤S06包括以下子步骤:
S061:使用以下公式,计算最大化正确标签序列的对数概率:
Figure BDA0003421508230000072
其中,X代表金融领域语句输入序列X=(x0,x1,.......,xn),y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表CRF生成目标序列y的概率;
S062:使用以下公式,解码预测得到以下最大分值的输出序列:
Figure BDA0003421508230000073
其中,X代表金融领域语句输入序列X=(x0,x1,.......,xn),y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表最终预测标签序列。
S063:根据所述最终预测的标签序列,得到所述金融领域语句的实体识别结果。
由于缺乏高质量的金融领域中文细粒度命名实体识别数据集,本发明针对金融知识图谱投研问答应用场景,构建了金融领域问句中文细粒度命名实体标记数据集(FinQANER)。
在一个优选的实施例中,数据集构建包括以下子步骤:
S11:获取金融知识数据,根据所述金融知识数据构建金融知识图谱,所述金融知识图谱包括实体集合和关系集合;
S12:根据所述金融知识图谱对应的实体类型和关系类型,生成金融知识语句;
S13:对每个金融知识语句进行BIOS标注,得到所述问句实体识别模型的金融知识数据集。
在一个具体的实施例中,金融领域问句中文细粒度命名实体标记数据集(FinQANER)构建方法如下:
1.1金融知识图构建
以同花顺问财网站(iwencai.com)为源,网络爬取了1999支A股股票的18种实体,包括股票、概念、实际控制人、高管等实体信息,涵盖了12种关系类型,大约4万个实体。其金融知识图谱构建流程如图3所示。
具体地,金融知识图谱的构建流程包括:
(1)数据获取
问财网是同花顺公司旗下专业的智能选股平台,通过人工智能技术实现为股民提供智能选股、量化投资、主力追踪、价值投资、技术分析等各类选诊股技术。
本发明使用的数据的主要来源是问财网中一部分a股的各类指标信息。其中总共包含了1999支股票的15种属性,包括概念、行业、技术形态等属性。通过使用python编程语言中的request库实现爬虫程序,模拟浏览器向问财网发送数据请求的信息,得到网站返回的数据。再将获取的数据进行检查,清洗,将冗余的数据删除,使每支股票的数据能够符合知识图谱中实体或属性的语法格式。并将每支股票的数据以json格式存储在本地,保存的股票数据如图4所示。
(2)数据分类
知识图谱主要由实体和实体之间的关系构成,因此需将获取的数据分类出实体和关系的集合。对于保存的json类型的数据,实体的类型有:'股票'、'概念'、'概念龙头'、'实际控制人'、'行业'、'指数类型'、'股本规模'、'市场类型'、'买入信号'、'卖出信号'、'技术形态'、'选股动向'、'高管';关系的类型有:'所属概念'、'概念龙头'、'所属行业'、'所属指数类'、'股本规模'、'股票市场类型'、'技术形态'、'选股动向'、'买入信号'、'卖出信号'、'实际控制人'、'高管'。
(3)知识图谱构建
Neo4j图形数据库创建的知识图谱基于属性图模型,如图5和图6所示,在该模型中,每个实体都有唯一标识,每个节点由标签分组,每个关系都有一个唯一的类型,属性图模型的基本概念有:实体、标记、属性。通过python的py2neo库,将分类好的实体,关系上传至云端的图数据库中,创建出实体以及相关的关系组成的知识图谱,其中包含大约4万个实体,26万个关系。
按照金融知识图谱构建流程,得到最终的金融知识图谱,其中部分金融知识图谱示例如图7所示。
1.2问句数据集构建
分析上述搭建的金融知识图谱,根据知识图的实体类型,可以构建出15种类型的问题以及其答案,流程如下:
首先构建问句关键词模板,每个模板都由疑问词和特定问题的关键词组成,对于每类问题,问句由疑问词、关键词加上特定实体后修饰而成,例如:构建询问股票概念的问句时,疑问词可以是“是什么”、“有哪些”,关键词可以是“概念”,当股票实体为“汇川技术”时,问句可以是“汇川技术的概念是什么”、”汇川技术的概念有哪些“等。而对于问句的答案,则通过预设的图数据库的查询语句模板,将对应的关键词实体和疑问词实体转化为特定格式的cypher查询语句,得到存储知识图谱neo4j图数据库的查询语言,再将所述查询语言输入至所述图数据库中,得到查询结果,调用所述问题类型对应的回复模板,将所述查询结果转化为自然语言,得到问句答案。FinQANER数据集问句示例如表1所示:
表1 FinQANER数据集问句示例
Figure BDA0003421508230000091
1.3数据集序列标注
使用BIOS标记策略,利用金融领域词典正则匹配标注金融问句中的特征词和疑问词关键实体,以股票名称为例,其中O表示非实体,B_stockname表示多字实体首字,I_stockname表示多字实体的非首字,S_stockname表示单字实体。然后由人工校验标注结果,生成数据集。
1.4数据基本信息概要
该数据集共包含19种类型命名实体,采取留出法划分数据集,总共1999支股票、15类问题,根据股票和问题类型将问句数据集按照6:2:2比例随机划分为训练集、验证集、测试集。属性如表2所示。
表2 FinQANER的属性
Figure BDA0003421508230000101
1.5数据集引用
为验证本发明提出的模型方法在中文细粒度实体识别任务中的适用性和性能,以及评估本发明构建的数据集(FinQANER)质量,本发明引用了几种常用的中文实体识别数据集,如表3所示,MSRANER数据集,它只有三个经典类别(人名,地点和组织);对于BOSONNER,它增加了三个类别(时间、产品名称、公司名称);Resume NER拥有8个类别,但分布不平衡;CLUENER2020是目前高质量、细粒度、可公开访问获得的中文NER数据集,共有10个不同类别,每个类别的数据量处于相同的数量级。FinQANER拥有19种类别,比CLUENER2020更多的实体类别。除了多样性之外,本发明自建的数据集也比其他数据集信息更丰富。
表3其他中文命名实体识别数据集的比较
Figure BDA0003421508230000102
Figure BDA0003421508230000111
在一个优选的实施例中,针对金融领域中文细粒度实体识别现有模型效能不足的现状,本发明构建了FinBERT-BiLSTM-CRF细粒度实体识别模型。其模型整体由FinBERT,BiLSTM,CRF三个模型组合而成,其架构如图8所示。首先,句子经过FinBERT层获取每个单词的上下文的语义表征,将输入的语料转化为词的嵌入向量矩阵,再输入到BiLSTM中。然后,BiLSTM层提取FinBERT层预训练输出的向量,对语句文本进行双向编码,捕获词的上下文语义表征,计算词被标注为某个标签的概率。最后,CRF层在上层的输出中添加约束条件,并对标签序列进行打分,最后输出分数最高的标签序列,从而实现实体识别。
基于上述的数据集和实体识别模型,本发明所使用的实体识别模型的训练步骤包括:
S21:获取金融知识数据集;
S22:将所述金融知识数据集按照6:2:2比例随机划分为训练集、验证集、测试集;
S23:将所述训练集输入所述实体识别模型,对所述实体识别模型进行训练;
S24:使用所述验证集选择所述实体识别模型的参数,使用所述测试集检验不同参数对应的所述实体识别模型的性能,得到训练好的实体识别模型。
在一个优选的实施例中,基于以上数据集构建和模型训练步骤,最终得到训练好的实体识别模型的参数包括:
预训练词向量维度为768;LSTM隐藏单元的尺寸为256;参数优化算法为Adam;学习率为1e-5;输入序列最大长度为70;批尺寸为32;迭代次数为10;在BiLSTM层的输入、输出中,Dropout率为0.5。
本申请实施例还提供一种金融领域中文细粒度实体识别装置,如图9所示,该中文细粒度实体识别装置400包括:
文本获取模块401,用于获取待识别实体的金融领域语句文本;
标签序列输出模块402,用于将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分;
实体结果输出模块403,用于根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
本申请实施例还提供一种智能设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如前所述的一种金融领域中文细粒度实体识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的一种金融领域中文细粒度实体识别方法的步骤。
本发明提供的一种金融领域中文细粒度实体识别方法及装置,针对金融知识图谱投研问答应用场景,构建了高质量的金融领域语句中文细粒度命名实体标记数据集(FinQANER),并区别于以BERT作为嵌入层的传统模型,使用FinBERT作为嵌入层,有效地学习词汇基于金融领域语料语境的上下文语义特征,实现金融领域中文细粒度实体识别能力的提升。
为了验证本发明所采取的方法的金融领域中文细粒度命名实体识别力,本发明研究分别在5个数据集上设置了3组对比实验。为统一评估各实体类的贡献度与影响力,本发明采用宏平均(Macro Average)作为评价指标,其首先会对每个实体类计算评估指标精确率(Precision)、召回率(Recall)和F1值(F-score),然后取平均得到平均精确率(MacroPrecision)、平均召回率(Macro Recall)和平均F1值(Macro F1)。
1.模型效能对比实验
实验采用现有开源数据集CLUENER2020,将本发明所搭建模型与现存常用、效能较好的几种不同模型在同一数据集下运行。通过对比实验,以验证本发明搭建模型在中文细粒度命名实体识别力。实验中按照各模型取得最佳识别力的实验配置,BILSTM-CRF模型的Bi-LSTM隐藏状态的大小和字符嵌入的大小分别设置为2、384和128,并添加了包括dropout层和归一化在内的策略以提高模型的泛化能力;BERT使用BERT-base预训练模型;RoBERTa使用RoBERTa-wwm-large预训练模型;BERT-BiLSTM-CRF参数设置与FinBERT-BiLSTM-CRF相同。其具体参数配置见表4。
表4模型的实验设置
Figure BDA0003421508230000121
Figure BDA0003421508230000131
其实验结果如下表5所示。
表5在CLUENER2020数据集中不同模型方法实验结果(单位:%)
Figure BDA0003421508230000132
与表现最好的基线模型BERT-BiLSTM-CRF相比,本发明搭建模型在平均精确率、平均召回率、平均F1值上分别提升了1.56%、0.59%和1.08%。这充分说明:基于FinBERT-BiLSTM-CRF的模型对中文细粒度实体识别力具有较好的提升作用,且该模型具有很好的迁移与泛化能力。
为进一步检验模型的可靠性,同时验证新构建数据集的适用性,实验中除搭建的FinBERT-BiLSTM-CRF模型外,本发明任意选取上次实验中的两个模型,连同搭建的FinBERT-BiLSTM-CRF模型,在新构建的金融领域数据集FinQANER上进行实验,实验设置同表4。
通过本次对比实验,其实验结果见下表6所示。
表6在FinQANER数据集中不同模型方法实验结果(单位:%)
Figure BDA0003421508230000133
从上表中可以看出:在同一新建FinQANER数据集下,采用不同的预训练模型作为嵌入层,即分别经过BiLSTM-CRF、BERT-BiLSTM-CRF和FinBERT-BiLSTM-CRF等基线模型对中文细粒度命名实体进行识别。通过对比实验发现,本发明搭建模型识别效果最佳,各项实验指标均得到一定程度的提升。在平均精确率、平均召回率和平均F1值这三种指标上,我们的模型相比于BERT-BiLSTM-CRF分别提升了2.44%、1.84%和2.44%,而相比基线模型BiLSTM-CRF,F1值提高了13.8%,再次证明该模型应用于金融领域中文细粒度实体识别任务的有效性。
2.数据集识别效能对比实验
为验证新建数据集在金融实体识别任务中的有效性,实验选取行业常用的几种NER任务公用开源数据集与本发明构建的FinQANER数据集进行对比,实验选用数据集详情见表5,实验参数设置见表1的FinBERT-BiLSTM-CRF模型,在参数设置相同条件下,对比其在相同的FinBERT-BiLSTM-CRF模型上的识别效果,以验证FinQANER数据集的质量。实验结果如下表7所示。
表7不同数据集实体识别实验结果(单位:%)
Figure BDA0003421508230000141
从上表可以看出:在相同条件下,本发明构建的FinQANER数据集表现最好,平均精确率、平均召回率和平均F1值上分别为99.86%、99.93%和99.89%;说明相比其他数据集,FinQANER数据集在实体类别更多的情况下,也同样具有较高的质量。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种金融领域中文细粒度实体识别方法,其特征在于,包括以下步骤:
获取待识别实体的金融领域语句文本;
将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分;
根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
2.根据权利要求1所述的一种金融领域中文细粒度实体识别方法,其特征在于,所述BiLSTM层对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列,包括:
使用以下公式,提取所述BiLSTM层的隐藏向量矩阵:
Figure FDA0003421508220000011
Figure FDA0003421508220000012
Figure FDA0003421508220000013
其中,X代表金融领域语句输入序列
Figure FDA0003421508220000014
Figure FDA0003421508220000015
Figure FDA0003421508220000016
分别代表第t字的前向和后向隐藏状态;
使用以下公式,得到所述实体识别模型的预测标签序列的分值:
Figure FDA0003421508220000017
其中,X代表金融领域语句输入序列,y表示该序列的分值,n表示词序列的长度,k表示目标标签的数量,P表示大小为n×k的BiLSTM的输出分值矩阵,A表示转移分值矩阵,yi为每个标签分值输出。
3.根据权利要求2所述的一种金融领域中文细粒度实体识别方法,其特征在于所述CRF层在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分,包括:
所述CRF层对所述BiLSTM层的输出进行编码,使用以下公式,计算CRF层生成目标序列y的概率:
Figure FDA0003421508220000021
其中,X代表金融领域语句输入序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值。
4.根据权利要求3所述的一种金融领域中文细粒度实体识别方法,其特征在于,根据所述分数最高的标签序列,得到所述语句文本对应的实体,包括:
使用以下公式,计算最大化正确标签序列的对数概率:
Figure FDA0003421508220000022
其中,X代表金融领域语句输入序列
Figure FDA0003421508220000023
y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表CRF生成目标序列y的概率;
使用以下公式,解码预测得到以下最大分值的输出序列:
Figure FDA0003421508220000024
其中,X代表金融领域语句输入序列
Figure FDA0003421508220000025
y代表预测的字符标签序列,YX代表金融领域语句信息序列X对应的所有可能的字符标签序列,s(X,y)代表预测标签序列y的分值,P(y|X)代表最终预测标签序列;
根据所述最终预测的标签序列,得到所述金融领域语句的实体识别结果。
5.根据权利要求1所述的一种金融领域中文细粒度实体识别方法,其特征在于,所述训练好的实体识别模型的参数包括:
预训练词向量维度为768;LSTM隐藏单元的尺寸为256;参数优化算法为Adam;学习率为1e-5;输入序列最大长度为70;批尺寸为32;迭代次数为10;在BiLSTM层的输入、输出中,Dropout率为0.5。
6.根据权利要求5所述的一种金融领域中文细粒度实体识别方法,其特征在于,所述实体识别模型的训练步骤包括:
获取金融知识数据集;
将所述金融知识数据集按照6:2:2比例随机划分为训练集、验证集、测试集;
将所述训练集输入所述实体识别模型,对所述实体识别模型进行训练;
使用所述验证集选择所述实体识别模型的参数,使用所述测试集检验不同参数对应的所述实体识别模型的性能,得到训练好的实体识别模型。
7.根据权利要求6所述的一种金融领域中文细粒度实体识别方法,其特征在于,获取金融知识数据集,包括:
获取金融知识数据,根据所述金融知识数据构建金融知识图谱,所述金融知识图谱包括实体集合和关系集合;
根据所述金融知识图谱对应的实体类型和关系类型,生成金融知识语句;
对每个金融知识语句进行BIOS标注,得到所述问句实体识别模型的金融知识数据集。
8.一种金融领域中文细粒度实体识别装置,其特征在于,包括:
文本获取模块,用于获取待识别实体的金融领域语句文本;
标签序列输出模块,用于将所述金融领域语句文本输入训练好的实体识别模型,得到分数最高的标签序列;其中,所述实体识别模型包括FinBERT层、BiLSTM层和CRF层;所述FinBERT层用于获取所述金融领域语句文本中每个单词的上下文的语义表征,得到词嵌入向量矩阵;所述BiLSTM层用于对所述金融领域语句文本进行双向编码,计算每个单词被标注为某个标签的概率,得到所述金融领域语句文本对应的标签序列;所述CRF层用于在所述BiLSTM层的输出中添加约束条件,并对标签序列进行打分;
实体结果输出模块,用于根据所述分数最高的标签序列,得到所述金融领域语句文本对应的实体。
9.一种智能设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一所述的一种金融领域中文细粒度实体识别方法的步骤。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的一种金融领域中文细粒度实体识别方法的步骤。
CN202111563520.XA 2021-12-20 2021-12-20 一种金融领域中文细粒度实体识别方法及装置 Pending CN114330318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111563520.XA CN114330318A (zh) 2021-12-20 2021-12-20 一种金融领域中文细粒度实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111563520.XA CN114330318A (zh) 2021-12-20 2021-12-20 一种金融领域中文细粒度实体识别方法及装置

Publications (1)

Publication Number Publication Date
CN114330318A true CN114330318A (zh) 2022-04-12

Family

ID=81052093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111563520.XA Pending CN114330318A (zh) 2021-12-20 2021-12-20 一种金融领域中文细粒度实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN114330318A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964678A (zh) * 2023-03-16 2023-04-14 微云智能科技有限公司 一种基于多传感器数据的智能识别方法及系统
CN117093728A (zh) * 2023-10-19 2023-11-21 杭州同花顺数据开发有限公司 一种金融领域事理图谱构建方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964678A (zh) * 2023-03-16 2023-04-14 微云智能科技有限公司 一种基于多传感器数据的智能识别方法及系统
CN115964678B (zh) * 2023-03-16 2023-10-03 微云智能科技有限公司 一种基于多传感器数据的智能识别方法及系统
CN117093728A (zh) * 2023-10-19 2023-11-21 杭州同花顺数据开发有限公司 一种金融领域事理图谱构建方法、装置、设备及存储介质
CN117093728B (zh) * 2023-10-19 2024-02-02 杭州同花顺数据开发有限公司 一种金融领域事理图谱构建方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN102262634B (zh) 一种自动问答方法及系统
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN107949841A (zh) 提问应答系统的训练装置以及该训练装置用的计算机程序
CN114330318A (zh) 一种金融领域中文细粒度实体识别方法及装置
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN112287090A (zh) 一种基于知识图谱的金融问题反问方法及系统
Giorgetti et al. Automating survey coding by multiclass text categorization techniques
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN111666376A (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN115599901A (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN113672720A (zh) 一种基于知识图谱和语义相似度的电力审计问答方法
CN113886531A (zh) 智能问答话术确定方法、装置、计算机设备和存储介质
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN111091002A (zh) 一种中文命名实体的识别方法
CN114491023A (zh) 一种文本处理方法、装置、电子设备和存储介质
CN117807482A (zh) 海关报关单的分类方法、装置、设备及存储介质
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN112988704A (zh) 一种基于ai咨询数据库集群搭建方法和系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN110287396A (zh) 文本匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination