CN114398871A - 金融实体抽取方法、装置、设备与计算机可读存储介质 - Google Patents
金融实体抽取方法、装置、设备与计算机可读存储介质 Download PDFInfo
- Publication number
- CN114398871A CN114398871A CN202210169754.4A CN202210169754A CN114398871A CN 114398871 A CN114398871 A CN 114398871A CN 202210169754 A CN202210169754 A CN 202210169754A CN 114398871 A CN114398871 A CN 114398871A
- Authority
- CN
- China
- Prior art keywords
- extraction
- text
- training
- financial entity
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种金融实体抽取方法、装置、设备和计算机可读存储介质,该方法包括:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。本发明通过将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合,并根据预设投票策略,对抽取结果集合中的每个抽取结果进行投票,得到投票结果,根据投票结果确定目标抽取结果,提高了金融实体抽取的准确率。
Description
技术领域
本发明涉及金融科技技术领域,尤其涉及金融实体抽取方法、装置、设备与计算机可读存储介质。
背景技术
当前在金融学领域,使用较多的金融实体抽取方法为基于深度学习和条件随机场(CRF)实现的序列标注方法。该方法首先将金融领域的文本信息,处理成基础词向量特征作为后置网络的输入,利用深度神经网络构造中间特征表征层,提取文本信息的隐状态信息,作为机器学习的CRF判别式算法来对文本中的每个单词进行序列标注,从而识别出对应不同种类的金融实体,但是,现有技术仅能对简单的金融实体进行识别和抽取,而无法对嵌套和复杂的金融实体进行识别和抽取,导致金融实体抽取的准确率较低。因此,如何提高金融实体抽取的准确率,是急需解决的问题。
发明内容
本发明的主要目的在于提出一种金融实体抽取方法、装置、设备与计算机可读存储介质,旨在解决如何提高金融实体抽取的准确率的问题。
为实现上述目的,本发明提供一种金融实体抽取方法,所述金融实体抽取方法包括如下步骤:
在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
优选地,根据所述投票结果确定目标抽取结果的步骤包括:
获取所述抽取结果集合中每个抽取结果对应的权重值,根据所述权重值和所述投票结果,确定得到所述每个抽取结果对应的投票值;
将所述每个抽取结果对应的投票值进行对比,确定所述投票值最大的抽取结果作为目标抽取结果。
优选地,在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合的步骤之前,所述金融实体抽取方法包括:
构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
优选地,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型中,以得到文本特征向量集合的步骤包括:
对所述训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到所述每个训练文本对应的词汇集合;
将包含所述词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
优选地,对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵的步骤包括:
将所述文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;
基于双仿射网络构建注意力矩阵,并根据所述注意力矩阵和所述中间特征向量集合,得到文本特征关联矩阵。
优选地,基于所述损失函数进行模型训练,以得到抽取模型集合的步骤包括:
基于所述损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将所述验证文本集合输入所述预抽取模型集合,得到验证结果;
根据所述验证结果,确定抽取模型集合。
优选地,根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果的步骤之后,所述金融实体抽取方法包括:
获取所述抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据所述金融实体文本信息更新训练文本集合;
根据更新后的训练文本集合对所述抽取模型集合进行模型训练,以得到更新后的抽取模型集合,并基于所述更新后的抽取模型集合,执行步骤:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合。
优选地,根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合的步骤之后,所述金融实体抽取方法包括:
获取所述训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合;
基于更新后的训练文本集合,执行步骤:对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
此外,为实现上述目的,本发明还提供一种金融实体抽取装置,所述金融实体抽取装置包括:
获取模块,用于在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
确定模块,用于根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
优选地,所述确定模块还用于:
获取所述抽取结果集合中每个抽取结果对应的权重值,根据所述权重值和所述投票结果,确定得到所述每个抽取结果对应的投票值;
将所述每个抽取结果对应的投票值进行对比,确定所述投票值最大的抽取结果作为目标抽取结果。
优选地,所述获取模块还包括训练模块,所述训练模块用于:
构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
优选地,所述训练模块还用于:
对所述训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到所述每个训练文本对应的词汇集合;
将包含所述词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
优选地,所述训练模块还用于:
将所述文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;
基于双仿射网络构建注意力矩阵,并根据所述注意力矩阵和所述中间特征向量集合,得到文本特征关联矩阵。
优选地,所述训练模块还用于:
基于所述损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将所述验证文本集合输入所述预抽取模型集合,得到验证结果;
根据所述验证结果,确定抽取模型集合。
优选地,所述确定模块还包括第一更新模块,所述第一更新模块用于:
获取所述抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据所述金融实体文本信息更新训练文本集合;
根据更新后的训练文本集合对所述抽取模型集合进行模型训练,以得到更新后的抽取模型集合,并基于所述更新后的抽取模型集合,执行步骤:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合。
优选地,所述训练模块还包括第二更新模块,所述第二更新模块用于:
获取所述训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合;
基于更新后的训练文本集合,执行步骤:对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
此外,为实现上述目的,本发明还提供一种金融实体抽取设备,所述金融实体抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的金融实体抽取程序,所述金融实体抽取程序被所述处理器执行时实现如上所述的金融实体抽取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有金融实体抽取程序,所述金融实体抽取程序被处理器执行时实现如上所述的金融实体抽取方法的步骤。
本发明提出的金融实体抽取方法,在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。本发明通过将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合,并根据预设投票策略,对抽取结果集合中的每个抽取结果进行投票,得到投票结果,根据投票结果确定目标抽取结果,提高了金融实体抽取的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明金融实体抽取方法第一实施例的流程示意图;
本发明目的的实现、功能特点及优点将集合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及金融实体抽取程序。
其中,操作系统是管理和控制便携金融实体抽取设备与软件资源的程序,支持网络通信模块、用户接口模块、金融实体抽取程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的金融实体抽取设备中,所述金融实体抽取设备通过处理器1001调用存储器1005中存储的金融实体抽取程序,并执行下述金融实体抽取方法各个实施例中的操作。
基于上述硬件结构,提出本发明金融实体抽取方法实施例。
参照图2,图2为本发明金融实体抽取方法第一实施例的流程示意图,所述方法包括:
步骤S10,在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
步骤S20,根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
本实施例金融实体抽取方法运用于金融机构的金融实体抽取设备中,金融实体抽取设备可以是终端或者PC设备,为描述方便,以金融实体抽取设备为例进行描述;金融实体抽取设备在检测到抽取指令,获取抽取指令对应的金融实体文本信息集合,并将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;金融实体抽取设备获取抽取结果集合中每个抽取结果对应的权重值,根据权重值和投票结果,确定得到每个抽取结果对应的投票值;将每个抽取结果对应的投票值进行对比,确定投票值最大的抽取结果作为目标抽取结果。需要说明的是,抽取模型集合中的每个抽取模型中都包含一个或多个预训练模型,其中预训练模型包括但不限于:bert、electra、roberta等,并且,每个抽取模型都是基于双仿射网络构成的,双仿射网络对多个金融实体嵌套的情况以及复杂场景的金融实体都具有较高的识别准确率。
本实施例的金融实体抽取方法,在检测到抽取指令,获取抽取指令对应的金融实体文本信息集合,并将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;根据预设投票策略,对抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据投票结果确定目标抽取结果。本发明通过将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合,并根据预设投票策略,对抽取结果集合中的每个抽取结果进行投票,得到投票结果,根据投票结果确定目标抽取结果,提高了金融实体抽取的准确率。
以下将对各个步骤进行详细说明:
步骤S10,在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
在本实施例中,金融实体抽取设备在检测到抽取指令,获取抽取指令对应的金融实体文本信息集合,对金融实体文本信息集合中的每个金融实体文本信息进行滤波、筛选、词汇识别和词汇编号后,输入抽取模型集合的每个抽取模型中,通过抽取模型中包含的预训练模型对每个金融实体文本信息进行解析得到文本特征向量,并对文本特征向量进行映射,得到每个金融实体文本信息的首个词汇的中间特征向量和最后一个词汇的中间特征向量,利用双仿射网络的特点,构造一个独立的注意力矩阵,与每个金融实体文本信息的中间特征向量进行乘积变换,确定每个金融实体文本信息中的每个词汇对应的文本特征之间的关联,最后将每个金融实体文本信息中的每个词汇对应的文本特征之间的关联的结果合并到一起作为双仿射网络的输出,得到抽取结果集合;可以理解的是,将金融实体文本信息集合输入每个抽取模型都会得到一个抽取结果,所有的抽取结果组成抽取结果集合。
步骤S20,根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
在本实施例中,金融实体抽取设备根据预设投票策略,对抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据投票结果确定每个抽取结果对应的投票值,选择投票值最大的抽取结果作为最终的目标抽取结果。
具体地,根据所述投票结果确定目标抽取结果的步骤包括:
步骤a,获取所述抽取结果集合中每个抽取结果对应的权重值,根据所述权重值和所述投票结果,确定得到所述每个抽取结果对应的投票值;
在该步骤中,金融实体抽取设备获取抽取结果集合中每个抽取结果对应的权重值,根据权重值和投票结果,确定得到每个抽取结果对应的投票值,如:对于抽取模型集合中的每个抽取模型得到的抽取结果,金融实体抽取设备使用基于机器学习bagging(口袋算法)的投票策略,根据每个抽取模型的抽取结果对应的权重值和投票结果,确定每个抽取结果对应的投票值。
步骤b,将所述每个抽取结果对应的投票值进行对比,确定所述投票值最大的抽取结果作为目标抽取结果。
在该步骤中,金融实体抽取设备每个抽取结果对应的权重值和投票结果,确定每个抽取结果对应的投票值,将每个抽取结果对应的投票值进行对比,以确定投票值最大的抽取结果作为目标抽取结果。
进一步地,步骤S20之后包括:
步骤c,获取所述抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据所述金融实体文本信息更新训练文本集合;
在该步骤中,金融实体抽取设备获取抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据金融实体文本信息更新训练文本集合;如:假设金融实体文本信息集合中包含8条金融实体文本信息,金融实体抽取设备将8条金融实体文本信息依次输入抽取模型集合,得到8条金融实体文本信息对应的抽取结果,每条金融实体文本信息对应的抽取结果的数量与抽取模型集合中的抽取模型的数量相等,即针对每个金融实体文本信息,每个抽取模型都会得到一个抽取结果,若通过自主学习方法,确定超过一半数量的抽取模型基于某个金融实体文本信息得到抽取结果都是较为模糊的,则确定将抽取结果对应的金融实体文本信息进行标注,再将经过标注的金融实体文本信息加入训练文本集合中,以更新训练文本集合。
步骤d,根据更新后的训练文本集合对所述抽取模型集合进行模型训练,以得到更新后的抽取模型集合,并基于所述更新后的抽取模型集合,执行步骤:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合。
在该步骤中,金融实体抽取设备根据更新后的训练文本集合对抽取模型集合重新进行模型训练,以得到更新后的抽取模型集合,有利于不断提升抽取模型集合的效果和识别准确率,并基于更新后的抽取模型集合,执行在检测到抽取指令,获取抽取指令对应的金融实体文本信息集合,并将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合以及后续步骤。
本实施例的金融实体抽取设备在检测到抽取指令,获取抽取指令对应的金融实体文本信息集合,并将金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;金融实体抽取设备获取抽取结果集合中每个抽取结果对应的权重值,根据权重值和投票结果,确定得到每个抽取结果对应的投票值;将每个抽取结果对应的投票值进行对比,确定投票值最大的抽取结果作为目标抽取结果,进而提高了金融实体抽取的准确率。
进一步地,基于本发明金融实体抽取方法第一实施例,提出本发明金融实体抽取方法第二实施例。
金融实体抽取方法的第二实施例与金融实体抽取方法的第一实施例的区别在于,步骤S10之前还包括:
步骤e,构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
步骤f,对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
本实施例的金融实体抽取设备获取大量的金融实体文本数据,构建训练文本集合,对训练文本集合进行第一预处理,并将经过第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;金融实体抽取设备基于双仿射网络的特点,对文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据文本特征关联矩阵,使用多标签交叉熵以及focalloss算法构造模型的损失函数,基于损失函数进行模型训练,以得到抽取模型集合。通过基于预训练模型集合和双仿射网络进行模型训练得到抽取模型集合,有助于提高金融实体抽取的准确率。
以下将对各个步骤进行详细说明:
步骤e,构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
在该步骤中,金融实体抽取设备获取大量的金融实体文本数据,通过过滤、筛选等操作去除金融实体文本数据中的干扰与噪声,通过数据增强的方式,构建符合条件训练文本集合,对训练文本集合进行第一预处理,并将经过第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;可以理解的是,预训练模型集合包括但不限于:bert、electra、roberta等,金融实体抽取设备可根据相关研发人员的指令或随机选取预训练模型集合中的一个或多个预训练模型,对经过第一预处理的训练文本集合进行处理,以得到文本特征向量集合。
具体地,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型中,以得到文本特征向量集合的步骤包括:
步骤e1,对所述训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到所述每个训练文本对应的词汇集合;
在该步骤中,金融实体抽取设备对训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到每个训练文本对应的词汇集合;如:金融实体抽取设备对训练文本集合中的每个训练文本进行词汇识别和词汇编号,可以理解的是,每个训练文本为一个完整的句子,每个句子有多个词汇组成,金融实体抽取设备对每个训练文本中包含的词汇进行识别,将每个训练文本拆分成包好多个词汇的集合,并对每个词汇进行编号,以得到每个训练文本对应的词汇集合。
步骤e2,将包含所述词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
在该步骤中,金融实体抽取设备将包含词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;如:预训练模型集合包括但不限于:bert、electra、roberta等,金融实体抽取设备可根据相关研发人员的指令或随机选取预训练模型集合中的一个或多个预训练模型,集成到待训练的抽取模型中,得到多个不同的抽取模型,金融实体抽取设备将包含词汇集合的训练文本集合分别输入不同的抽取模型中,通过不同的抽取模型中的预训练模型对训练文本集合中每个训练文本对应的词汇集合进行处理,得到每个训练文本对应的词汇集合中的每个词汇对应的文本特征向量,进而构成文本特征向量集合。
步骤f,对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
在该步骤中,金融实体抽取设备对每个训练文本对应的词汇集合中的每个词汇对应的文本特征向量基于双仿射网络进行第二预处理,得到每个训练文本对应的文本特征关联矩阵,将每个训练文本对应的文本特征关联矩阵进行合并,得到训练文本集合对应的文本特征关联矩阵,并根据训练文本集合对应的文本特征关联矩阵使用多标签交叉熵以及focal loss算法构造模型的损失函数,基于损失函数进行模型训练,以得到抽取模型集合。
具体地,对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵的步骤包括:
步骤f1,将所述文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;
在该步骤中,金融实体抽取设备将文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;如:金融实体抽取设备将文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,每个训练文本中的每个词汇对应有一个文本特征向量,金融实体抽取设备对每个训练文本中的每个词汇对应的文本特征向量进行映射运算,得到每个训练文本的对应的中间特征向量集合,可以理解的是,每个训练文本是一个完整的句子,中间特征向量是指每个训练文本中的首个词汇和最后一个词汇对应的特征向量。
步骤f2,基于双仿射网络构建注意力矩阵,并根据所述注意力矩阵和所述中间特征向量集合,得到文本特征关联矩阵。
在该步骤中,金融实体抽取设备基于双仿射网络构建注意力矩阵,并根据注意力矩阵和中间特征向量集合,得到文本特征关联矩阵;如:金融实体抽取设备利用双仿射网络的特点,构造一个独立的注意力矩阵,该注意力矩阵一般为3行3列的矩阵,与每个训练文本对应的中间特征向量进行乘积变换,确定每个训练文本中包含的每个词汇对应的文本特征之间的文本特征关联矩阵,再将每个训练文本中包含的每个词汇对应的文本特征之间的文本特征关联矩阵进行合并,得到训练文本集合对应的文本特征关联矩阵。
具体地,基于所述损失函数进行模型训练,以得到抽取模型集合的步骤包括:
步骤f3,基于所述损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将所述验证文本集合输入所述预抽取模型集合,得到验证结果;
在该步骤中,金融实体抽取设备根据构造模型的损失函数后,基于损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将验证文本集合输入预抽取模型集合,得到验证结果,需要说明的是,预抽取模型集合中包括多个抽取模型,每个抽取模型中又包含有一个或多个预训练模型以及双仿射网络。
步骤f4,根据所述验证结果,确定抽取模型集合。
在该步骤中,金融实体抽取设备获取验证结果,根据验证结果将预抽取模型集合中抽取准确率大于预设值的抽取模型进行储存,并保留被储存的抽取模型的整体结构及权重值,根据验证结果将预抽取模型集合中抽取准确率小于预设值的抽取模型进行重新训练,直到预抽取模型集合中的所有抽取模型的抽取准确率大于预设值,则得到最终的抽取模型集合。
进一步地,步骤f之后包括:
步骤g,获取所述训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合;
在该步骤中,金融实体抽取设备获取训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合,可以理解的是,金融实体抽取设备在对抽取模型进行训练的过程中,对于在训练中的抽取模型识别的抽取结果较为模糊的训练文本通过自主学习的方法进行标注,并将标注的训练文本重新加入训练样本集合中,以更新训练文本集合。
步骤h,基于更新后的训练文本集合,执行步骤:对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
在该步骤中,金融实体抽取设备基于更新后的训练样本集合,循环执行对训练文本集合进行第一预处理,并将经过第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合以及后续步骤,直到抽取模型效果和识别准确率达到预期为止。
本实施例的金融实体抽取设备构建训练文本集合,对训练文本集合进行第一预处理,并将经过第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;对文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据文本特征关联矩阵构建损失函数,基于损失函数进行模型训练,以得到抽取模型集合,有助于提高金融实体抽取的准确率。
本发明还提供一种金融实体抽取装置。本发明金融实体抽取装置包括:
获取模块,用于在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
确定模块,用于根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
优选地,所述确定模块还用于:
获取所述抽取结果集合中每个抽取结果对应的权重值,根据所述权重值和所述投票结果,确定得到所述每个抽取结果对应的投票值;
将所述每个抽取结果对应的投票值进行对比,确定所述投票值最大的抽取结果作为目标抽取结果。
优选地,所述获取模块还包括训练模块,所述训练模块用于:
构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
优选地,所述训练模块还用于:
对所述训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到所述每个训练文本对应的词汇集合;
将包含所述词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
优选地,所述训练模块还用于:
将所述文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;
基于双仿射网络构建注意力矩阵,并根据所述注意力矩阵和所述中间特征向量集合,得到文本特征关联矩阵。
优选地,所述训练模块还用于:
基于所述损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将所述验证文本集合输入所述预抽取模型集合,得到验证结果;
根据所述验证结果,确定抽取模型集合。
优选地,所述确定模块还包括第一更新模块,所述第一更新模块用于:
获取所述抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据所述金融实体文本信息更新训练文本集合;
根据更新后的训练文本集合对所述抽取模型集合进行模型训练,以得到更新后的抽取模型集合,并基于所述更新后的抽取模型集合,执行步骤:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合。
优选地,所述训练模块还包括第二更新模块,所述第二更新模块用于:
获取所述训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合;
基于更新后的训练文本集合,执行步骤:对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
本发明还提供一种金融实体抽取设备。
本发明的金融实体抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的金融实体抽取程序,所述金融实体抽取程序被所述处理器执行时实现如上所述的金融实体抽取方法的步骤。
其中,在所述处理器上运行的金融实体抽取程序被执行时所实现的方法可参照本发明金融实体抽取方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有金融实体抽取程序,所述金融实体抽取程序被处理器执行时实现如上所述的金融实体抽取方法的步骤。
其中,在所述处理器上运行的金融实体抽取程序被执行时所实现的方法可参照本发明金融实体抽取方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (11)
1.一种金融实体抽取方法,其特征在于,所述金融实体抽取方法包括如下步骤:
在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
2.如权利要求1所述的金融实体抽取方法,其特征在于,所述根据所述投票结果确定目标抽取结果的步骤包括:
获取所述抽取结果集合中每个抽取结果对应的权重值,根据所述权重值和所述投票结果,确定得到所述每个抽取结果对应的投票值;
将所述每个抽取结果对应的投票值进行对比,确定所述投票值最大的抽取结果作为目标抽取结果。
3.如权利要求1所述的金融实体抽取方法,其特征在于,所述在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合的步骤之前,所述金融实体抽取方法包括:
构建训练文本集合,对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合;
对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵,并根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合。
4.如权利要求3中所述的金融实体抽取方法,其特征在于,所述对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型中,以得到文本特征向量集合的步骤包括:
对所述训练文本集合中的每个训练文本进行词汇识别和词汇编号,以得到所述每个训练文本对应的词汇集合;
将包含所述词汇集合的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
5.如权利要求3所述的金融实体抽取方法,其特征在于,所述对所述文本特征向量集合进行第二预处理,得到文本特征关联矩阵的步骤包括:
将所述文本特征向量集合中每个训练文本对应的文本特征向量进行映射操作,生成每个训练样本对应的中间特征向量集合;
基于双仿射网络构建注意力矩阵,并根据所述注意力矩阵和所述中间特征向量集合,得到文本特征关联矩阵。
6.如权利要求3所述的金融实体抽取方法,其特征在于,所述基于所述损失函数进行模型训练,以得到抽取模型集合的步骤包括:
基于所述损失函数进行模型训练,得到预抽取模型集合,并获取验证文本集合,将所述验证文本集合输入所述预抽取模型集合,得到验证结果;
根据所述验证结果,确定抽取模型集合。
7.如权利要求1所述的金融实体抽取方法,其特征在于,所述根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果的步骤之后,所述金融实体抽取方法包括:
获取所述抽取结果集合中满足第一预设条件的抽取结果对应的金融实体文本信息,并根据所述金融实体文本信息更新训练文本集合;
根据更新后的训练文本集合对所述抽取模型集合进行模型训练,以得到更新后的抽取模型集合,并基于所述更新后的抽取模型集合,执行步骤:在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合。
8.如权利要求3所述的金融实体抽取方法,其特征在于,所述根据所述文本特征关联矩阵构建损失函数,基于所述损失函数进行模型训练,以得到抽取模型集合的步骤之后,所述金融实体抽取方法包括:
获取所述训练文本集合中满足第二预设条件的训练文本,并根据所述训练文本更新所述训练文本集合;
基于更新后的训练文本集合,执行步骤:对所述训练文本集合进行第一预处理,并将经过所述第一预处理的训练文本集合输入预训练模型集合中,以得到文本特征向量集合。
9.一种金融实体抽取装置,其特征在于,所述金融实体抽取装置包括:
获取模块,用于在检测到抽取指令,获取所述抽取指令对应的金融实体文本信息集合,并将所述金融实体文本信息集合输入抽取模型集合,得到抽取结果集合;
确定模块,用于根据预设投票策略,对所述抽取结果集合中的每个抽取结果进行投票,得到投票结果,并根据所述投票结果确定目标抽取结果。
10.一种金融实体抽取设备,其特征在于,所述金融实体抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的金融实体抽取程序,所述金融实体抽取程序被所述处理器执行时实现如权利要求1至8中任一项所述的金融实体抽取方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有金融实体抽取程序,所述金融实体抽取程序被处理器执行时实现如权利要求1至8中任一项所述的金融实体抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210169754.4A CN114398871A (zh) | 2022-02-23 | 2022-02-23 | 金融实体抽取方法、装置、设备与计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210169754.4A CN114398871A (zh) | 2022-02-23 | 2022-02-23 | 金融实体抽取方法、装置、设备与计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398871A true CN114398871A (zh) | 2022-04-26 |
Family
ID=81233945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210169754.4A Pending CN114398871A (zh) | 2022-02-23 | 2022-02-23 | 金融实体抽取方法、装置、设备与计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398871A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN116955592A (zh) * | 2023-07-21 | 2023-10-27 | 广州拓尔思大数据有限公司 | 基于可视化推理结果的数据处理方法及系统 |
-
2022
- 2022-02-23 CN CN202210169754.4A patent/CN114398871A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306657A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN116306657B (zh) * | 2023-05-19 | 2023-08-22 | 之江实验室 | 基于方阵标注和双仿射层注意力的实体抽取方法及系统 |
CN116955592A (zh) * | 2023-07-21 | 2023-10-27 | 广州拓尔思大数据有限公司 | 基于可视化推理结果的数据处理方法及系统 |
CN116955592B (zh) * | 2023-07-21 | 2024-02-09 | 广州拓尔思大数据有限公司 | 基于可视化推理结果的数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871532B (zh) | 文本主题提取方法、装置及存储介质 | |
CN109033305B (zh) | 问题回答方法、设备及计算机可读存储介质 | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN111027327A (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN114398871A (zh) | 金融实体抽取方法、装置、设备与计算机可读存储介质 | |
CN111476228A (zh) | 针对场景文字识别模型的白盒对抗样本生成方法 | |
CN107807968B (zh) | 基于贝叶斯网络的问答装置、方法及存储介质 | |
CN110717027B (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN110750523A (zh) | 数据标注方法、系统、计算机设备和存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN112669215A (zh) | 一种训练文本图像生成模型、文本图像生成的方法和装置 | |
CN113254613A (zh) | 对话问答方法、装置、设备及存储介质 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN113688955B (zh) | 文本识别方法、装置、设备及介质 | |
CN116186326A (zh) | 视频推荐方法、模型训练方法、电子设备及存储介质 | |
CN115168615A (zh) | 结合数据可视化的知识图谱大数据处理方法及系统 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN114913590A (zh) | 一种数据的情感识别方法、装置、设备及可读存储介质 | |
US20210398025A1 (en) | Content Classification Method | |
CN114676703A (zh) | 专利新颖度评估方法、装置、设备及可读存储介质 | |
CN113569080A (zh) | 基于人工智能的字库处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |