CN118211131A - 一种适用于金融大模型的文本数据预处理方法及系统 - Google Patents
一种适用于金融大模型的文本数据预处理方法及系统 Download PDFInfo
- Publication number
- CN118211131A CN118211131A CN202410627083.0A CN202410627083A CN118211131A CN 118211131 A CN118211131 A CN 118211131A CN 202410627083 A CN202410627083 A CN 202410627083A CN 118211131 A CN118211131 A CN 118211131A
- Authority
- CN
- China
- Prior art keywords
- sample
- time
- samples
- text
- financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007781 pre-processing Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 39
- 230000008439 repair process Effects 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 239000004816 latex Substances 0.000 description 4
- 229920000126 latex Polymers 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种适用于金融大模型的文本数据预处理方法及系统,属于金融文本自然语言处理技术领域,包括:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,计算子集中样本间的相似度,删除相似度高且时间标签小的数据;将样本切分为子串,遍历找到包含图片注释信息且长度小于阈值的子串并删除;遍历找到包含表格表达字段的子串并检测错误,结合提示工程和生成模型修复错误,得到高质量金融数据集。本发明通过将金融数据聚类后去重,极大程度上节省了计算开销和时间成本,通过处理图片注释并修复表格,得到高质量的金融数据集。
Description
技术领域
本发明属于金融文本自然语言处理技术领域,具体涉及一种适用于金融大模型的文本数据预处理方法及系统。
背景技术
大模型技术问世以后,人们尝试在通用大模型的基础上继续训练领域大模型,在使用金融开源数据集对大模型进行训练以构造金融大模型时,由于金融领域数据的特殊性,即不同渠道搜集到的开源数据有一定比例的重合、冗余数据,且包含大量图表,往往导致模型出现准确性低、鲁棒性差等问题。
导致上述问题的主要原因之一,在于金融数据集普遍质量不佳。金融数据的来源广、途径多,同一个事件可能会被不同渠道重复报道,或同一篇文稿多次转发等,这就导致在采用爬虫等工具收集金融数据集时,往往会采集大量的冗余数据。此外,由于金融领域数据中存在较多的图表,而这些图表中包含大量的金融数据信息,因此,在从这些图表中提取文本信息时,往往会出现一系列错误,例如乱码、冗余或遗漏问题。基于这样的特性,从多渠道收集的金融数据构建的金融数据集质量较差。
在利用包含大量冗余数据和错误的金融数据集作为大模型的训练数据时,一方面,过多的冗余数据会导致数据的多样性明显不足,另一方面,在训练大模型的过程中,常对部分数据采用重采样或其它采样等策略,使得其中包含的冗余数据和错误会较为频繁地被用于大模型的训练,严重降低模型的预测准确性和鲁棒性。
针对上述问题,公开号为CN115688776A的专利文献公开了一种面向中文金融文本的关系抽取方法,包括:利用海量中文金融语料微调BERT结构训练金融文本编码器,对语句编码得到句向量;筛选金融关系数据集,对语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对;对金融关系触发词表中每类关系的触发词编码获得关系词向量,计算语句的相似度特征;将句向量、相似度特征和实体对拼接输入全连接分类器进行实体关系判断。
上述技术方案在面临金融数据集中的冗余信息时,提出采用软硬剪枝策略结合依存句法解析方法,构建句法分析模型,实现对金融语料中句子间关系的深入理解,从而删除重复节点,实现去重,但是,通过多种策略结合实现去重的方式具有较高的复杂度,且该发明提出的软硬剪枝策略并非直接用于去重,而是为了优化句法分析模型,此外,对于金融数据中包含的图表数据的处理任务并没有相关技术启示。
公开号为CN106227722A的专利文献公开了一种基于上市公司公告摘要的自动提取方法,包括:S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;S2:采用word2vec模型,从文本语料得到词向量;S3:计算句子之间相似度,构建句子图模型;S4:计算句子的权重;S5:根据句子位置调整句子权重矩阵;S6:选择权重最大且无冗余的句子组成摘要。该方案通过计算金融数据中句子间的相似度,去除冗余数据,同样的,对于金融数据中的图表数据的清洗任务,该发明并未涉及到相关技术方案。
发明内容
本发明的目的是提供一种适用于金融大模型的文本数据预处理方法及系统,针对金融数据集中的冗余数据,通过计算字符串相似度实现去重,针对金融数据集中图表数据可能存在的一系列错误,清洗图片注释信息并修复表格表达字段,能够实现高效简便快捷的金融数据预处理,得到高质量的金融数据集。
为实现上述发明目的,本发明提供的技术方案如下:
第一方面,本发明实施例提供的一种适用于金融大模型的文本数据预处理方法,包括以下步骤:
步骤1:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;
步骤2:将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集;
步骤3:将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头;
步骤4:遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
本发明的技术构思为:针对从多渠道采集得到的开源金融数据集,由于需要进行去重并保留最新数据,因此,为开源金融数据集添加次数标签和时间标签。采用自然语言处理工具,将开源金融数据集中的样本转换为文本向量,由于金融数据体量庞大,进一步采用小批量聚类算法将文本向量聚类为包含较少数量的多个子集,针对每个子集中的任意两个样本,计算相似度以判断样本是否为相同或相似样本,当相似度高于阈值时,删除其中时间标签小的样本,保留时间标签大大样本,并将保留样本的次数标签更新为两者之和,表示此类样本的出现次数。至此,得到去重的金融数据集。
除此之外,由于金融数据中通常包含大量图表,而这些图表中的金融数据又往往比较重要,因此,需要对开源金融数据集中的图片注释信息和表格表达字段进行清洗和修复。通过文档段落切分算法,将去重的金融数据集中的所有样本进行切分,得到多个子串,遍历子串找到以图和数字的组合为开头且长度小于长度阈值的子串,这类子串表示包含乱码等错误或不重要信息的图片注释信息,删除这类子串实现对图片注释信息的清洗。
遍历清洗过图片注释信息的数据集,找到包含表格表达字段的子串,通过表格解析工具判断子串是否包含错误,采用提示工程与生成模型联用以修复错误,将不含错误或正确修复的子串保留,得到最终的金融数据集。
进一步的,步骤1中,从样本中抽取时间信息,包括:
所述时间信息包括时间点和时间范围;
采用基于JioNLP的时间解析工具从样本中抽取时间点,并将抽取到的时间点对应的最晚时间记为第一时间信息;
采用基于JioNLP的时间解析工具从样本中抽取时间范围,从时间范围内选取最晚时间记为第二时间信息;
以第一时间信息和第二时间信息中较晚的时间作为样本的时间标签;
时间标签大对应时间信息相对晚,时间标签小对应时间信息相对早。通过为样本赋予时间标签,能够确保数据去重时,根据时间标签删除对应时间信息较早的样本,而保留包含最新信息的时间标签大的样本。
进一步的,步骤2中,所述将样本转换为文本向量,包括:
对每个样本进行字段划分;
统计样本中的字段在整个金融数据集中的出现概率,根据样本中每个字段的出现概率,将样本表示为文本向量,文本向量中的元素为对应字段的出现概率。将文本转换为文本向量的形式,能够根据文本向量中的元素更直观地捕捉上下文语义关系,同时便于机器学习算法处理,节省计算成本。
进一步的,步骤2中,所述对文本向量进行小批量聚类,得到多个子集,包括:
根据每个样本对应的文本向量,将样本抽象为样本点;
计算样本点间的距离并将距离小于距离阈值的样本点聚类为一个子集;
统计子集中的样本数量,当样本数量超过数量阈值时,对子集内部的样本点进行迭代聚类,直到所有子集中的样本数量均不超过数量阈值为止。通过对庞大的金融数据集进行小批量聚类,得到体量小的多个子集,能在极大程度上减小计算量,加快文本预处理速度。
进一步的,步骤2中,采用莱文斯坦比计算样本对的相似度,具体为:通过计算样本对中样本点内文本长度之和sum与样本点间距离idist的差值,利用差值与样本点内文本长度之和sum的比值作为样本对中两样本的相似度。
作为优选,步骤3中,可以选用文档段落切分算法中的换行符或双换行符对样本进行切分。
作为优选,步骤4中,检测错误时可以选用md或latex表格解析工具。
进一步的,步骤4中,所述采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,包括:
错误包括冗余、乱码或遗漏;
修复冗余时,删除冗余数据;
修复乱码时,首先删除乱码,接着通过提示工程获取乱码的上下文信息,得到提示语,将提示语输入预训练的生成模型,根据提示语中的上下文信息,生成补充文本填补到乱码的位置,完成修复;
修复遗漏时,将提示工程的提示语输入生成模型得到修复文本,与遗漏的上下文信息进行整合,完成修复。
作为优选,步骤4中,表格阈值可以取值0.2~0.6,数值阈值可以取值0.2~0.3,表格长度阈值可以取值40~50。
第二方面,为实现上述发明目的,本发明实施例还提供了一种适用于金融大模型的文本数据预处理系统,包括金融数据库构建单元、数据去重单元、图片注释清洗单元、表格字段修复单元;
所述金融数据库构建单元用于对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;
所述数据去重单元用于将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集;
所述图片注释清洗单元用于将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头;
所述表格字段修复单元用于遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
第三方面,为实现上述发明目的,本发明实施例还提供了一种适用于金融大模型的文本数据预处理设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现第一方面本发明实施例提供的适用于金融大模型的文本数据预处理方法。
第四方面,为实现上述发明目的,本发明实施例还提供了一种计算机可读的存储介质,所述存储介质上存储有计算机程序,所述计算机程序使用计算机时,实现第一方面本发明实施例提供的适用于金融大模型的文本数据预处理方法。
本发明的有益效果如下:
(1)本发明为开源金融数据集添加次数标签和时间标签,其中,通过次数标签表示样本中的文本内容在整个开源金融数据集中的出现次数,并对次数标签进行初始化,后续通过计算样本间的相似度判断样本的冗余情况,从而删除冗余数据,更新次数标签;在删除冗余数据时,删除时间标签小的样本,时间标签小对应时间信息早,而时间信息较晚的样本中的文本往往包含更新的金融信息,所以本发明保留时间标签大的样本,采用时间解析工具、聚类算法以及自然语言处理工具等的协同作用,实现金融数据集的去重;
(2)在进行金融数据去重时,本发明首先将庞大的开源金融数据集进行聚类操作,得到一系列体量小的子集,再针对子集内的样本计算两两间的相似度,进行去重,这样的设置顺序,一方面能够减小计算量,另一方面,也能节省模型内部的计算资源成本,同时也降低了对设备的要求;
(3)由于金融数据集中往往会包含大量图片和表格数据,且其中的信息通常也较为重要,因此,本发明还针对开源金融数据集中的图片注释信息进行了清洗,此外,通过提示工程结合生成模型,实现对表格数据的修复,使得最终得到的金融数据集无冗余、无乱码且准确多样。
附图说明
图1是本发明实施例提供的适用于金融大模型的文本数据预处理方法的流程图。
图2是本发明实施例提供的采用基于JioNLP的时间解析工具抽取时间标签的流程图。
图3是本发明实施例提供的对金融数据集执行小批量聚类的流程图。
图4是本发明实施例提供的删除冗余文本数据并更新次数标签的流程图。
图5是本发明实施例提供的适用于金融大模型的文本数据预处理系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,实施例提供了一种适用于金融大模型的文本数据预处理方法,包括以下步骤:
S110,对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息。
多渠道收集信息构建开源金融数据集,由于金融领域的特殊性,开源金融数据集中往往会包含大量的图表,且图表中包含的数据通常也较为重要,因此,通过OCR算法从开源金融数据集的图表中提取文本信息,与原有文本一起,得到文本形式的金融数据集D。
由于金融数据集D中的冗余数据主要是来自对同一事件的多次转发或不同报道,即时间上存在差别,因此,本发明为金融数据集D中的每个样本x添加次数标签Ne和时间标签t。其中,次数标签Ne用于表示该样本在金融数据集D中的出现次数,本实施例中,每个样本的次数标签初始化为1。时间标签t用于表示该样本的发布时间。
关于时间标签的提取,本实施例具体采用基于JioNLP的时间解析工具抽取每一个样本中的时间信息。JioNLP是一个用于中文NLP预处理的工具包,其中包含一系列用于文本清洗、分词、词性标注等中文文本处理功能的算法和模型。本实施例中,待抽取的时间信息包括时间点和时间范围两类,如图2所示,抽取过程为:
(1)利用基于JioNLP的时间解析工具抽取样本中的时间点,并将抽取到的时间点对应的最晚时间以ISO 8601格式返回,记为第一时间信息;
(2)利用基于JioNLP的时间解析工具抽取样本中的时间范围,从时间范围内选取最晚时间并以ISO 8601格式返回,记为第二时间信息;
(3)以第一时间信息和第二时间信息中较晚的时间作为样本的时间标签;
(4)若样本中既没有时间点,也不包含时间范围,则返回一个标号,该标号用于表示此样本中没有时间信息,本实施例采用-1表示。
根据抽取得到的时间信息,在对应样本上添加时间标签t,于是金融数据集可以表示为D=[x1, x2, …,xi, …],其中,,xi表示金融数据集中第i个样本。
以样本“某行发布公告,2023年7月3日金融统计数据报告,6月末贷款余额a万亿元,同比增长b%,二季度贷款增加c万亿元”为例,通过基于JioNLP的时间解析工具抽取到时间点[2023年7月3日]和时间范围[6月]、[二季度]。
将上述时间点和时间范围写为ISO 8601格式,分别对应[2023-07-03 00:00:00,2023-07-03 23:59:59]和[2023-06-01 00:00:00,2023-06-30 23:59:59]。从中选取最晚时间,因此该样本的第一时间信息为[2023-07-03 23:59:59],第二时间信息为[2023-06-30 23:59:59]。通过比较可以得知,该样本以第一时间信息作为时间标签,即t=[2023-07-03 23:59:59]。
S120,将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集。
本实施例中,对于S110中添加过时间标签和次数标签的金融数据集D,首先采用改进的词频-逆文档频率方法(TF-IDF,Term Frequency-Inverse Document Frequency)将样本中的文本转换为文本向量。TF-IDF是一种统计方法,用于评估一个词在一个语料库中的重要性。转换过程包括:
(1)采用TF-IDF方法对每个样本进行字段划分;
(2)统计每个样本中的各个字段在整个金融数据集中的出现频率,对于一个样本而言,根据字段的出现频率构建一个一行多列的一维向量,作为文本向量,其中的每个元素分别对应该样本中字段的出现频率。
于是,通过TF-IDF方法能够使得金融数据集中的所有样本均转换为各自的文本向量,而各个样本中文本的长度可能不一致,为了方便后续聚类,需要将所有的文本向量统一为相同维度,即样本中不存在的字段对应的出现概率为0。
至此,金融数据集D中所有的样本都转换为相同维度的文本向量,将文本向量抽象为样本点,采用聚类方法计算每个样本点之间的距离,当距离小于距离阈值时,认为对应两个样本点相似,被归类存入同一子集。可以采用的聚类方法包括K-means聚类算法和模糊C-均值聚类算法。
如图3所示,进一步的,检测每个子集中的样本数量,若样本数量超过数量阈值,则对子集进行迭代聚类,以确保每个子集中的样本数量均小于数量阈值,从而实现小批量聚类。本实施例中,具体采用小批量K-means聚类算法,将金融数据集D聚类为Nk个子集,金融数据集表示为D={d1, d2, …,di,… ,dNk},di表示第i个子集,数量阈值设置为10k。
将每个子集中的任意两个样本组成样本对,计算样本对中样本间的相似度。本实施例具体采用莱文斯坦比计算样本对的字符串相似度。对于一个样本对中的样本xi和xj,其中,/>,两者的字符串相似度用公式表示为:
,
其中,表示xi和xj的字符串相似度,sum表示两个样本的文本长度之和,idist表示类编辑距离,本实施例中表示xi和xj间的距离。
如图4所示,当字符串相似度高于相似度阈值σ时,认为样本对中两个样本的文本相同或相似,删除其中时间标签小的样本,即保留发布时间较晚的样本,因为发布时间较晚的样本往往包含更多更新的信息,能够确保最终金融数据集的多样性和完备性。
此外,将保留样本的次数标签更新为对应样本对中两个样本的次数标签之和。本实施例中,时间标签小指的是对应的时间信息早,相似度阈值σ设置为0.85。通过删除时间标签小的样本,得到不含冗余文本数据第一数据集。
对于上述利用字符串相似度进行冗余数据删除并更新次数标签的过程,采用如下三个样本为例,进行示意性说明:
样本分别为,/>,/>。
其中,
样本x1的text1为“A公司今天发布的2023年年度财务报告。报告显示,该公司在过去一年财务表现良好,盈利水平增长较大。根据报告显示,A公司的年度总收入达到e美元,较上一年增长了f%。这主要归功于公司产品线的扩展和市场份额的增长。同时,公司的净利润达到 2 亿美元,较去年同期增长了g%。有分析师指出,这一增长主要归因于公司在市场份额上的提升,以及对产品创新的投资。此外,公司通过降低成本和提高效率进一步增强了公司的利润能力。”
样本x2的text2为“近期,A公司今天发布了去年年度财务报告。最新的财务报告显示,该公司在过去一年取得了显著的财务表现,盈利大幅增长。根据报告显示,A公司的年度总收入达到e美元,较上一年增长了f%。这主要归功于公司产品线的扩展和市场份额的增长。同时,公司的净利润达到 2 亿美元,较去年同期增长了g%。分析师认为,这一增长主要归因于公司在市场份额上的提升,以及对产品研发的大量投资。此外,公司采取了有效的成本管理措施,进一步增强了盈利水平。”
样本x3的text3为“B公司今天发布的年度财务报告显示,在过去一年面临了盈利下降的挑战。根据报告显示,B公司的年度总收入为h美元,较上一年略微下降了 m%。而最引人关注的是,公司的净利润下降了显著。去年,公司的净利润为n美元,但在2023年,净利润降至p,下降了q%。分析人士指出,这一净利润下降主要是由于市场竞争加剧、原材料价格上涨以及营销成本增加等因素所致。尽管公司在产品创新和市场拓展方面取得了一些进展,但仍然面临着诸多挑战。”
计算样本1和样本3的相似度,小于相似度阈值σ=0.85,认为样本1和样本3相似程度较低,直接返回x1和x3。当计算样本1和样本2的相似度:,大于等于相似度阈值σ,则通过比较样本1和样本2的时间标签,其中,样本1的时间标签为t1=2023-02-23 00:00:00,样本2的时间标签为t2= 2023-02-20 00:00:00,比较两者的时间标签后发现样本2的时间更早,那么删除x2,返回。
S130,将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头。
在第一数据集中找到图片注释信息,由于较短的图片注释信息中通常不会包含重要信息,且可能是由于编码错误导致长度较短,因此,将长度小于长度阈值的图片注释信息删除。
删除并清洗样本中遗留的图片注释信息:使用文档段落切分算法将第一数据集中每个样本切分成若干子串,遍历每个子串,若子串开头为字符图和数字的组合形式,且子串的长度小于等于长度阈值,则删除子串。本实施例的长度阈值选用,文档段落切分算法采用换行符。删除较短的图片注释信息后,得到第二数据集。
S140,遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
找到第二数据集中的表格表达字段,针对包含错误的表格表达字段进行修复,将正确修复或不含错误的子串整合为最终的金融数据集。清洗样本中的表格表达字段具体过程为:
使用双换行符将第二数据集切分成若干子串,遍历每个子串,若子串中字符出现的频率超过表格阈值或出现字符子串/>或数值字符占比超过数值阈值,且该字符子串的长度超过表格长度阈值,则判定该子串为表格的表达字段。其中,字符/>表示用于构建表格的垂直线,\begin{tabular}表示latex提供的表格环境,本实施例表格阈值需要超过0.2,选取0.2~0.6较佳,具体取0.2,数值阈值可以选取0.2~0.3,具体取0.3,表格长度阈值可以选取40~50,具体取50。
找到表格表达字段后,使用md或latex解析工具判定是否包含错误,这里的错误是指采用OCR从表格中提取文本信息时,可能带来的冗余、乱码或遗漏问题。
针对冗余问题,需要删除冗余数据。针对遗漏问题,本发明提出采用提示工程读取遗漏位置的上下文信息,得到提示词,将提示词输入生成模型,生成符合上下文信息的修复文本,与遗漏的上下文信息进行整合,实现修复。针对乱码问题,需要先删除乱码,再结合提示工程与生成模型生成补充文本,将补充文本填补到乱码位置,完成修复。
修复完成后,需要返回修复后的子串,再次使用md和latex表格解析工具判定是否正确修复,将不含错误或正确修复的子串保留,作为最终的金融数据集。
到此为止,本发明通过小批量聚类并计算字符串相似度删除了冗余的文本数据,通过检测图片注释信息并删除无用的图片注释信息,此外,还结合提示工程和生成模型对表格表达字段进行修复,得到的金融数据集中不含冗余数据,且图表中包含的金融数据也能够确保清晰准确,将这样高质量的金融数据集输入大模型用于训练金融大模型,能够保证大模型的训练质量,得到准确性高且鲁棒性好的金融大模型。
基于同样的发明构思,本发明实施例还提供了一种适用于金融大模型的文本数据预处理系统500,如图5所示,包括金融数据库构建单元510、数据去重单元520、图片注释清洗单元530、表格字段修复单元540;
其中,金融数据库构建单元510用于对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;
数据去重单元520用于将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集;
图片注释清洗单元530用于将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头;
表格字段修复单元540用于遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
对于本发明实施例提供的适用于金融大模型的文本数据预处理系统而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
基于同样的发明构思,实施例还提供了一种适用于金融大模型的文本数据预处理设备,包括存储器和处理器,其中,存储器用于存储计算机程序,处理器用于当执行所述计算机程序时,实现上述适用于金融大模型的文本数据预处理方法。
本发明实施例提出的适用于金融大模型的文本数据预处理设备可以为诸如计算机等设备。设备实施例能够通过软件实现,也能够通过硬件或者软硬件结合的方式实现。以软件实现为例,是通过其所在任意具备数据处理能力的设备的处理器,将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。除了处理器、内存、网络接口、以及非易失性存储器之外,本发明实施例提供的适用于金融大模型的文本数据预处理设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
基于同样的发明构思,实施例还提供了一种计算机可读的存储介质,存储介质上存储有计算机程序,计算机程序使用计算机时,实现上述适用于金融大模型的文本数据预处理方法。
所述计算机可读的存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。进一步的,所述计算机可读的存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读的存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述实施例提供的适用于金融大模型的文本数据预处理系统、适用于金融大模型的文本数据预处理设备和计算机可读的存储介质,均与适用于金融大模型的文本数据预处理方法实施例属于同一构思,其具体实现过程详见适用于金融大模型的文本数据预处理方法实施例,这里不再赘述。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种适用于金融大模型的文本数据预处理方法,其特征在于,包括以下步骤:
步骤1:对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;
步骤2:将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集;
步骤3:将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头;
步骤4:遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
2.根据权利要求1所述的适用于金融大模型的文本数据预处理方法,其特征在于,步骤1中,从样本中抽取时间信息,包括:
所述时间信息包括时间点和时间范围;
采用基于JioNLP的时间解析工具从样本中抽取时间点,并将抽取到的时间点对应的最晚时间记为第一时间信息;
采用基于JioNLP的时间解析工具从样本中抽取时间范围,从时间范围内选取最晚时间记为第二时间信息;
以第一时间信息和第二时间信息中较晚的时间作为样本的时间标签;
时间标签大对应时间信息相对晚,时间标签小对应时间信息相对早。
3.根据权利要求1所述的适用于金融大模型的文本数据预处理方法,其特征在于,步骤2中,所述将样本转换为文本向量,包括:
对每个样本进行字段划分;
统计样本中的字段在整个金融数据集中的出现概率,根据样本中每个字段的出现概率,将样本表示为文本向量,文本向量中的元素为对应字段的出现概率。
4.根据权利要求3所述的适用于金融大模型的文本数据预处理方法,其特征在于,步骤2中,所述对文本向量进行小批量聚类,得到多个子集,具体为:
根据每个样本对应的文本向量,将样本抽象为样本点;
计算样本点间的距离并将距离小于距离阈值的样本点聚类为一个子集;
统计子集中的样本数量,当样本数量超过数量阈值时,对子集内部的样本点进行迭代聚类,直到所有子集中的样本数量均不超过数量阈值为止。
5.根据权利要求4所述的适用于金融大模型的文本数据预处理方法,其特征在于,步骤2中,采用莱文斯坦比计算样本对的相似度,具体为:通过计算样本对中样本点内文本长度之和sum与样本点间距离idist的差值,利用差值与样本点内文本长度之和sum的比值作为样本对中两样本的相似度。
6.根据权利要求1所述的适用于金融大模型的文本数据预处理方法,其特征在于,步骤4中,所述采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,包括:
错误包括冗余、乱码或遗漏;
修复冗余时,删除冗余数据;
修复乱码时,首先删除乱码,接着通过提示工程获取乱码的上下文信息,得到提示语,将提示语输入预训练的生成模型,根据提示语中的上下文信息,生成补充文本填补到乱码的位置,完成修复;
修复遗漏时,将提示工程的提示语输入生成模型得到修复文本,与遗漏的上下文信息进行整合,完成修复。
7.一种适用于金融大模型的文本数据预处理系统,其特征在于,包括金融数据库构建单元、数据去重单元、图片注释清洗单元、表格字段修复单元;
所述金融数据库构建单元用于对金融数据集中的样本添加次数标签和时间标签,其中,时间标签为从样本中抽取的时间信息;
所述数据去重单元用于将样本转换为文本向量,对文本向量进行小批量聚类,得到多个子集,子集中每两个样本组成样本对,计算样本对的相似度,当相似度高于阈值时,删除样本对中时间标签小的样本,时间标签大的样本的次数标签更新为对应样本对次数标签之和,保留的所有样本构成第一数据集;
所述图片注释清洗单元用于将第一数据集中的所有样本切分为多个子串,遍历找到包含图片注释信息且长度小于长度阈值的子串并删除,得到第二数据集,所述图片注释信息是指以图和数字的组合为开头;
所述表格字段修复单元用于遍历第二数据集找到包含表格表达字段的子串并检测错误,采用提示工程解析错误的上下文,得到提示语,生成模型根据提示语对错误进行修复,将不含错误或正确修复的子串作为最终的金融数据集,所述表格表达字段为垂直线的出现频率超过表格阈值或存在表格环境或数值字符在样本中占比超过数值阈值,且对应子串的长度超过表格长度阈值。
8.一种适用于金融大模型的文本数据预处理设备,包括存储器和处理器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于当执行所述计算机程序时,实现权利要求1-6任一项所述的适用于金融大模型的文本数据预处理方法。
9.一种计算机可读的存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序使用计算机时,实现权利要求1-6任一项所述的适用于金融大模型的文本数据预处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410627083.0A CN118211131B (zh) | 2024-05-21 | 2024-05-21 | 一种适用于金融大模型的文本数据预处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410627083.0A CN118211131B (zh) | 2024-05-21 | 2024-05-21 | 一种适用于金融大模型的文本数据预处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118211131A true CN118211131A (zh) | 2024-06-18 |
CN118211131B CN118211131B (zh) | 2024-07-30 |
Family
ID=91452646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410627083.0A Active CN118211131B (zh) | 2024-05-21 | 2024-05-21 | 一种适用于金融大模型的文本数据预处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118211131B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN113342928A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 |
KR20210119041A (ko) * | 2020-03-24 | 2021-10-05 | 경북대학교 산학협력단 | 군집 기반 중복문서 제거 장치 및 제거 방법 |
CN113987111A (zh) * | 2021-11-24 | 2022-01-28 | 辽宁大学 | 面向金融领域事件抽取的篇章级长文本数据预处理方法及系统 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
CN117764074A (zh) * | 2023-07-25 | 2024-03-26 | 山东大学 | 一种舆情信息的冗余信息去除方法 |
-
2024
- 2024-05-21 CN CN202410627083.0A patent/CN118211131B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
KR20210119041A (ko) * | 2020-03-24 | 2021-10-05 | 경북대학교 산학협력단 | 군집 기반 중복문서 제거 장치 및 제거 방법 |
CN113342928A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 |
CN113987111A (zh) * | 2021-11-24 | 2022-01-28 | 辽宁大学 | 面向金融领域事件抽取的篇章级长文本数据预处理方法及系统 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
CN117764074A (zh) * | 2023-07-25 | 2024-03-26 | 山东大学 | 一种舆情信息的冗余信息去除方法 |
Non-Patent Citations (2)
Title |
---|
SUBHRANSU DASH ET AL.: "PCTS: Partition based Clustering for Text Summarization", 《2023 INTERNATIONAL CONFERENCE IN ADVANCES IN POWER, SIGNAL, AND INFORMATION TECHNOLOGY》, 9 August 2023 (2023-08-09), pages 60 - 65 * |
赵文洁: "基于深度学习的金融文本分类方法研究", 《中国优秀硕士学位论文全文数据库》, 15 January 2023 (2023-01-15), pages 1 - 82 * |
Also Published As
Publication number | Publication date |
---|---|
CN118211131B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111899090B (zh) | 企业关联风险预警方法及系统 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN116628173A (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN112307303A (zh) | 基于云计算的网络页面高效精准去重系统 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN112925901A (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
CN111753514B (zh) | 一种专利申请文本的自动生成方法和装置 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116150361A (zh) | 一种财务报表附注的事件抽取方法、系统及存储介质 | |
CN115422371A (zh) | 一种基于软件测试知识图谱的检索方法 | |
CN117391075A (zh) | 一种基于BERT-BiLSTM-CRF模型的配网故障设备实体识别方法 | |
CN113158659B (zh) | 一种基于司法文本的涉案财物计算方法 | |
CN117874206A (zh) | 基于大模型的高效数据资产的自然语言识别加中文分词的查询方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN118211131B (zh) | 一种适用于金融大模型的文本数据预处理方法及系统 | |
CN116975738A (zh) | 一种面向问句意图识别的多项式朴素贝叶斯分类方法 | |
CN117009516A (zh) | 换流站故障策略模型训练方法、推送方法及装置 | |
CN113792545B (zh) | 一种基于深度学习的新闻事件活动名称抽取方法 | |
CN114048321B (zh) | 一种多粒度文本纠错数据集生成方法、装置及设备 | |
CN113761900A (zh) | 基于自然语言处理的非结构化交易信息识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |