CN116720944B - 银行流水打标方法及装置 - Google Patents
银行流水打标方法及装置 Download PDFInfo
- Publication number
- CN116720944B CN116720944B CN202311001172.6A CN202311001172A CN116720944B CN 116720944 B CN116720944 B CN 116720944B CN 202311001172 A CN202311001172 A CN 202311001172A CN 116720944 B CN116720944 B CN 116720944B
- Authority
- CN
- China
- Prior art keywords
- model
- entity
- bank
- marking
- entity words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 238000005065 mining Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012550 audit Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 235000013361 beverage Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种银行流水打标方法及装置,该方法包括:从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。本发明可以提高银行流水打标的精度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种银行流水打标方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
银行交易流水订单指发生交易时产生的订单,如进行柜台取现、ATM取现存款、基金理财购买、手机支付等交易时产生的订单。每一笔交易都会涉及到两方:交易方(一般是行方客户)和交易对手方。银行交易流水订单保存有交易双方的交易信息,包括账号信息、交易对手双方的名称、交易附言等信息。如客户去超市使用手机支付买了一瓶饮料,则客户是交易方,超市是交易对手方,饮料是商品信息,手机支付是交易方式。理想情况是知道交易方、交易对手方和商品的信息,如交易方和交易对手方都是行方的客户。将这些流水订单进行分类,以标识资金用途和类别,供后续基于客户维度的面向营销或者风险等专题的分析使用。
目前对银行流水进行标注的方案包括文本分类机器学习方法,例如基于sklearn实现的垃圾邮件分类算法,包括朴素贝叶斯、SVM、逻辑回归、RF、XGBoost、LightGBM等。但是一般进行标注时采用上述单一的算法,分类精度有待提高。
发明内容
本发明实施例提供一种银行流水打标方法,用以提高银行流水打标的精度,该方法包括:
从历史银行流水中挖掘实体词;
通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
本发明实施例还提供一种银行流水打标装置,用以提高银行流水打标的精度,该装置包括:
实体词挖掘模块,用于从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
实体词匹配模块,用于在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
打标模块,用于根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行流水打标方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
本发明实施例中,从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。与现有技术中相比,本发明实施例先通过分类模型挖掘实体词;这样在得到新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,选择与匹配结果对应的打标模型对新的银行流水进行打标,实现了更精确的打标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中银行流水打标方法的流程图;
图2为本发明实施例中采用挖掘模型从历史银行流水中挖掘实体词的流程图;
图3为本发明实施例中根据所述文本数据和挖掘模型获得实体词的流程图;
图4为本发明实施例中PhraseMining模型挖掘实体词的流程图;
图5为本发明实施例中Word2vec模型挖掘实体词的流程图;
图6为本发明实施例中银行流水打标方法的又一流程图;
图7为本发明实施例中对新的银行流水进行打标的流程图;
图8为本发明实施例中训练LightGBM模型的流程图;
图9为本发明实施例中银行流水打标装置的示意图;
图10为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
发明人发现,目前本文分类算法的步骤一般为:
(1)读取文本数据,包括训练集、测试集、验证集,如果数据质量不高考虑先清洗一下数据,对数据简单进行了大小写转换、去标签、去停用词等数据清洗工作。
(2)创建词典,使用词袋矩阵以及TF-IDF 矩阵对语料中的词进行统计,方便后续提取特征。
(3)特征提取,通过对特征进行编码(向量化)
针对上述步骤(3),常用句向量表示方法如下:
(1)基于频次的词袋模型:对文本分词后,使用每个词的频次进行向量化表示。
(2)TF-IDF:与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
(3)句向量(预训练向量求平均):对模型训练好的每个词的词向量(word2vec等)直接求平均。
(4)句向量(加权平均):使用TF-IDF作为权重,乘以词向量。
(5)句向量(SIF加权平均):对句子中的每个词向量,乘以一个权重 a/(a+p_w),其中 a 是一个常数(原文 取 0.0001),p_w 为该词的词频;对于出现频率越高的词,其权重越小;计算句向量矩阵的第一个主成分 u,让每个句向量减去它在 u (单位向量)上 的矢投影。
(6)句向量(skip-thought):使用神经网络中的encoder-decoder进行训练。类似skip-gram算法,skip-thought利用中心句子来预测上下文的句子。
(7)句向量(quick-thoughts):对skip-thought的改进算法,将decoder部分换成了分类器。
(8)句向量(Bert):使用训练好的Bert训练好的权重,输出每句话的向量。
但是上述步骤得到的分类精度有待提高,为了进一步提高银行流水打标的精度,本发明实施例使用实体词库扩充挖掘实体词,将银行流水细分到数百个标签;设计了Lightgbm和Word2vec等挖掘模型,模型准确度达到97%,并且对于亿级的流水半小时内能完成打标分类,实现标注自动化,标识资金用途和类别,供后续基于客户维度的面向营销或者风险等专题的分析和使用。
下面进行详细介绍。
图1为本发明实施例中银行流水打标方法的流程图,包括:
步骤101,从历史银行流水中挖掘实体词;
步骤102,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
步骤103,在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
步骤104,根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
本发明实施例先通过分类模型挖掘实体词,并为该实体词添加实体词;这样在得到新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,选择与匹配结果对应的打标模型对新的银行流水进行打标,实现了更精确的打标。
在步骤101,从历史银行流水中挖掘实体词;
每月新的银行流水中可能存在新的实体词(新开张的店铺、新的流行词等),而通过人工从每月几百万条流水文本中发掘新实体词是不现实的。因此,在一实施例中,从历史银行流水中挖掘实体词,包括:
采用挖掘模型,从历史银行流水中挖掘实体词。
参见图2,在一实施例中,采用挖掘模型,从历史银行流水中挖掘实体词,包括:
步骤201,收集预设时段内的历史银行流水;一般情况下,是至少6个月的历史银行流水;
步骤202,对每个历史银行流水,提取预设文本类型的字段,所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合;
步骤203,分别对预设文本类型的字段进行去重并进行预处理,获得文本数据;预处理包括去除无关的标点符号、停用词、数字等杂乱信息等,只保留有意义的词语、短语和句子;
步骤204,根据所述文本数据和挖掘模型,获得实体词。
参见图3,在一实施例中,根据所述文本数据和挖掘模型,获得实体词,包括:
步骤301,根据所述文本数据和挖掘模型,获得候选实体词;
步骤302,对所述候选实体词进行后处理;后处理包括去除长度过长、重复、无意义词组等,核验近义词质量;
步骤303,对后处理后的实体词进行核验;
步骤304,将通过核验的实体词作为挖掘的实体词。
具体实施时,所述挖掘模型为PhraseMining模型或word2vec模型。
PhraseMining模型使用实体词库作为远程监督,从银行流水中挖掘新的实体词,本质即使用PhraseMining(通过远程监督挖掘高质量短语的方法)从银行流水中找出高质量的实体词。
对于PhraseMining模型,该PhraseMining模型可以使用无标签的数据,并辅助使用一些高质量的实体词,来获取候选实体词。
图4为本发明实施例中PhraseMining模型挖掘实体词的流程图,在一实施例中,根据所述文本数据和挖掘模型,获得候选实体词,包括:
步骤401,使用Python构建PhraseMining模型;
步骤402,将所述文本数据输入至PhraseMining模型,获得候选实体词。
Word2vec模型使用流水数据中的文本数据训练词向量,然后使用词向量计算词与词之间的相似度,并根据词之间的相似度来寻找近义词,同时对这些近义词进行核验,从而达到增广实体词库的目的。
图5为本发明实施例中Word2vec模型挖掘实体词的流程图,在一实施例中,根据所述文本数据和挖掘模型,获得候选实体词,包括:
步骤501,使用分词技术库对文本数据进行中文分词,获得分词数据;
步骤502,使用word2vec算法构建Word2vec模型;
步骤503,使用所述分词数据和Word2vec模型,训练词向量;
步骤504,利用训练好的词向量,计算词与词之间的相似度;例如,利用余弦相似度计算相似度;
步骤505,根据所述相似度,找出实体词库中词的近义词,作为候选实体词。
参见图6,在通过分类模型为新挖掘的实体词打上标签之后,还包括:
步骤601,接收人工对新挖掘的实体词的标签的审核结果;
步骤602,在审核结果为打标正确时,将打标正确的实体词加入实体词库中。
用这种方法人工只需要核验少量打上标签的新实体词,大大降低新实体词挖掘的成本。
在步骤103,在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
在步骤104,根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
参加图7,根据匹配结果,选择对应的打标模型对新的银行流水进行打标,包括:
步骤701,在匹配结果为实体库中存在一个实体词时,采用规则模型对新的银行流水进行打标,所述规则模型包括不同银行流水类型对应的打标规则;
步骤702,在匹配结果为实体库中存在多个实体词时,采用打标模型对新的银行流水进行打标,所述打标模型为通过对历史银行流水进行训练后获得的;
步骤703,在匹配结果为实体库中无实体词时,采用预设规则为新的银行流水进行打标。
具体实施时,在银行流水的结构为支付机构A-商户B时,实体词为商户B,采用规则模型打标得到的标签为饮品,规则模型中用到的打标规则为“只匹配上一个实体词,则按此实体词的标签进行打标”。
具体实施时,在银行流水为商户B(火车站店)时,实体词为商户B、火车,那么采用打标模型打标得到的标签为饮品。
具体实施时,一般匹配结果均存在实体词,以保证每条数据都能打上标签。若不存在时,采用预设规则为新的银行流水进行打标,例如,当实体词为“网上快捷支付”时,打上的标签为“其他消费”;当摘要为“转账”时,打上的标签为“其他转账”。
一般而言,这些打上“其他”类型标签的数据比较少。当这些打“其他”的数据多了之后,就需要迭代挖掘、更新实体词库了。
在一实施例中,所述打标模型为LightGBM模型。
参见图8,采用如下步骤训练LightGBM模型:
步骤801,获得历史银行流水;
步骤802,从历史银行流水中,筛选出打标成多标签的银行流水;包括使用现有实体词,对银行交易流水数据打标;多实体词样本打标结果核验,筛选匹配上多个实体词的样本,并核验打标结果是否正确,如不正确,则纠正;
步骤803,采用随机采样的方式,从筛选出的银行流水中获得采样银行流水;
步骤804,将采样银行流水分为训练集和验证集;
步骤805,对采样银行流水进行特征衍生;包括根据匹配上的实体词个数,种类,实体词的标签等进行特征衍生;
步骤806,构建LightGBM模型;
步骤807,采用训练集和衍生的特征训练LightGBM模型;
步骤808,采用验证集验证LightGBM模型,若模型效果未达到预设条件(例如F1指标>95%),重复执行以上步骤,直至模型效果达到预设条件,输出训练好的LightGBM模型。
在一实施例中,所述在采用预设规则为新的银行流水进行打标之后,还包括:
获取新的历史银行流水,重新训练LightGBM模型。
综上所述,在本发明实施例提出的方法中,从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。与现有技术中相比,本发明实施例先通过分类模型挖掘实体词;这样在得到新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,选择与匹配结果对应的打标模型对新的银行流水进行打标,实现了更精确的打标。
本发明实施例中还提供了一种银行流水打标装置,如下面的实施例所述。由于该装置解决问题的原理与银行流水打标方法相似,因此该装置的实施可以参见银行流水打标方法的实施,重复之处不再赘述。
图9为本发明实施例中银行流水打标装置的示意图,包括:
实体词挖掘模块901,用于从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
实体词匹配模块902,用于在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
打标模块903,用于根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
在一实施例中,从历史银行流水中挖掘实体词,包括:
采用挖掘模型,从历史银行流水中挖掘实体词。
在一实施例中,实体词挖掘模块具体用于:
收集预设时段内的历史银行流水;
对每个历史银行流水,提取预设文本类型的字段,所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合;
分别对预设文本类型的字段进行去重并进行预处理,获得文本数据;
根据所述文本数据和挖掘模型,获得实体词。
在一实施例中,实体词挖掘模块具体用于:
根据所述文本数据和挖掘模型,获得候选实体词;
对所述候选实体词进行后处理;
对后处理后的实体词进行核验;
将通过核验的实体词作为挖掘的实体词。
在一实施例中,实体词挖掘模块具体用于:
使用Python构建PhraseMining模型;
将所述文本数据输入至PhraseMining模型,获得候选实体词。
在一实施例中,实体词挖掘模块具体用于:
使用分词技术库对文本数据进行中文分词,获得分词数据;
使用word2vec算法构建Word2vec模型;
使用所述分词数据和Word2vec模型,训练词向量;
利用训练好的词向量,计算词与词之间的相似度;
根据所述相似度,找出实体词库中词的近义词,作为候选实体词。
在一实施例中,实体词挖掘模块具体用于:
在通过分类模型为新挖掘的实体词打上标签之后,接收人工对新挖掘的实体词的标签的审核结果;
在审核结果为打标正确时,将打标正确的实体词加入实体词库中。
在一实施例中,打标模块具体用于:
在匹配结果为实体库中存在一个实体词时,采用规则模型对新的银行流水进行打标,所述规则模型包括不同银行流水类型对应的打标规则;
在匹配结果为实体库中存在多个实体词时,采用打标模型对新的银行流水进行打标,所述打标模型为通过对历史银行流水进行训练后获得的;
在匹配结果为实体库中无实体词时,采用预设规则为新的银行流水进行打标。
在一实施例中,所述打标模型为LightGBM模型。
在一实施例中,打标模块具体用于:
采用如下步骤训练LightGBM模型:
获得历史银行流水;
从历史银行流水中,筛选出打标成多标签的银行流水;
采用随机采样的方式,从筛选出的银行流水中获得采样银行流水;
将采样银行流水分为训练集和验证集;
对采样银行流水进行特征衍生;
构建LightGBM模型;
采用训练集和衍生的特征训练LightGBM模型;
采用验证集验证LightGBM模型,若模型效果未达到预设条件,重复执行以上步骤,直至模型效果达到预设条件,输出训练好的LightGBM模型。
在一实施例中,打标模块具体用于:
在采用预设规则为新的银行流水进行打标之后,获取新的历史银行流水,重新训练LightGBM模型。
综上所述,在本发明实施例提出的装置中,从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。与现有技术中相比,本发明实施例先通过分类模型挖掘实体词;这样在得到新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,选择与匹配结果对应的打标模型对新的银行流水进行打标,实现了更精确的打标。
本发明实施例还提供一种计算机设备,图10为本发明实施例中计算机设备的示意图,所述计算机设备1000包括存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序1030,所述处理器1020执行所述计算机程序1030时实现上述银行流水打标方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种银行流水打标方法,其特征在于,包括:
从历史银行流水中挖掘实体词;
通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
根据匹配结果,选择对应的打标模型对新的银行流水进行打标;
根据匹配结果,选择对应的打标模型对新的银行流水进行打标,包括:在匹配结果为实体库中存在一个实体词时,采用规则模型对新的银行流水进行打标,所述规则模型包括不同银行流水类型对应的打标规则;在匹配结果为实体库中存在多个实体词时,采用打标模型对新的银行流水进行打标,所述打标模型为通过对历史银行流水进行训练后获得的;在匹配结果为实体库中无实体词时,采用预设规则为新的银行流水进行打标;
所述打标模型为LightGBM模型;采用如下步骤训练LightGBM模型:获得历史银行流水;从历史银行流水中,筛选出打标成多标签的银行流水;采用随机采样的方式,从筛选出的银行流水中获得采样银行流水;将采样银行流水分为训练集和验证集;对采样银行流水进行特征衍生;构建LightGBM模型;采用训练集和衍生的特征训练LightGBM模型;采用验证集验证LightGBM模型,若模型效果未达到预设条件,重复执行以上步骤,直至模型效果达到预设条件,输出训练好的LightGBM模型。
2.如权利要求1所述的方法,其特征在于,从历史银行流水中挖掘实体词,包括:
收集预设时段内的历史银行流水;
对每个历史银行流水,提取预设文本类型的字段,所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合;
分别对预设文本类型的字段进行去重并进行预处理,获得文本数据;
根据所述文本数据和挖掘模型,获得实体词。
3.如权利要求2所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得实体词,包括:
根据所述文本数据和挖掘模型,获得候选实体词;
对所述候选实体词进行后处理;
对后处理后的实体词进行核验;
将通过核验的实体词作为挖掘的实体词。
4.如权利要求3所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得候选实体词,包括:
使用Python构建PhraseMining模型;
将所述文本数据输入至PhraseMining模型,获得候选实体词。
5.如权利要求3所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得候选实体词,包括:
使用分词技术库对文本数据进行中文分词,获得分词数据;
使用word2vec算法构建Word2vec模型;
使用所述分词数据和Word2vec模型,训练词向量;
利用训练好的词向量,计算词与词之间的相似度;
根据所述相似度,找出实体词库中词的近义词,作为候选实体词。
6.如权利要求1所述的方法,其特征在于,在通过分类模型为新挖掘的实体词打上标签之后,还包括:
接收人工对新挖掘的实体词的标签的审核结果;
在审核结果为打标正确时,将打标正确的实体词加入实体词库中。
7.一种银行流水打标装置,其特征在于,包括:
实体词挖掘模块,用于从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;
实体词匹配模块,用于在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;
打标模块,用于根据匹配结果,选择对应的打标模型对新的银行流水进行打标;
实体词匹配模块具体用于:在匹配结果为实体库中存在一个实体词时,采用规则模型对新的银行流水进行打标,所述规则模型包括不同银行流水类型对应的打标规则;在匹配结果为实体库中存在多个实体词时,采用打标模型对新的银行流水进行打标,所述打标模型为通过对历史银行流水进行训练后获得的;在匹配结果为实体库中无实体词时,采用预设规则为新的银行流水进行打标;
所述打标模型为LightGBM模型;采用如下步骤训练LightGBM模型:获得历史银行流水;从历史银行流水中,筛选出打标成多标签的银行流水;采用随机采样的方式,从筛选出的银行流水中获得采样银行流水;将采样银行流水分为训练集和验证集;对采样银行流水进行特征衍生;构建LightGBM模型;采用训练集和衍生的特征训练LightGBM模型;采用验证集验证LightGBM模型,若模型效果未达到预设条件,重复执行以上步骤,直至模型效果达到预设条件,输出训练好的LightGBM模型。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001172.6A CN116720944B (zh) | 2023-08-10 | 2023-08-10 | 银行流水打标方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001172.6A CN116720944B (zh) | 2023-08-10 | 2023-08-10 | 银行流水打标方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116720944A CN116720944A (zh) | 2023-09-08 |
CN116720944B true CN116720944B (zh) | 2023-12-19 |
Family
ID=87875568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311001172.6A Active CN116720944B (zh) | 2023-08-10 | 2023-08-10 | 银行流水打标方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720944B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109145153A (zh) * | 2018-07-02 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 意图类别的识别方法和装置 |
CA3036462A1 (en) * | 2018-03-23 | 2019-09-23 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
CN113449103A (zh) * | 2021-01-28 | 2021-09-28 | 民生科技有限责任公司 | 融入标签与文本交互机制的银行交易流水分类方法及系统 |
CN115114922A (zh) * | 2022-06-02 | 2022-09-27 | 支付宝(杭州)信息技术有限公司 | 实体标签确定方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436922B (zh) * | 2017-07-05 | 2021-06-08 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
-
2023
- 2023-08-10 CN CN202311001172.6A patent/CN116720944B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CA3036462A1 (en) * | 2018-03-23 | 2019-09-23 | Servicenow, Inc. | Method and system for automated intent mining, classification and disposition |
CN109145153A (zh) * | 2018-07-02 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 意图类别的识别方法和装置 |
CN113449103A (zh) * | 2021-01-28 | 2021-09-28 | 民生科技有限责任公司 | 融入标签与文本交互机制的银行交易流水分类方法及系统 |
CN115114922A (zh) * | 2022-06-02 | 2022-09-27 | 支付宝(杭州)信息技术有限公司 | 实体标签确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116720944A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN110597964B (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
US20180300608A1 (en) | Neural Networks for Information Extraction From Transaction Data | |
RU2723293C1 (ru) | Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа | |
CN106776897B (zh) | 一种用户画像标签确定方法及装置 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
US11423442B2 (en) | Method and system for predicting relevant offerings for users of data management systems using machine learning processes | |
CN111062803A (zh) | 一种金融业务查询查复方法及系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112182207A (zh) | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 | |
Wang et al. | Fake Review Identification Methods Based on Multidimensional Feature Engineering | |
CN112434862B (zh) | 上市企业财务困境预测方法及装置 | |
CN116720944B (zh) | 银行流水打标方法及装置 | |
CN116485406A (zh) | 账户的检测方法及装置、存储介质和电子设备 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN112560433B (zh) | 一种信息处理的方法及装置 | |
CN115358878A (zh) | 理财用户风险偏好等级分析方法及装置 | |
US20200257737A1 (en) | Document handling | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
Malladhi | Automating financial document processing: the role of AI-OCR and big data in accounting | |
Krieger et al. | Automated invoice processing: Machine learning-based information extraction for long tail suppliers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |