CN116720944B

CN116720944B - 银行流水打标方法及装置

Info

Publication number: CN116720944B
Application number: CN202311001172.6A
Authority: CN
Inventors: 刘军杰; 康科; 樊雨
Original assignee: Mountain View Intelligent Beijing Technology Co ltd
Current assignee: Mountain View Intelligent Beijing Technology Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-12-19
Anticipated expiration: 2043-08-10
Also published as: CN116720944A

Abstract

本发明公开了一种银行流水打标方法及装置，该方法包括：从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；根据匹配结果，选择对应的打标模型对新的银行流水进行打标。本发明可以提高银行流水打标的精度。

Description

银行流水打标方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种银行流水打标方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

银行交易流水订单指发生交易时产生的订单，如进行柜台取现、ATM取现存款、基金理财购买、手机支付等交易时产生的订单。每一笔交易都会涉及到两方：交易方（一般是行方客户）和交易对手方。银行交易流水订单保存有交易双方的交易信息，包括账号信息、交易对手双方的名称、交易附言等信息。如客户去超市使用手机支付买了一瓶饮料，则客户是交易方，超市是交易对手方，饮料是商品信息，手机支付是交易方式。理想情况是知道交易方、交易对手方和商品的信息，如交易方和交易对手方都是行方的客户。将这些流水订单进行分类，以标识资金用途和类别，供后续基于客户维度的面向营销或者风险等专题的分析使用。

目前对银行流水进行标注的方案包括文本分类机器学习方法，例如基于sklearn实现的垃圾邮件分类算法，包括朴素贝叶斯、SVM、逻辑回归、RF、XGBoost、LightGBM等。但是一般进行标注时采用上述单一的算法，分类精度有待提高。

发明内容

本发明实施例提供一种银行流水打标方法，用以提高银行流水打标的精度，该方法包括：

从历史银行流水中挖掘实体词；

通过分类模型为新挖掘的实体词打上标签，并加入实体词库；

在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；

根据匹配结果，选择对应的打标模型对新的银行流水进行打标。

本发明实施例还提供一种银行流水打标装置，用以提高银行流水打标的精度，该装置包括：

实体词挖掘模块，用于从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；

实体词匹配模块，用于在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；

打标模块，用于根据匹配结果，选择对应的打标模型对新的银行流水进行打标。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述银行流水打标方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述银行流水打标方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述银行流水打标方法。

本发明实施例中，从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；根据匹配结果，选择对应的打标模型对新的银行流水进行打标。与现有技术中相比，本发明实施例先通过分类模型挖掘实体词；这样在得到新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，选择与匹配结果对应的打标模型对新的银行流水进行打标，实现了更精确的打标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中银行流水打标方法的流程图；

图2为本发明实施例中采用挖掘模型从历史银行流水中挖掘实体词的流程图；

图3为本发明实施例中根据所述文本数据和挖掘模型获得实体词的流程图；

图4为本发明实施例中PhraseMining模型挖掘实体词的流程图；

图5为本发明实施例中Word2vec模型挖掘实体词的流程图；

图6为本发明实施例中银行流水打标方法的又一流程图；

图7为本发明实施例中对新的银行流水进行打标的流程图；

图8为本发明实施例中训练LightGBM模型的流程图；

图9为本发明实施例中银行流水打标装置的示意图；

图10为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

发明人发现，目前本文分类算法的步骤一般为：

（1）读取文本数据，包括训练集、测试集、验证集，如果数据质量不高考虑先清洗一下数据，对数据简单进行了大小写转换、去标签、去停用词等数据清洗工作。

（2）创建词典，使用词袋矩阵以及TF-IDF 矩阵对语料中的词进行统计，方便后续提取特征。

（3）特征提取，通过对特征进行编码（向量化）

针对上述步骤（3），常用句向量表示方法如下：

（1）基于频次的词袋模型：对文本分词后，使用每个词的频次进行向量化表示。

（2）TF-IDF：与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

（3）句向量（预训练向量求平均）：对模型训练好的每个词的词向量（word2vec等）直接求平均。

（4）句向量（加权平均）：使用TF-IDF作为权重，乘以词向量。

（5）句向量（SIF加权平均）：对句子中的每个词向量，乘以一个权重 a/(a+p_w)，其中 a 是一个常数(原文取 0.0001)，p_w 为该词的词频;对于出现频率越高的词，其权重越小；计算句向量矩阵的第一个主成分 u，让每个句向量减去它在 u (单位向量)上的矢投影。

（6）句向量（skip-thought）：使用神经网络中的encoder-decoder进行训练。类似skip-gram算法，skip-thought利用中心句子来预测上下文的句子。

（7）句向量（quick-thoughts）：对skip-thought的改进算法，将decoder部分换成了分类器。

（8）句向量（Bert）：使用训练好的Bert训练好的权重，输出每句话的向量。

但是上述步骤得到的分类精度有待提高，为了进一步提高银行流水打标的精度，本发明实施例使用实体词库扩充挖掘实体词，将银行流水细分到数百个标签；设计了Lightgbm和Word2vec等挖掘模型，模型准确度达到97%，并且对于亿级的流水半小时内能完成打标分类，实现标注自动化，标识资金用途和类别，供后续基于客户维度的面向营销或者风险等专题的分析和使用。

下面进行详细介绍。

图1为本发明实施例中银行流水打标方法的流程图，包括：

步骤101，从历史银行流水中挖掘实体词；

步骤102，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；

步骤103，在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；

步骤104，根据匹配结果，选择对应的打标模型对新的银行流水进行打标。

本发明实施例先通过分类模型挖掘实体词，并为该实体词添加实体词；这样在得到新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，选择与匹配结果对应的打标模型对新的银行流水进行打标，实现了更精确的打标。

在步骤101，从历史银行流水中挖掘实体词；

每月新的银行流水中可能存在新的实体词（新开张的店铺、新的流行词等），而通过人工从每月几百万条流水文本中发掘新实体词是不现实的。因此，在一实施例中，从历史银行流水中挖掘实体词，包括：

采用挖掘模型，从历史银行流水中挖掘实体词。

参见图2，在一实施例中，采用挖掘模型，从历史银行流水中挖掘实体词，包括：

步骤201，收集预设时段内的历史银行流水；一般情况下，是至少6个月的历史银行流水；

步骤202，对每个历史银行流水，提取预设文本类型的字段，所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合；

步骤203，分别对预设文本类型的字段进行去重并进行预处理，获得文本数据；预处理包括去除无关的标点符号、停用词、数字等杂乱信息等，只保留有意义的词语、短语和句子；

步骤204，根据所述文本数据和挖掘模型，获得实体词。

参见图3，在一实施例中，根据所述文本数据和挖掘模型，获得实体词，包括：

步骤301，根据所述文本数据和挖掘模型，获得候选实体词；

步骤302，对所述候选实体词进行后处理；后处理包括去除长度过长、重复、无意义词组等，核验近义词质量；

步骤303，对后处理后的实体词进行核验；

步骤304，将通过核验的实体词作为挖掘的实体词。

具体实施时，所述挖掘模型为PhraseMining模型或word2vec模型。

PhraseMining模型使用实体词库作为远程监督，从银行流水中挖掘新的实体词，本质即使用PhraseMining（通过远程监督挖掘高质量短语的方法）从银行流水中找出高质量的实体词。

对于PhraseMining模型，该PhraseMining模型可以使用无标签的数据，并辅助使用一些高质量的实体词，来获取候选实体词。

图4为本发明实施例中PhraseMining模型挖掘实体词的流程图，在一实施例中，根据所述文本数据和挖掘模型，获得候选实体词，包括：

步骤401，使用Python构建PhraseMining模型；

步骤402，将所述文本数据输入至PhraseMining模型，获得候选实体词。

Word2vec模型使用流水数据中的文本数据训练词向量，然后使用词向量计算词与词之间的相似度，并根据词之间的相似度来寻找近义词，同时对这些近义词进行核验，从而达到增广实体词库的目的。

图5为本发明实施例中Word2vec模型挖掘实体词的流程图，在一实施例中，根据所述文本数据和挖掘模型，获得候选实体词，包括：

步骤501，使用分词技术库对文本数据进行中文分词，获得分词数据；

步骤502，使用word2vec算法构建Word2vec模型；

步骤503，使用所述分词数据和Word2vec模型，训练词向量；

步骤504，利用训练好的词向量，计算词与词之间的相似度；例如，利用余弦相似度计算相似度；

步骤505，根据所述相似度，找出实体词库中词的近义词，作为候选实体词。

参见图6，在通过分类模型为新挖掘的实体词打上标签之后，还包括：

步骤601，接收人工对新挖掘的实体词的标签的审核结果；

步骤602，在审核结果为打标正确时，将打标正确的实体词加入实体词库中。

用这种方法人工只需要核验少量打上标签的新实体词，大大降低新实体词挖掘的成本。

在步骤103，在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；

在步骤104，根据匹配结果，选择对应的打标模型对新的银行流水进行打标。

参加图7，根据匹配结果，选择对应的打标模型对新的银行流水进行打标，包括：

步骤701，在匹配结果为实体库中存在一个实体词时，采用规则模型对新的银行流水进行打标，所述规则模型包括不同银行流水类型对应的打标规则；

步骤702，在匹配结果为实体库中存在多个实体词时，采用打标模型对新的银行流水进行打标，所述打标模型为通过对历史银行流水进行训练后获得的；

步骤703，在匹配结果为实体库中无实体词时，采用预设规则为新的银行流水进行打标。

具体实施时，在银行流水的结构为支付机构A-商户B时，实体词为商户B，采用规则模型打标得到的标签为饮品，规则模型中用到的打标规则为“只匹配上一个实体词，则按此实体词的标签进行打标”。

具体实施时，在银行流水为商户B（火车站店）时，实体词为商户B、火车，那么采用打标模型打标得到的标签为饮品。

具体实施时，一般匹配结果均存在实体词，以保证每条数据都能打上标签。若不存在时，采用预设规则为新的银行流水进行打标，例如，当实体词为“网上快捷支付”时，打上的标签为“其他消费”；当摘要为“转账”时，打上的标签为“其他转账”。

一般而言，这些打上“其他”类型标签的数据比较少。当这些打“其他”的数据多了之后，就需要迭代挖掘、更新实体词库了。

在一实施例中，所述打标模型为LightGBM模型。

参见图8，采用如下步骤训练LightGBM模型：

步骤801，获得历史银行流水；

步骤802，从历史银行流水中，筛选出打标成多标签的银行流水；包括使用现有实体词，对银行交易流水数据打标；多实体词样本打标结果核验，筛选匹配上多个实体词的样本，并核验打标结果是否正确，如不正确，则纠正；

步骤803，采用随机采样的方式，从筛选出的银行流水中获得采样银行流水；

步骤804，将采样银行流水分为训练集和验证集；

步骤805，对采样银行流水进行特征衍生；包括根据匹配上的实体词个数，种类，实体词的标签等进行特征衍生；

步骤806，构建LightGBM模型；

步骤807，采用训练集和衍生的特征训练LightGBM模型；

步骤808，采用验证集验证LightGBM模型，若模型效果未达到预设条件（例如F1指标>95%），重复执行以上步骤，直至模型效果达到预设条件，输出训练好的LightGBM模型。

在一实施例中，所述在采用预设规则为新的银行流水进行打标之后，还包括：

获取新的历史银行流水，重新训练LightGBM模型。

综上所述，在本发明实施例提出的方法中，从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；根据匹配结果，选择对应的打标模型对新的银行流水进行打标。与现有技术中相比，本发明实施例先通过分类模型挖掘实体词；这样在得到新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，选择与匹配结果对应的打标模型对新的银行流水进行打标，实现了更精确的打标。

本发明实施例中还提供了一种银行流水打标装置，如下面的实施例所述。由于该装置解决问题的原理与银行流水打标方法相似，因此该装置的实施可以参见银行流水打标方法的实施，重复之处不再赘述。

图9为本发明实施例中银行流水打标装置的示意图，包括：

实体词挖掘模块901，用于从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；

实体词匹配模块902，用于在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；

打标模块903，用于根据匹配结果，选择对应的打标模型对新的银行流水进行打标。

在一实施例中，从历史银行流水中挖掘实体词，包括：

采用挖掘模型，从历史银行流水中挖掘实体词。

在一实施例中，实体词挖掘模块具体用于：

收集预设时段内的历史银行流水；

对每个历史银行流水，提取预设文本类型的字段，所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合；

分别对预设文本类型的字段进行去重并进行预处理，获得文本数据；

根据所述文本数据和挖掘模型，获得实体词。

在一实施例中，实体词挖掘模块具体用于：

根据所述文本数据和挖掘模型，获得候选实体词；

对所述候选实体词进行后处理；

对后处理后的实体词进行核验；

将通过核验的实体词作为挖掘的实体词。

在一实施例中，实体词挖掘模块具体用于：

使用Python构建PhraseMining模型；

将所述文本数据输入至PhraseMining模型，获得候选实体词。

在一实施例中，实体词挖掘模块具体用于：

使用分词技术库对文本数据进行中文分词，获得分词数据；

使用word2vec算法构建Word2vec模型；

使用所述分词数据和Word2vec模型，训练词向量；

利用训练好的词向量，计算词与词之间的相似度；

根据所述相似度，找出实体词库中词的近义词，作为候选实体词。

在一实施例中，实体词挖掘模块具体用于：

在通过分类模型为新挖掘的实体词打上标签之后，接收人工对新挖掘的实体词的标签的审核结果；

在审核结果为打标正确时，将打标正确的实体词加入实体词库中。

在一实施例中，打标模块具体用于：

在匹配结果为实体库中存在一个实体词时，采用规则模型对新的银行流水进行打标，所述规则模型包括不同银行流水类型对应的打标规则；

在匹配结果为实体库中存在多个实体词时，采用打标模型对新的银行流水进行打标，所述打标模型为通过对历史银行流水进行训练后获得的；

在匹配结果为实体库中无实体词时，采用预设规则为新的银行流水进行打标。

在一实施例中，所述打标模型为LightGBM模型。

在一实施例中，打标模块具体用于：

采用如下步骤训练LightGBM模型：

获得历史银行流水；

从历史银行流水中，筛选出打标成多标签的银行流水；

采用随机采样的方式，从筛选出的银行流水中获得采样银行流水；

将采样银行流水分为训练集和验证集；

对采样银行流水进行特征衍生；

构建LightGBM模型；

采用训练集和衍生的特征训练LightGBM模型；

采用验证集验证LightGBM模型，若模型效果未达到预设条件，重复执行以上步骤，直至模型效果达到预设条件，输出训练好的LightGBM模型。

在一实施例中，打标模块具体用于：

在采用预设规则为新的银行流水进行打标之后，获取新的历史银行流水，重新训练LightGBM模型。

综上所述，在本发明实施例提出的装置中，从历史银行流水中挖掘实体词，通过分类模型为新挖掘的实体词打上标签，并加入实体词库；在获得新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，获得匹配结果；根据匹配结果，选择对应的打标模型对新的银行流水进行打标。与现有技术中相比，本发明实施例先通过分类模型挖掘实体词；这样在得到新的银行流水后，基于新的银行流水的实体词与实体库中实体词匹配，选择与匹配结果对应的打标模型对新的银行流水进行打标，实现了更精确的打标。

本发明实施例还提供一种计算机设备，图10为本发明实施例中计算机设备的示意图，所述计算机设备1000包括存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序1030，所述处理器1020执行所述计算机程序1030时实现上述银行流水打标方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种银行流水打标方法，其特征在于，包括：

从历史银行流水中挖掘实体词；

根据匹配结果，选择对应的打标模型对新的银行流水进行打标；

根据匹配结果，选择对应的打标模型对新的银行流水进行打标，包括：在匹配结果为实体库中存在一个实体词时，采用规则模型对新的银行流水进行打标，所述规则模型包括不同银行流水类型对应的打标规则；在匹配结果为实体库中存在多个实体词时，采用打标模型对新的银行流水进行打标，所述打标模型为通过对历史银行流水进行训练后获得的；在匹配结果为实体库中无实体词时，采用预设规则为新的银行流水进行打标；

所述打标模型为LightGBM模型；采用如下步骤训练LightGBM模型：获得历史银行流水；从历史银行流水中，筛选出打标成多标签的银行流水；采用随机采样的方式，从筛选出的银行流水中获得采样银行流水；将采样银行流水分为训练集和验证集；对采样银行流水进行特征衍生；构建LightGBM模型；采用训练集和衍生的特征训练LightGBM模型；采用验证集验证LightGBM模型，若模型效果未达到预设条件，重复执行以上步骤，直至模型效果达到预设条件，输出训练好的LightGBM模型。

2.如权利要求1所述的方法，其特征在于，从历史银行流水中挖掘实体词，包括：

收集预设时段内的历史银行流水；

根据所述文本数据和挖掘模型，获得实体词。

3.如权利要求2所述的方法，其特征在于，根据所述文本数据和挖掘模型，获得实体词，包括：

根据所述文本数据和挖掘模型，获得候选实体词；

对所述候选实体词进行后处理；

对后处理后的实体词进行核验；

将通过核验的实体词作为挖掘的实体词。

4.如权利要求3所述的方法，其特征在于，根据所述文本数据和挖掘模型，获得候选实体词，包括：

使用Python构建PhraseMining模型；

将所述文本数据输入至PhraseMining模型，获得候选实体词。

5.如权利要求3所述的方法，其特征在于，根据所述文本数据和挖掘模型，获得候选实体词，包括：

使用分词技术库对文本数据进行中文分词，获得分词数据；

使用word2vec算法构建Word2vec模型；

使用所述分词数据和Word2vec模型，训练词向量；

利用训练好的词向量，计算词与词之间的相似度；

6.如权利要求1所述的方法，其特征在于，在通过分类模型为新挖掘的实体词打上标签之后，还包括：

接收人工对新挖掘的实体词的标签的审核结果；

7.一种银行流水打标装置，其特征在于，包括：

打标模块，用于根据匹配结果，选择对应的打标模型对新的银行流水进行打标；

实体词匹配模块具体用于：在匹配结果为实体库中存在一个实体词时，采用规则模型对新的银行流水进行打标，所述规则模型包括不同银行流水类型对应的打标规则；在匹配结果为实体库中存在多个实体词时，采用打标模型对新的银行流水进行打标，所述打标模型为通过对历史银行流水进行训练后获得的；在匹配结果为实体库中无实体词时，采用预设规则为新的银行流水进行打标；

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。