CN115146730A - 一种基于bert模型的账单分类方法及装置 - Google Patents

一种基于bert模型的账单分类方法及装置 Download PDF

Info

Publication number
CN115146730A
CN115146730A CN202210824670.XA CN202210824670A CN115146730A CN 115146730 A CN115146730 A CN 115146730A CN 202210824670 A CN202210824670 A CN 202210824670A CN 115146730 A CN115146730 A CN 115146730A
Authority
CN
China
Prior art keywords
bill
text
classification
data
bert model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210824670.XA
Other languages
English (en)
Inventor
刘靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202210824670.XA priority Critical patent/CN115146730A/zh
Publication of CN115146730A publication Critical patent/CN115146730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于BERT模型的账单分类方法及装置,对应的方法包括:接收来自于多个用户的账单数据;根据BERT模型对所述账单数据进行预处理;根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;根据所述文本特征对所述来自于多个用户的账单数据进行分类。本发明通过进行账单名目分析分类,结合BERT预训练模型与FPnet特征投影网络模型,提取文本共性特征,并使用特征投影方式进行特征提纯,获取强分类特征,完成分类效果的提升使用智能识别算法识别账单中具有特定分类特征的文字,并对其分类。

Description

一种基于BERT模型的账单分类方法及装置
技术领域
本申请属于大数据技术领域,具体涉及一种基于BERT模型的账单分类方法及装置。
背景技术
个人用户的银行的账单多为各大手机银行内部账单,多用于手机应用内部的账单分类明细,导致用户账目收集不完整,无法做到全覆盖。
发明内容
本发明可用于大数据在金融方面应用的技术领域,也可用于除金融领域之外的任意领域,本发明所提供的基于BERT模型的账单分类方法及装置,通过进行账单名目分析分类,结合BERT预训练模型与FPnet特征投影网络模型,提取文本共性特征,并使用特征投影方式进行特征提纯,获取强分类特征,完成分类效果的提升使用智能识别算法识别账单中具有特定分类特征的文字,并对其分类。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于BERT模型的账单分类方法包括:
接收来自于多个用户的账单数据;
根据BERT模型对所述账单数据进行预处理;
根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
根据所述文本特征对所述来自于多个用户的账单数据进行分类。
一实施例中,所述根据BERT模型对所述账单数据进行预处理包括:
将所述账单数据转化成具有文本格式的账单文本;
在所述账单文本前插入cls符号;
根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
一实施例中,所述根据BERT模型对所述账单数据进行预处理还包括:
根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
一实施例中,所述根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征,包括:
利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
根据所述共性特征确定所述文本特征。
一实施例中,基于BERT模型的账单分类方法还包括:
利用特征投影方法对所述文本特征进行提纯操作。
第二方面,本发明提供一种基于BERT模型的账单分类装置,该装置包括:
账单数据接收模块,用于接收来自于多个用户的账单数据;
账单数据预处理模块,用于根据BERT模型对所述账单数据进行预处理;
文本特征提取模块,用于根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
账单数据分类模块,用于根据所述文本特征对所述来自于多个用户的账单数据进行分类。
一实施例中,所述账单数据预处理模块包括:
格式转化单元,用于将所述账单数据转化成具有文本格式的账单文本;
符号插入单元,用于在所述账单文本前插入cls符号;
语义数据生成单元,用于根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
一实施例中,所述账单数据预处理模块还包括:
字符转化单元,用于根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
一实施例中,所述文本特征提取模块包括:
二次特征提取单元,用于利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
特征确定单元,用于根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
文本特征确定单元,用于根据所述共性特征确定所述文本特征。
一实施例中,基于BERT模型的账单分类装置还包括:
文本特征提纯模块,用于利用特征投影方法对所述文本特征进行提纯操作。
第三方面,本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现一种基于BERT模型的账单分类方法的步骤。
第四方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现一种基于BERT模型的账单分类方法的步骤。
第五方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种基于BERT模型的账单分类方法的步骤。
从上述描述可知,本发明实施例提供一种基于BERT模型的账单分类方法及装置,对应的方法包括:首先接收来自于多个用户的账单数据;接着,根据BERT模型对账单数据进行预处理;根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;最后根据文本特征对来自于多个用户的账单数据进行分类。针对现有技术中,账单数据分类多为基础记账应用平台,不同银行内部的账目无法集中记录,缺少智能分类功能的情况,本发明在各大银行帐目体系可导出的前提下,支持账目分类及用户修改分类,提供了可进行用户阶段性账户分析并给予理财或财务管理办法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例所提供的基于BERT模型的账单分类方法的流程示意图一;
图2为本发明的实施例中步骤200的流程示意图一;
图3为本发明的实施例中步骤200的流程示意图二;
图4为本发明的实施例中步骤300的流程示意图;
图5为本发明的实施例所提供的基于BERT模型的账单分类方法的流程示意图二;
图6为本发明的具体实施方式中基于BERT模型的账单分类方法的流程示意图;
图7为本发明的具体实施方式中FPnet神经网络结构示意图;
图8发明的实施例所提供的基于BERT模型的账单分类装置的方块图一;
图9为本发明的实施例中理财产品推送模块20的方块图一;
图10为本发明的实施例中理财产品推送模块20的方块图二;
图11为本发明的实施例中文本特征提取模块30的方块图;
图12发明的实施例所提供的基于BERT模型的账单分类装置的方块图二;
图13为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
基于上述技术痛点,本发明的实施例提供一种基于BERT模型的账单分类方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:接收来自于多个用户的账单数据;
可以理解的是,这里的用户为多个银行,即步骤100为接收来自于多个银行的某一用户的账单数据。需要说明的是,这里需要申请各银行平台账单导出权限,涉及用户隐私,数据加密及数据存储要求高。
步骤200:根据BERT模型对所述账单数据进行预处理;
可以理解的是,BERT模型(Bidirectional Encoder Representation fromTransformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(masked language model),以致能生成深度的双向语言表征。具体地,利用BERT模型对步骤100中的账单数据进行预训练。
步骤300:根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
FPnet特征投影网络模型是一种强化文本分类效果的神经网络结构。可利用梯度反转网络来实现,使用梯度反向层(Gradient Reversl Layer,GRL)提取多个类的共性特征。主要重点在于使用双网络进行不同的任务,两个神经网络所提取的特征不同,通过特征投影的方式,强化主网络的分类特征,从而提升文本分类效果。FPnet可以与现有的LSTM、CNN、Tranformer、BERT神经网络进行融合,在与不同的神经网络相结合时候,只需要将FPnet结构中的神经网络P和神经网络C特征提取器换成LSTM、CNN、Tranformer、BERT即可。
步骤400:根据所述文本特征对所述来自于多个用户的账单数据进行分类。
从上述描述可知,本发明实施例提供一种基于BERT模型的账单分类方法包括:首先接收来自于多个用户的账单数据;接着,根据BERT模型对账单数据进行预处理;根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;最后根据文本特征对来自于多个用户的账单数据进行分类。本发明提供一种基于多家银行支持账单导出分类的账目装置,可将不同体系银行及线上支付平台账目导出并自动分类,实现用户的一键记账,便捷剩时。
一实施例中,参见图2,步骤200包括:
步骤201:将所述账单数据转化成具有文本格式的账单文本;
步骤202:在所述账单文本前插入cls符号;
步骤203:根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
在步骤202以及步骤203中,首先将账单文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整条账单的语义表示(用于文本分类)。
一实施例中,参见图3,基步骤200还包括:
步骤204:根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
一实施例中,参见图4,步骤300包括:
步骤301:利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
步骤302:根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
在步骤301以及步骤302中,BERT模型输出的最后一层的[CLS]位置向量带有全局语义信息,提取[CLS]特征放入MLP二次特征提取共性特征C-net与原始特征P-net,获取分类任务中所有类的共性特征。如下式:
ECLS=BERT(ids)[-1][0]
Ep=BERTp(ids)
Ec=BERTc(ids)
f=tanh(f·W1+b1)
f=f·W2+b2
步骤303:根据所述共性特征确定所述文本特征。
一实施例中,参见图5,基于BERT模型的账单分类方法还包括:
步骤500:利用特征投影方法对所述文本特征进行提纯操作。
使用特征投影方式进行特征提纯,获取强分类特征,完成分类效果的提升使用智能识别算法识别账单中具有特定分类特征的文字,并对其分类;另外对于不可识别账目自动识别为统一分类,可供用户多次修改分类。
更为具体地的实施方式包括:利用GRL中梯度反转共性特征C-net,并通过特征投影方法进行二次投影,将特征向量投影到共性特征向量上,提纯只包含分类语义的特征向量。
在一种具体实施方式中,本发明还提供一种基于BERT模型的账单分类方法的具体实施方式,参见图6,具体包括以下内容。
术语解释:
BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(masked language model),以致能生成深度的双向语言表征。
MLP是一种前向结构的人工神经网路,每一层中可包含许多各自独立的神经元,这些位于同一层的神经元彼此之间并没有任何连接,但对位于上下两层的每一个神经元,都有相对的连接。也就是下层的每一个神经元,对上层的每一个神经元,都会学习到一个权重值,来表达上下两层神经元连接的强度。
FPnet是一种强化文本分类效果的神经网络结构。参见图7,其主要利用梯度反转网络来实现,使用梯度反向层(GradientReverslLayer,GRL)提取多个类的共性特征。主要重点在于使用双网络进行不同的任务,两个神经网络所提取的特征不同,通过特征投影的方式,强化主网络的分类特征,从而提升文本分类效果。FPnet可以与现有的LSTM、CNN、Tranformer、BERT神经网络进行融合,在与不同的神经网络相结合时候,只需要将FPnet结构中的神经网络P和神经网络C特征提取器换成LSTM、CNN、Tranformer、BERT即可。
GRL--梯度反向层(Gradient Reversl Layer)
OPL--正交投影层(Original Projection Layer)
C-net--共性特征学习网络(Common feature learning network)
P-net--特征投影网络(Projection network)
在本发明具体应用实例中,需要与各大银行平台协商开通前后端账单通道,支持不同银行资金消费记录详情导出。编写BERT-FPnet模型算法Phthon文件,针对不同模型算法比较分类效果,针对消费账目内容进行分析分类,支持将导出账单分类。编写系统前端H5页面、后端JAVA文件,支持实现前后端分离管理。编写账单分类分析算法,支持根据账单变化分析阶段性支出,并给予建议。
S1:收集账单数据。
具体地,需要跳转至各大银行账单导出页面,接收银行账单数据存储至数据库。
S2:将账单文本进行BERT特征处理。
具体地,将数据库中账单文本进行BERT的特征处理:将账单文本前插入一个[CLS]符号,(并将该符号对应的输出向量作为整条账单的语义表示,用于文本分类),然后根据BERT字典将文本中的字符转化为对应的id,完成BERT模型的初始数据预处理。参见下式:
token=['[cls]',...,'人','工','智','能',...];
ids=[101,...,782,2339,3255,5543,...];
S3:获取分类任务中所有类的共性特征。
具体地,BERT模型输出的最后一层的[CLS]位置向量带有全局语义信息,提取[CLS]特征放入MLP二次特征提取共性特征C-net与原始特征P-net,获取分类任务中所有类的共性特征。如下式:
ECLS=BERT(ids)[-1][0]
Ep=BERTp(ids)
Ec=BERTc(ids)
f=tanh(f·W1+b1)
f=f·W2+b2
S4:利用特征投影方法对所述文本特征进行提纯操作。
GRL中梯度反转共性特征C-net,并通过特征投影方法进行二次投影,将特征向量投影到共性特征向量上,提纯只包含分类语义的特征向量。GRL处理如下式,其中λ值为GRL梯度反转超参数。梯度反转层在正向传播时对特征fc不做修改,在反向传播时传递了-λ使得整个C-net网络的损失函数LOSS求反:
Figure BDA0003745968290000081
Figure BDA0003745968290000082
特征投影是将特征向量投影到共性特征向量上,特征投影公式如下式1,通过特征投影公式,将提取特征在共性特征上进行二次投影。第一次投影是将原始特征在共fp *=P(fp,fc)
Figure BDA0003745968290000083
性特征上进行投影,从而使fp*向量中只包含公共语义信息。而第二次投影得到提纯后的特征向量,只包含分类语义信息。
S5:将共性特征学习网络C-net和特征投影网络P-net的输出使用Softmax归一化激活函数,特征投影网络P-net输出的最终结果为预测的输出。
Figure BDA0003745968290000091
Figure BDA0003745968290000092
最后,调用智能文字分析算法进行账单数据分类将分类标识存入数据库系统,并允许多次修改。对于用户可选择阶段性分析功能,系统将用户选择的阶段性数据继续进行分析,提出资金规划方案,包括理财产品或下阶段自己可规划预案。
另外,还增加了账单一键分类,优化文本分类中静态词向量模型的一词多义问题,增加银行账单的阶段性账单分析及银行类产品推荐。
从上述描述可知,本发明实施例提供一种基于BERT模型的账单分类方法包括:首先接收来自于多个用户的账单数据;接着,根据BERT模型对账单数据进行预处理;根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;最后根据文本特征对来自于多个用户的账单数据进行分类。本发明通过授权将不同体系账单导出,分类并接入本发明后台数据库系统。系统中进行账单名目分析分类,结合BERT预训练模型与FPnet特征投影网络模型,提取文本共性特征,并使用特征投影方式进行特征提纯,获取强分类特征,完成分类效果的提升使用智能识别算法识别账单中具有特定分类特征的文字,并对其分类;对于不可识别账目自动识别为统一分类,可供用户多次修改分类。本系统可支持账单数据分析,时间跨度可选择。
接着,基于用户类别,从推荐池选择同类型优质客群产生的推荐内容,结合用户关注度生成实时且精准的理财内容,既包括理财买入建议,也包括理财卖出建议。抛弃以收益率进行推荐的产品侧逻辑,改为关注度进行推荐客户侧逻辑。
基于同一发明构思,本申请实施例还提供了一种基于BERT模型的账单分类装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于一种基于BERT模型的账单分类装置解决问题的原理与一种基于BERT模型的账单分类方法相似,因此一种基于BERT模型的账单分类装置的实施可以参见一种基于BERT模型的账单分类方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现基于BERT模型的账单分类方法的基于BERT模型的账单分类装置的具体实施方式,参见图8,一种基于BERT模型的账单分类装置具体包括如下内容:
账单数据接收模块10,用于接收来自于多个用户的账单数据;
账单数据预处理模块20,用于根据BERT模型对所述账单数据进行预处理;
文本特征提取模块30,用于根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
账单数据分类模块40,用于根据所述文本特征对所述来自于多个用户的账单数据进行分类。
一实施例中,参见图9,所述账单数据预处理模块20包括:
格式转化单元201,用于将所述账单数据转化成具有文本格式的账单文本;
符号插入单元202,用于在所述账单文本前插入cls符号;
语义数据生成单元203,用于根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
一实施例中,参见图10,所述账单数据预处理模块20还包括:
字符转化单元204,用于根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
一实施例中,参见图11,所述文本特征提取模块30包括:
二次特征提取单元301,用于利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
特征确定单元302,用于根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
文本特征确定单元303,用于根据所述共性特征确定所述文本特征。
一实施例中,参见图12,基于BERT模型的账单分类装置还包括:
文本特征提纯模块50,用于利用特征投影方法对所述文本特征进行提纯操作。
从上述描述可知,本发明实施例提供一种基于BERT模型的账单分类包括:首先接收来自于多个用户的账单数据;接着,根据BERT模型对账单数据进行预处理;根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;最后根据文本特征对来自于多个用户的账单数据进行分类。本发明通过授权将不同体系账单导出,分类并接入本发明后台数据库系统。系统中进行账单名目分析分类,结合BERT预训练模型与FPnet特征投影网络模型,提取文本共性特征,并使用特征投影方式进行特征提纯,获取强分类特征,完成分类效果的提升使用智能识别算法识别账单中具有特定分类特征的文字,并对其分类;对于不可识别账目自动识别为统一分类,可供用户多次修改分类。本系统可支持账单数据分析,时间跨度可选择。
本申请的实施例还提供能够实现上述实施例中的一种基于BERT模型的账单分类方法中全部步骤的一种电子设备的具体实施方式,参见图13,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输;
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的一种基于BERT模型的账单分类方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:根据理财收益对理财用户进行分类,以生成第一分类结果;
步骤200:根据所述理财用户的人口学特征以及金融学特征对所述理财用户进行分类,以生成第二分类结果;
步骤300:在所述第二分类结果中,将所述第一分类结果中的第一理财用户所对应的理财产品推送至第二理财用户。
本申请的实施例还提供能够实现上述实施例中的一种基于BERT模型的账单分类方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的一种基于BERT模型的账单分类方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:根据理财收益对理财用户进行分类,以生成第一分类结果;
步骤200:根据所述理财用户的人口学特征以及金融学特征对所述理财用户进行分类,以生成第二分类结果;
步骤300:在所述第二分类结果中,将所述第一分类结果中的第一理财用户所对应的理财产品推送至第二理财用户。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (13)

1.一种基于BERT模型的账单分类方法,其特征在于,包括:
接收来自于多个用户的账单数据;
根据BERT模型对所述账单数据进行预处理;
根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
根据所述文本特征对所述来自于多个用户的账单数据进行分类。
2.如权利要求1所述的基于BERT模型的账单分类方法,其特征在于,所述根据BERT模型对所述账单数据进行预处理包括:
将所述账单数据转化成具有文本格式的账单文本;
在所述账单文本前插入cls符号;
根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
3.如权利要求2所述的基于BERT模型的账单分类方法,其特征在于,所述根据BERT模型对所述账单数据进行预处理还包括:
根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
4.如权利要求3所述的基于BERT模型的账单分类方法,其特征在于,所述根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征,包括:
利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
根据所述共性特征确定所述文本特征。
5.如权利要求1所述的基于BERT模型的账单分类方法,其特征在于,还包括:
利用特征投影方法对所述文本特征进行提纯操作。
6.一种基于BERT模型的账单分类装置,其特征在于,包括:
账单数据接收模块,用于接收来自于多个用户的账单数据;
账单数据预处理模块,用于根据BERT模型对所述账单数据进行预处理;
文本特征提取模块,用于根据FPnet特征投影网络模型提取预处理之后的账单数据的文本特征;
账单数据分类模块,用于根据所述文本特征对所述来自于多个用户的账单数据进行分类。
7.如权利要求6所述的基于BERT模型的账单分类装置,其特征在于,所述账单数据预处理模块包括:
格式转化单元,用于将所述账单数据转化成具有文本格式的账单文本;
符合插入单元,用于在所述账单文本前插入cls符号;
语义数据生成单元,用于根据所述cls符号所对应的输出向量生成所述账单数据的语义表示数据。
8.如权利要求7所述的基于BERT模型的账单分类装置,其特征在于,所述账单数据预处理模块还包括:
字符转化单元,用于根据BERT字典将所述账单文本中的cls字符转化为对应的ID。
9.如权利要求8所述的基于BERT模型的账单分类装置,其特征在于,所述文本特征提取模块包括:
二次特征提取单元,用于利用所述FPnet特征投影网络模型对所述语义表示数据进行二次特征提取,以确定共性特征C-net以及原始特征P-net;
特征确定单元,用于根据所述共性特征C-net以及原始特征P-net确定所述账单数据的共性特征;
文本特征确定单元,用于根据所述共性特征确定所述文本特征。
10.如权利要求6所述的基于BERT模型的账单分类装置,其特征在于,还包括:
文本特征提纯模块,用于利用特征投影方法对所述文本特征进行提纯操作。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至5任一项所述一种基于BERT模型的账单分类方法的步骤。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述一种基于BERT模型的账单分类方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述一种基于BERT模型的账单分类方法的步骤。
CN202210824670.XA 2022-07-14 2022-07-14 一种基于bert模型的账单分类方法及装置 Pending CN115146730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210824670.XA CN115146730A (zh) 2022-07-14 2022-07-14 一种基于bert模型的账单分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210824670.XA CN115146730A (zh) 2022-07-14 2022-07-14 一种基于bert模型的账单分类方法及装置

Publications (1)

Publication Number Publication Date
CN115146730A true CN115146730A (zh) 2022-10-04

Family

ID=83412803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210824670.XA Pending CN115146730A (zh) 2022-07-14 2022-07-14 一种基于bert模型的账单分类方法及装置

Country Status (1)

Country Link
CN (1) CN115146730A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Similar Documents

Publication Publication Date Title
CN110377759B (zh) 事件关系图谱构建方法及装置
CN108089843B (zh) 一种智能化的银行企业级需求管理系统
CN109919685B (zh) 客户流失预测方法、装置、设备及计算机可读存储介质
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN108959246A (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN107967261A (zh) 智能客服中交互式问句语义理解方法
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN112989761B (zh) 文本分类方法及装置
CN111159375A (zh) 一种文本处理方法及装置
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN116680386A (zh) 基于多轮对话的答案预测方法和装置、设备、存储介质
CN115146730A (zh) 一种基于bert模型的账单分类方法及装置
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN117034019B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN112329735B (zh) 人脸识别模型的训练方法及在线教育系统
CN114610871B (zh) 基于人工智能算法的情报系统建模分析方法
CN110413757A (zh) 一种词语释义确定方法、装置及系统
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN111046934B (zh) 一种swift报文软条款识别方法及装置
JP2022082525A (ja) 機械学習基盤情報の提供方法および装置
CN114116975A (zh) 一种多意图识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination