CN117540294B - 一种基于银行账户收付款信息提取及应用方法及装置 - Google Patents
一种基于银行账户收付款信息提取及应用方法及装置 Download PDFInfo
- Publication number
- CN117540294B CN117540294B CN202311367784.7A CN202311367784A CN117540294B CN 117540294 B CN117540294 B CN 117540294B CN 202311367784 A CN202311367784 A CN 202311367784A CN 117540294 B CN117540294 B CN 117540294B
- Authority
- CN
- China
- Prior art keywords
- information
- payment
- receipt
- receiving
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 78
- 230000008713 feedback mechanism Effects 0.000 claims abstract description 33
- 238000012795 verification Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 44
- 238000002372 labelling Methods 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012546 transfer Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及人工智能技术领域,揭露了一种基于银行账户收付款信息提取及应用方法及装置,包括:接收银行账户的收付款信息,将加密后的收付款信息校对项与收付款信息验证项进行校对;提取收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据关键收付款实体信息对真实收付款信息进行信息归类;对收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据信息反馈机制对信息样本进行数据标注;利用标注数据对大语言模型进行训练,并返回至提取收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。本发明可以提高银行账户收付款信息提取时的效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于银行账户收付款信息提取及应用方法及装置。
背景技术
随着数据科技和人工智能的发展,银行业正不断推进数字化转型,将传统的纸质和手工处理过程转为电子化和自动化,使得银行收付款信息更易于提取,但为了提高银行收付款信息提取时的效率和准确性,需要通过AI技术对银行账户收付款信息进行提取及分类,从而提升信息识别能力。
现有的银行账户收付款信息提取是针对不同来源的信息配置不同的提取规则,从而提取银行账户收付款信息,实际应用中,来源信息变更后必须进行相应调整,导致运维成本增加,而信息来源的真实性无法确定,需人工介入确认收付款信息的来源及内容,无法自动化完成后续应用,从而对银行账户收付款信息提取时的效率较低。
发明内容
本发明提供一种基于银行账户收付款信息提取及应用方法及装置,其主要目的在于解决进行银行账户收付款信息提取时的效率较低的问题。
为实现上述目的,本发明提供的一种基于银行账户收付款信息提取及应用方法,包括:
S1、通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项;
S2、将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中;
S3、利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息;
S4、根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,其中所述根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,包括:
S41、当所述收付款归类信息为收款类别时,根据所述收款类别中的收款属性与客户未结清账单中的缴纳费用属性进行匹配,得到匹配分值,其中匹配分值计算公式为:
其中,S为所述匹配分值,λ1为集合属性控制因子,λ2为数值属性控制因子,ωk为第k个集合属性的权重,δh为第h个数值属性的权重,Ak为收款类别中的收款属性对应的第k个集合属性值,Bk为客户未结清账单中的客户属性对应的第k个集合属性值,ah为收款类别中的收款属性对应的第h个数值属性值,bh为客户未结清账单中的客户属性对应的第h个数值属性值,n为集合属性的数量,m为数值属性的数量;
S42、选取所述匹配分值最大的未结清账单为匹配账单,根据所述收付款处理应用策略中的收款策略对所述匹配账单对应的缴纳费用进行收款处理;
S43、当所述收付款归类信息为付款类别时,生成所述付款类别对应的付款信息图表。
S5、利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
可选地,所述利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项,包括:
提取所述收付款信息中的信息属性;
逐一将所述信息属性转换为二进制信息数据;
对所述二进制信息数据进行分组,得到信息分组数据,对所述信息分组数据进行消息扩展,得到扩展消息块;
利用如下所述哈希加密算法对所述扩展消息块进行加密,得到加密消息块:
Hi=Hi―1+C(Hi―1)
其中,Hi为第i次迭代的加密消息块对应的哈希值,Hi―1为第i―1次迭代的加密消息块对应的哈希值,C为加密压缩函数;
将所述加密消息块进行数据拼接,得到收付款信息校对项。
可选地,所述将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,包括:
根据所述收付款信息校对项及所述收付款信息验证项生成信息校对矩阵;
当所述信息校对矩阵的矩阵值不为零时,将所述收付款信息确定为未知收付款信息;
当所述信息校对矩阵的矩阵值为零时,将所述收付款信息确定为真实收付款信息。
可选地,所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,包括:
利用所述大语言模型中的文本特征算法对所述真实收付款信息进行标准化处理,得到标准化收付款信息;
利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息;
通过预设关键词匹配识别所述标准化收付款信息中的第二收付款实体信息;
汇集所述第一收付款实体信息及所述第二收付款实体信息为所述关键收付款实体信息。
可选地,所述利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息,包括:
利用所述实体识别模型中的BERT提取所述标准化收付款信息的特征序列;
将所述特征序列输入至预设的双向LSTM编码器中,得到关联特征序列;
利用预设的CRF解码器计算所述关联特征序列的标签概率;
根据所述标签概率生成实体标签序列,根据所述实体标签序列识别所述第一收付款实体信息。
可选地,所述利用预设的CRF解码器计算所述关联特征序列的标签概率,包括:
根据预设的特征标签映射关系生成特征标签函数;
根据预设的特征转移关系生成特征转移函数;
利用CRF解码器中的所述特征标签函数及所述特征转移函数计算所述关联特征序列的标签概率,其中标签概率计算公式为:
其中,P(y│x)为关联特征序列中特征值x对应的标签y的标签概率,τ为归一化因子,exp为指数函数,γu为关联特征序列中第u个特征值的权重参数,γv为关联特征序列中第v个特征值的权重参数,为第u个特征值的特征标签函数,ψv(yt,yt―1)为第v个特征值的特征转移函数,yt为第t个标签,yt―1为第t―1个标签。
可选地,所述根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息,包括:
利用预训练的文本分类模型中的卷积层提取所述关联收付款实体信息的实体特征;
通过预训练的文本分类模型中的池化层对进行实体特征进行池化操作,得到实体降维特征;
通过预训练的文本分类模型中的全连接层对所述真实收付款信息进行信息归类,得到收付款归类信息。
可选地,所述对收付款处理之后的无效信息创建信息反馈机制,包括:
将所述无效信息添加至预设的无效信息列表中;
逐一将所述无效信息列表中的无效信息发送至人工进行无效标注处理;
接收人工处理后的信息反馈,将所述信息反馈中的无用信息删除;
根据所述信息反馈中的有用信息生成信息反馈机制。
可选地,所述根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,包括:
对所述信息反馈机制中的有用信息进行划分,得到正确分类信息样本及错误分类信息样本;
对所述错误分类信息样本进行数据标记,得到错误标记数据;
根据预设的标注规则对所述正确分类信息样本进行数据标注,得到正确标注数据;
汇集所述错误标记数据及所述正确标注数据为样本标准数据。
为了解决上述问题,本发明还提供一种基于银行账户收付款信息提取及应用装置,所述装置包括:
收付款信息加密模块,用于通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项;
收付款信息校对模块,用于将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中;
收付款信息归类模块,用于利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息;
数据标注模块,用于根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据;
大语言模型优化模块,用于利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
本发明实施例通过银行短信、银行账户对接等来源接入银行账户收付款信息,通过加密算法验证收付款信息的真实性和安全性,并存储到收付款信息接收队列,通过AI技术对银行账户收付款信息进行关键信息识别提取,对收付款信息进行归类,形成收付款账单处理队列,收付款账单处理队列中收款类别处理客户账单自动结清,未归类的部分通过处理反馈,进行模型训练,完善大语言模型,通过识别银行账户收付款信息应用于客户账款自动结清,可以自动化完成客户账款应用。因此本发明提出的基于银行账户收付款信息提取及应用方法及装置,可以解决进行银行账户收付款信息提取时的效率较低的问题。
附图说明
图1为本发明一实施例提供的基于银行账户收付款信息提取及应用方法的流程示意图;
图2为本发明一实施例提供的校对收付款信息的流程示意图;
图3为本发明一实施例提供的收付款信息提取及应用的流程示意图;
图4为本发明一实施例提供的基于银行账户收付款信息提取及应用装置的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于银行账户收付款信息提取及应用方法。所述基于银行账户收付款信息提取及应用方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于银行账户收付款信息提取及应用方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于银行账户收付款信息提取及应用方法的流程示意图。在本实施例中,所述基于银行账户收付款信息提取及应用方法包括:
S1、通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项。
本发明实施例中,所述信息来源包括银行短信、邮件、银行账户对接等来源接收银行账户的收付款信息,所述收付款信息包括银行账户对应的交易日期、交易金额、交易对象等,其中可通过具有数据抓取功能的计算机语句(如Java语句、Python语句等)从预先存储的存储区域获取信息来源对应的银行账户的收付款信息,其中存储区域包括但不限于数据库、区块链。
进一步地,由于银行账户的收付款信息是由多种开放性信息来源接收到的,而信息来源的真实性无法确定,则需要采用SHA256算法确定信息来源真实性,保证数据的真实性和安全性。
本发明实施例中,所述收付款信息校对项是指信息传输方通过对收付款信息中的信息编号、信息来源和接收时间进行SHA256加密之后得到的加密数据,从而将传输方的加密数据作为收付款信息校对项。
本发明实施例中,所述利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项,包括:
提取所述收付款信息中的信息属性;
逐一将所述信息属性转换为二进制信息数据;
对所述二进制信息数据进行分组,得到信息分组数据,对所述信息分组数据进行消息扩展,得到扩展消息块;
利用如下所述哈希加密算法对所述扩展消息块进行加密,得到加密消息块:
Hi=Hi―1+C(Hi―1)
其中,Hi为第i次迭代的加密消息块对应的哈希值,Hi―1为第i―1次迭代的加密消息块对应的哈希值,C为加密压缩函数;
将所述加密消息块进行数据拼接,得到收付款信息校对项。
详细地,所述信息属性包括收付款信息中的信息编号、信息来源和接收时间,其中可通过具有数据抓取功能的计算机语句(如Python语句)提取收付款信息中的信息属性,并逐一将信息属性对应的信息编号、信息来源和接收时间转换为二进制信息数据,可通过ASCLL码将信息属性转换为二进制数据,进而对二进制信息数据进行数据分组,得到信息分组数据,即SHA256将二进制信息数据分成若干个512位(64字节)的信息分组数据,并依次处理每个分组,SHA256对每个信息分组数据进行消息扩展,得到一个包含64个32位字的扩展消息块,从而SHA256会初始化一个缓冲区包含8个32位字,用于存储中间结果,初始化缓冲区结果为h1至h8,SHA256使用压缩函数对扩展消息块进行迭代压缩,每次迭代都会修改缓冲区中的值。其中SHA256是一种加密哈希函数,它是单向的,即无法从加密值反推出原始数据。因此,校对项和验证项的加密值可以用于确保数据的完整性。
具体地,通过SHA256哈希加密算法对扩展消息块进行加密,即通过压缩函数对扩展消息块进行迭代压缩,将每次处理后的信息分组数据结果与先前的哈希值进行合并,并更新内部状态,重复执行,直到所有信息分组数据都被处理完毕,最终的哈希值由内部状态的特定部分组成,SHA256在处理完所有分组后,将缓冲区中的值按照一定顺序拼接起来,得到最终的256位哈希值,其中压缩函数迭代压缩过程为S1=(h4右循环右移6位)XOR(h4右循环右移11位)XOR(h4右循环右移25位),ch=(h4与h5的按位与)XOR((h4)与h6的按位与),temp1=h7+S1+ch+K[i]+W[i],S0=(h0右循环右移2位)XOR(h0右循环右移13位)XOR(h0右循环右移22位),maj=(h0与h1的按位与)XOR(h0与h2的按位与)XOR(h1与h2的按位与),temp2=S0+maj,h7=h6,h6=h5,h5=h4,h4=h3+temp1,h3=h2,h2=h1,h1=h0,h0=temp1+temp2,则按照迭代压缩过程处理所有的信息分组数据,并将缓冲区中的值按照一定顺序拼接起来,得到最终的256位哈希值,即收付款信息校对项,其中K[i]为常量数组,表示SHA-256算法中的一系列常量,W[i]是一个消息扩展数组,表示SHA-256算法中扩展的消息块。
进一步地,将收付款信息校对项与收付款信息数据一起传输,用于验证收付款信息的信息来源的真实性和安全性,收付款信息数据成功接收后,接收方将接收数据中的信息编号、信息来源和接收时间再进行SHA256加密得到的加密值作为验证项,进而将验证项与接收得到的校对项进行校对。
S2、将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中。
本发明实施例中,所述真实收付款信息是对开放性信息来源对应的收付款信息进行真实性和安全性验证之后,具有真实性和安全性的收付款信息。
本发明实施例中,参照图2所示,所述将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,包括:
S21、根据所述收付款信息校对项及所述收付款信息验证项生成信息校对矩阵;
S22、当所述信息校对矩阵的矩阵值不为零时,将所述收付款信息确定为未知收付款信息;
S23、当所述信息校对矩阵的矩阵值为零时,将所述收付款信息确定为真实收付款信息。
详细地,所述收付款验证项接收方将接收数据中的信息编号、信息来源和接收时间再进行SHA256加密得到的加密值作为验证项,进而将验证项与接收得到的校对项进行校对,则将收付款信息校对项与收付款信息验证项进行中的哈希值一一对应,从而生成信息校对矩阵,若信息校对矩阵的矩阵值不为零时,表示收付款信息校对项与收付款信息验证项不一致,则将收付款信息确定为未知信息,则表明收付款信息的数据在传输过程中可能发生了篡改或丢失,需要进一步进行处理或重新传输数据,从而阻挡来源不明的收付款信息进入队列;若若信息校对矩阵的矩阵值为零时,表示收付款信息校对项与收付款信息验证项一致,则将所述收付款信息确定为真实收付款信息,则表明收付款信息的数据在传输过程中没有发生篡改或丢失,数据的完整性得到验证。
进一步地,将验证后的真实收付款信息存储至预设的收付款信息接收队列中,从而建立收付款信息统一接收机制,从而阻挡来源不明的收付款信息进入队列,保证收付款信息的真实性和安全性。
S3、利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息。
本发明实施例中,所述大语言模型是基于AI算法识别收付款信息,则大语言模型包括NER模型、序列标注模型及文本分类模型,可实现自动收付款信息提取;所述收付款实体信息是将收付款信息中命名实体,如收付款信息中的交易时间、交易卡号、交易户名、交易金额、对方户名、对方卡号、用途等实体信息。
本发明实施例中,所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,包括:
利用所述大语言模型中的文本特征算法对所述真实收付款信息进行标准化处理,得到标准化收付款信息;
利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息;
通过预设关键词匹配识别所述标准化收付款信息中的第二收付款实体信息;
汇集所述第一收付款实体信息及所述第二收付款实体信息为所述关键收付款实体信息。
详细地,所述文本特征算法是TF-IDF算法,则对短信文本通过TF-IDF进行标准化和分词预处理,从而得到真实收付款信息对应的标准化收付款信息,即首先将文本进行分词,将长句子切分成独立的词语或者词组,可以通过中文分词工具,如jieba等,从分词结果中去除停用词,停用词是指在文本中频繁出现但对文本主题影响较小的词汇,如“的”、“了”等,可以根据已有的停用词列表或者自定义停用词列表,去除分词结果中的特殊字符,如标点符号、数字和特殊符号等,可以对分词结果进行词形还原(Lemmatization)或词干提取(Stemming),将单词变换为它们的基本形式,以减少特征空间的维度,对预处理后的文本进行TF-IDF计算,其中,TF(词频)表示词在文档中出现的频率,IDF(逆文档频率)表示衡量词的重要性,其中会对TF和IDF进行加权计算,以提高重要词语的权重,最后对TF-IDF向量进行标准化处理,常见的标准化处理包括但不限于L2范数归一化(将向量的每个元素除以它的L2范数)和Z-score标准化(将向量的每个元素减去均值并除以标准差)等,从而得到标准化收付款信息。
进一步地,针对收付款信息中实体类型的不同,则需要依据实际实体类型的不同,通过不同的实体提取算法提取收付款信息中的实体,以提高实体提取的准确性,如对于卡号和户名等实体,通过上下文建模,即基于上下文信息,在短信中找到前后文来确定实体;对于交易类型和用途使用关键词匹配来确定实体。
本发明实施例中,所述第一收付款实体信息包括卡号和户名等实体,基于上下文信息,确定第一收付款实体信息。
本发明实施例中,所述利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息,包括:
利用所述实体识别模型中的BERT提取所述标准化收付款信息的特征序列;
将所述特征序列输入至预设的双向LSTM编码器中,得到关联特征序列;
利用预设的CRF解码器计算所述关联特征序列的标签概率;
根据所述标签概率生成实体标签序列,根据所述实体标签序列识别所述第一收付款实体信息。
详细地,所述实体识别模型是由BERT、BiLSTM和CRF层共同构成的模型,其中利用Hugging Face Transformers中的NER模型,BERT和RoBERTa,进行实体识别。可以自行训练NER模型,使用类似于BiLSTM-CRF的结构,结合标注好的训练数据进行训练,进而通过训练好的BERT和RoBERTa进行实体识别。其中为了防止过拟合在BERT模型上添加额外的层,如BiLSTM和CRF层,以进一步优化实体识别效果,例如,在BERT模型的顶部添加一个BiLSTM层,以便捕捉更多的上下文信息,然后使用CRF层对实体标签执行全局推理,以确保标签的一致性。
具体地,对标记化的文本序列进行编码,以便传入BERT模型中进行处理,通过预训练模型(BERT或RoBERTa)进行特征提取,从文本数据中提取特征,包括字符级别和词级别特征,可以通过嵌入表示、词性标注、字母级别特征等,将每个子词转换为其对应的词向量表示,将输入向量序列送入一个双向LSTM,产生一个新的输出向量序列,将BiLSTM生成的输出向量序列送入CRF层,进行标注预测;CRF能够以序列化的方式计算标签之间的概率,因此比独立标记方法更准确,通过使用CRF层,考虑相邻标签之间的约束关系,解码出最可能的实体标签序列,根据解码得到的实体标签序列,从原始文本中提取出对应的实体位置和类型信息。
进一步地,利用预设的CRF解码器计算所述关联特征序列的标签概率,则可通过从大到小的顺序的标签概率生成实体标签序列,从而将实体标签序列中对应识别信息确定第一收付款实体信息。例如文本信息为:“我在2023年9月20日通过6212345678901234向张三(卡号:6223456789012345)转账100元,转账用途是购买商品”,根据标签概率将时间、卡号、户名、对方卡号、转账金额生成实体标签序列,则根据实体标签序列确定第一收付款实体信息为“我在{{时间:2023年9月20日}}通过{{卡号:6212345678901234}}向{{户名:张三}}(卡号:{{对方卡号:6223456789012345}})转账{{金额:100}}元,转账用途是{{用途:购买商品}}。
本发明实施例中,所述标签概率是指关联特征序列中实体特征存在的概率,从而可确定收付款关联特征序列中的实体信息。
本发明实施例中,所述利用预设的CRF解码器计算所述关联特征序列的标签概率,包括:
根据预设的特征标签映射关系生成特征标签函数;
根据预设的特征转移关系生成特征转移函数;
利用CRF解码器中的所述特征标签函数及所述特征转移函数计算所述关联特征序列的标签概率,其中标签概率计算公式为:
其中,P(y│x)为关联特征序列中特征值x对应的标签y的标签概率,τ为归一化因子,exp为指数函数,γu为关联特征序列中第u个特征值的权重参数,γv为关联特征序列中第v个特征值的权重参数,为第u个特征值的特征标签函数,ψv(yt,yt―1)为第v个特征值的特征转移函数,yt为第t个标签,yt―1为第t―1个标签。
详细地,所述特征标签函数是基于特征和标签之间的映射关系,所述特征转移函数是基于由一个特征转移至另一个特征的转移值,从而通过CRF解码器根据特征标签函数及特征转移函数计算关联特征序列中的标签概率,从而通过从大到小的顺序的标签概率生成实体标签序列,从而将实体标签序列中对应识别信息确定第一收付款实体信息。
具体地,对于每个特征标签函数,定义为表示第u个观测特征函数的值,取决于输入特征x和标签序列y,其中x是输入的观测值(特征),y是输出的标签序列,对于每个转移特征函数,定义为ψv(yt,yt―1),表示第v个转移特征函数的值,取决于当前标签yt和前一个标签yt―1,其中yt和yt―1是相邻的标签,对于每个特征函数,有一个对应的权重γ,还需要定义归一化因子τ,表示所有可能的标签序列的累积和,其中归一化因子可以通过对所有标签序列的概率进行求和来计算。
进一步地,通过实体识别模型识别所述标准化收付款信息中的第一收付款实体信息后,还需要通过预设关键词匹配识别所述标准化收付款信息中的第二收付款实体信息,其中所述第二收付款实体信息包括收付款信息中的交易类型和用途,则针对交易类型和用途通过关键词模式匹配,可以使用规则或简单的模式匹配方法。可以预定义一组关键词或短语,然后在待分类的文本中搜索这些关键词,以确定交易类型和用途,例如,如果有一个交易类型是购物,相关的关键词可能包括“购买”、“商店”、“支付”等,当在待分类的文本中出现这些关键词时,可以将该交易分类为购物类。从而汇集所述第一收付款实体信息及所述第二收付款实体信息为所述关键收付款实体信息。
更进一步地,根据提取出来的收付款信息对应的实体信息,对收付款信息按照收款、付款、其他归类,生成收付款账单处理队列,并将归类信息推送至收付款信息处理驱动,处理银行客户账单。
本发明实施例中,所述收付款归类信息包括收款、付款、其他归类。
本发明实施例中,所述根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息,包括:
利用预训练的文本分类模型中的卷积层提取所述关联收付款实体信息的实体特征;
通过预训练的文本分类模型中的池化层对进行实体特征进行池化操作,得到实体降维特征;
通过预训练的文本分类模型中的全连接层对所述真实收付款信息进行信息归类,得到收付款归类信息。
详细地,所述文本分类模型是基于卷积神经网络或循环神经网络将提取的关键收付款实体信息分类为收款、付款或其他类别,则文本分类模型是基于从信用卡账单或银行交易记录中获取交易文本信息,包括交易日期、商家名称、交易金额等信息。同时,手动添加标签,将带有付款(如购物、消费)描述的交易标记为“付款”,将带有收款(如退款、返还)描述的交易标记为“收款”,对交易文本进行特征提取,包括从商家名称中提取关键词,如“超市”、“餐厅”、“旅馆”等,从交易金额中提取数值特征,如交易金额的大小、是否为负数等,使用训练数据集对文本分类模型进行训练,将提取的特征作为模型的输入,将收款或付款标签作为目标对文本分类模型进行训练。
具体地,通过文本分类模型中的卷积层提取关联收付款实体信息的实体特征,卷积层可以捕捉到关联收付款实体信息中的局部特征,如实体特征包括金额、用途等;进而通过池化层对提取的实体特征进行降维操作,常用的池化操作有最大池化和平均池化,可以有效地提取出实体特征的重要信息,从而得到实体降维特征,进而通过全连接层对降维后的实体特征进行归类,以得到收付款的归类信息,全连接层可以将实体特征映射到具体的分类标签或概率分布,从而得到收付款归类信息。
进一步地,根据收付款信息进行归类之后,可基于不同的归类信息型形成收付款账单处理队列,针对银行收付款信息应用于客户账单自动结清,实时结算,达到业务闭环,从而节省人工成本。
S4、根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据。
本发明实施例中,所述收付款处理应用策略包括收款类别对应的处理策略,即将收款类别中提供的对方户名、对方卡号、交易金额信息,与客户未结清账单中所需缴纳费用匹配,将符合的未结清账单自动结清,付款类别对应的处理策略,即将付款类别对应的付款信息生成付款信息图表,其他类别对应的处理策略,即对于未识别的信息存储到无效信息列表中。
本发明实施例中,所述根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,包括:
当所述收付款归类信息为收款类别时,根据所述收款类别中的收款属性与客户未结清账单中的缴纳费用属性进行匹配,得到匹配分值,其中匹配分值计算公式为:
其中,S为所述匹配分值,λ1为集合属性控制因子,λ2为数值属性控制因子,ωk为第k个集合属性的权重,δh为第h个数值属性的权重,Ak为收款类别中的收款属性对应的第k个集合属性值,Bk为客户未结清账单中的客户属性对应的第k个集合属性值,ah为收款类别中的收款属性对应的第h个数值属性值,bh为客户未结清账单中的客户属性对应的第h个数值属性值,n为集合属性的数量,m为数值属性的数量;
选取所述匹配分值最大的未结清账单为匹配账单;
根据所述收付款处理应用策略中的收款策略对所述匹配账单对应的缴纳费用进行收款处理,得到收款处理信息;
当所述收付款归类信息为付款类别时,生成所述付款类别对应的付款信息图表。
详细地,当收付款归类信息为收款类别时,将收款类别中的收款属性对应的对方户名、对方卡号及交易金额信息与客户未结清账单中所需缴纳费用匹配,则得到其匹配分值,其中匹配分值计算公式中当只有集合属性存在时,设定λ2=0,当只有数值属性时,设定λ1=0,都存在时,λ1=1及λ2=1,如集合属性包括对方户名、对方卡号,则设定λ1=1,基于户名和卡号可计算两个集合的相似度,如数值属性包括账单金额,则设定λ2=1,表示两个待匹配的金额的相对值,则根据匹配分值计算公式计算匹配分值可以更好的控制匹配属性,从而更有针对性计算属性匹配分值,提高匹配的准确性以及提高匹配效率,其中属性权重是通过层次分析法(APH)所确定的,如户名属性的权重是基于户名对应的行为数据、户名的安全性构建因素层次矩阵,从而确定户名属性对应的权重;如金额属性的权重是基于金额的大小、金额的用途等构建因素层次矩阵,从而确定金额属性对应的权重。
具体地,将匹配分值中最大的未结清账单确定为匹配账单,并根据收付款处理应用策略中的收款策略将对匹配账单中的所需缴纳费用自动结清,如果找到匹配的未结清账单,将该账单标记为已结清,并更新客户的账单状态,从而确定收款处理信息。对于付款类别的信息,可以统计支付信息图标。可以根据具体情况确定所需的统计指标和图表类型,如可以根据付款类别信息统计不同种类的付款金额,例如按照商家类别划分,生成相应的图表以显示不同种类的付款情况。
进一步地,在归类信息中除了收款类别信息及付款类别信息,还会出现未识别的信息,则会将未识别的信息存储到无效信息列表中,用于完善大语言模型。
本发明实施例中,所述信息反馈机制是基于无效信息所构成的对大语言模型进行完善,并提供给AI信息处理引擎提取收付款信息。
本发明实施例中,所述对收付款处理之后的无效信息创建信息反馈机制,包括:
将所述无效信息添加至预设的无效信息列表中;
逐一将所述无效信息列表中的无效信息发送至人工进行无效标注处理;
接收人工处理后的信息反馈,将所述信息反馈中的无用信息删除;
根据所述信息反馈中的有用信息生成信息反馈机制。
详细地,将收付款信息中的无效信息添加至预设的无效信息列表中,并逐一将无效信息列表中的无效信息发送至人工处理,可以更加准确地判断哪些信息是无效的,避免误判导致有效信息被误删,进而接收人工对无效信息的信息标注反馈,从而将信息反馈中标注的无效信息删除,而将人工标注处理后的信息反馈中的有用信息作为信息反馈机制,如无用信息中包括信息A、信息B、信息C,逐一将信息发送至人工进行标注处理,若人工标注的信息A和信息C都是无用信息,则将信息A和信息C都进行删除;而信息B经过人工反馈后,是有用信息,则根据信息B生成信息反馈机制,则信息反馈机制中包括信息B。
进一步地,人工标记被错误分类的信息样本,并基于信息反馈机制中的有用信息,并对有用信息中的错误分类的信息样本进行标注,从而得到样本标注数据,并基于样本标注数据完善大语言模型。
本发明实施例中,所述样本标注数据是基于信息反馈机制中的有用信息,并对有用信息中的错误分类的信息样本进行标注。
本发明实施例中,所述根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,包括:
对所述信息反馈机制中的有用信息进行划分,得到正确分类信息样本及错误分类信息样本;
对所述错误分类信息样本进行数据标记,得到错误标记数据;
根据预设的标注规则对所述正确分类信息样本进行数据标注,得到正确标注数据;
汇集所述错误标记数据及所述正确标注数据为样本标准数据。
详细地,对所述信息反馈机制中的有用信息进行划分,可得到有用信息中的正确分类信息样本及错误分类信息样本,并对错误分类信息样本及正确分类信息样本进行数据标注,得到错误标记数据及正确标注数据,其中标注规则是逐一检查错误分类信息样本,并根据其所属类别给出相应的标签,将每个错误分类信息样本与相应的标签进行关联,确定错误分类信息的不同类别,并为每个类别定义相应的标签,例如,可以将错误分类信息分为“分类错误”,并标上“L1”的标签,如将错误分类信息对应的信息B标上“L1”的标签。
进一步地,将信息样本进行数据标注,使用标注数据自动训练NER模型、序列标注模型或文本分类模型,完善大语言模型,将训练好的模型集成到AI信息处理引擎中,实现自动收付款信息提取。
S5、利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
本发明实施例中,通过标注数据自动训练NER模型、序列标注模型或文本分类模型,完善大语言模型,将训练好的模型集成到AI信息处理引擎中,并循环利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,直至收付款处理后不存在无效信息,从而可以实现自动收付款信息提取。
进一步地,为了更好地体现和理解银行账户收付款信息提取及应用,如图3所示,为收付款信息提取及应用的流程示意图,即通过银行短信、银行账户对接等来源接入银行账户收付款信息,通过加密算法验证收付款信息的真实性和安全性,并存储到收付款信息接收队列,通过AI技术对银行账户收付款信息进行关键信息识别提取,对收付款信息进行归类,形成收付款账单处理队列,收付款账单处理队列中收款类别处理客户账单自动结清,未归类的部分通过处理反馈,进行模型训练,完善大语言模型,通过识别银行账户收付款信息应用于客户账款自动结清。
本发明实施例通过银行短信、银行账户对接等来源接入银行账户收付款信息,通过加密算法验证收付款信息的真实性和安全性,并存储到收付款信息接收队列,通过AI技术对银行账户收付款信息进行关键信息识别提取,对收付款信息进行归类,形成收付款账单处理队列,收付款账单处理队列中收款类别处理客户账单自动结清,未归类的部分通过处理反馈,进行模型训练,完善大语言模型,通过识别银行账户收付款信息应用于客户账款自动结清,可以自动化完成客户账款应用。因此本发明提出的基于银行账户收付款信息提取及应用方法及装置,可以解决进行银行账户收付款信息提取时的效率较低的问题。
如图4所示,是本发明一实施例提供的基于银行账户收付款信息提取及应用装置的功能模块图。
本发明所述基于银行账户收付款信息提取及应用装置100可以安装于电子设备中。根据实现的功能,所述基于银行账户收付款信息提取及应用装置100可以包括收付款信息加密模块101、收付款信息校对模块102、收付款信息归类模块103、数据标注模块104及大语言模型优化模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述收付款信息加密模块101,用于通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项;
所述收付款信息校对模块102,用于将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中;
所述收付款信息归类模块103,用于利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息;
所述数据标注模块104,用于根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据;
所述大语言模型优化模块105,用于利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
详细地,本发明实施例中所述基于银行账户收付款信息提取及应用装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于银行账户收付款信息提取及应用方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围并不仅依据上述说明进行限定,因此旨在将落在保护范围内的等同要件的含义和范围内的所有变化涵括在本发明内。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于银行账户收付款信息提取及应用方法,其特征在于,所述方法包括:
S1、通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项;
S2、将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中;
S3、利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息;
S4、根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,其中所述根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,包括:
S41、当所述收付款归类信息为收款类别时,根据所述收款类别中的收款属性与客户未结清账单中的缴纳费用属性进行匹配,得到匹配分值,其中匹配分值计算公式为:
其中,S为所述匹配分值,λ1为集合属性控制因子,λ2为数值属性控制因子,ωk为第k个集合属性的权重,δh为第h个数值属性的权重,Ak为收款类别中的收款属性对应的第k个集合属性值,Bk为客户未结清账单中的客户属性对应的第k个集合属性值,ah为收款类别中的收款属性对应的第h个数值属性值,bh为客户未结清账单中的客户属性对应的第h个数值属性值,n为集合属性的数量,m为数值属性的数量;
S42、选取所述匹配分值最大的未结清账单为匹配账单,根据所述收付款处理应用策略中的收款策略对所述匹配账单对应的缴纳费用进行收款处理;
S43、当所述收付款归类信息为付款类别时,生成所述付款类别对应的付款信息图表;
S5、利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
2.如权利要求1所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项,包括:
提取所述收付款信息中的信息属性;
逐一将所述信息属性转换为二进制信息数据;
对所述二进制信息数据进行分组,得到信息分组数据,对所述信息分组数据进行消息扩展,得到扩展消息块;
利用如下所述哈希加密算法对所述扩展消息块进行加密,得到加密消息块:
Hi=Hi―1+C(Hi―1)
其中,Hi为第i次迭代的加密消息块对应的哈希值,Hi―1为第i―1次迭代的加密消息块对应的哈希值,C为加密压缩函数;
将所述加密消息块进行数据拼接,得到收付款信息校对项。
3.如权利要求2所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,包括:
根据所述收付款信息校对项及所述收付款信息验证项生成信息校对矩阵;
当所述信息校对矩阵的矩阵值不为零时,将所述收付款信息确定为未知收付款信息;
当所述信息校对矩阵的矩阵值为零时,将所述收付款信息确定为真实收付款信息。
4.如权利要求1所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,包括:
利用所述大语言模型中的文本特征算法对所述真实收付款信息进行标准化处理,得到标准化收付款信息;
利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息;
通过预设关键词匹配识别所述标准化收付款信息中的第二收付款实体信息;
汇集所述第一收付款实体信息及所述第二收付款实体信息为所述关键收付款实体信息。
5.如权利要求4所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述利用所述大语言模型中的实体识别模型识别所述标准化收付款信息中的第一收付款实体信息,包括:
利用所述实体识别模型中的BERT提取所述标准化收付款信息的特征序列;
将所述特征序列输入至预设的双向LSTM编码器中,得到关联特征序列;
利用预设的CRF解码器计算所述关联特征序列的标签概率;
根据所述标签概率生成实体标签序列,根据所述实体标签序列识别所述第一收付款实体信息。
6.如权利要求5所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述利用预设的CRF解码器计算所述关联特征序列的标签概率,包括:
根据预设的特征标签映射关系生成特征标签函数;
根据预设的特征转移关系生成特征转移函数;
利用CRF解码器中的所述特征标签函数及所述特征转移函数计算所述关联特征序列的标签概率,其中标签概率计算公式为:
其中,P(y│x)为关联特征序列中特征值x对应的标签y的标签概率,τ为归一化因子,exp为指数函数,γu为关联特征序列中第u个特征值的权重参数,γv为关联特征序列中第v个特征值的权重参数,为第u个特征值的特征标签函数,ψv(yt,yt―1)为第v个特征值的特征转移函数,yt为第t个标签,yt―1为第t―1个标签。
7.如权利要求1所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息,包括:
利用预训练的文本分类模型中的卷积层提取所述关键收付款实体信息的实体特征;
通过预训练的文本分类模型中的池化层对进行实体特征进行池化操作,得到实体降维特征;
通过预训练的文本分类模型中的全连接层对所述真实收付款信息进行信息归类,得到收付款归类信息。
8.如权利要求1所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述对收付款处理之后的无效信息创建信息反馈机制,包括:
将所述无效信息添加至预设的无效信息列表中;
逐一将所述无效信息列表中的无效信息发送至人工进行无效标注处理;
接收人工处理后的信息反馈,将所述信息反馈中的无用信息删除;
根据所述信息反馈中的有用信息生成信息反馈机制。
9.如权利要求1所述的基于银行账户收付款信息提取及应用方法,其特征在于,所述根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,包括:
对所述信息反馈机制中的有用信息进行划分,得到正确分类信息样本及错误分类信息样本;
对所述错误分类信息样本进行数据标记,得到错误标记数据;
根据预设的标注规则对所述正确分类信息样本进行数据标注,得到正确标注数据;
汇集所述错误标记数据及所述正确标注数据为样本标准数据。
10.一种基于银行账户收付款信息提取及应用装置,其特征在于,所述装置包括:
收付款信息加密模块,用于通过预设的信息来源接收银行账户的收付款信息,利用预设的哈希加密算法对所述收付款信息进行加密,得到收付款信息校对项;
收付款信息校对模块,用于将所述收付款信息校对项与预设的收付款信息验证项进行校对,得到真实收付款信息,将所述真实收付款信息存储至预设的收付款信息接收队列中;
收付款信息归类模块,用于利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息,根据所述关键收付款实体信息对所述真实收付款信息进行信息归类,得到收付款归类信息;
数据标注模块,用于根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,对收付款处理之后的无效信息创建信息反馈机制,根据所述信息反馈机制对信息样本进行数据标注,得到样本标注数据,其中所述根据预设的收付款处理应用策略对所述收付款归类信息进行收付款处理,包括:当所述收付款归类信息为收款类别时,根据所述收款类别中的收款属性与客户未结清账单中的缴纳费用属性进行匹配,得到匹配分值,其中匹配分值计算公式为:
其中,S为所述匹配分值,λ1为集合属性控制因子,λ2为数值属性控制因子,ωk为第k个集合属性的权重,δh为第h个数值属性的权重,Ak为收款类别中的收款属性对应的第k个集合属性值,Bk为客户未结清账单中的客户属性对应的第k个集合属性值,ah为收款类别中的收款属性对应的第h个数值属性值,bh为客户未结清账单中的客户属性对应的第h个数值属性值,n为集合属性的数量,m为数值属性的数量;
选取所述匹配分值最大的未结清账单为匹配账单,根据所述收付款处理应用策略中的收款策略对所述匹配账单对应的缴纳费用进行收款处理;
当所述收付款归类信息为付款类别时,生成所述付款类别对应的付款信息图表;
大语言模型优化模块,用于利用所述标注数据对所述大语言模型进行训练,并返回至所述利用预设的大语言模型提取所述收付款信息接收队列中真实收付款信息的关键收付款实体信息的步骤,直至收付款处理后不存在无效信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311367784.7A CN117540294B (zh) | 2023-10-20 | 2023-10-20 | 一种基于银行账户收付款信息提取及应用方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311367784.7A CN117540294B (zh) | 2023-10-20 | 2023-10-20 | 一种基于银行账户收付款信息提取及应用方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117540294A CN117540294A (zh) | 2024-02-09 |
CN117540294B true CN117540294B (zh) | 2024-06-07 |
Family
ID=89786961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311367784.7A Active CN117540294B (zh) | 2023-10-20 | 2023-10-20 | 一种基于银行账户收付款信息提取及应用方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540294B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950451A (zh) * | 2010-08-19 | 2011-01-19 | 中国民生银行股份有限公司 | 银行账户间收付款处理方法及系统 |
CN101957959A (zh) * | 2010-09-28 | 2011-01-26 | 中国民生银行股份有限公司 | 移动终端付款处理方法、移动终端收款处理方法和系统 |
CN112700238A (zh) * | 2020-12-31 | 2021-04-23 | 车主邦(北京)科技有限公司 | 一种支付信息的处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070282739A1 (en) * | 2006-05-30 | 2007-12-06 | Jacob Thomsen | Computer implemented method and system for rapid verification and administration of fund transfers and a computer program for performing said method |
-
2023
- 2023-10-20 CN CN202311367784.7A patent/CN117540294B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950451A (zh) * | 2010-08-19 | 2011-01-19 | 中国民生银行股份有限公司 | 银行账户间收付款处理方法及系统 |
CN101957959A (zh) * | 2010-09-28 | 2011-01-26 | 中国民生银行股份有限公司 | 移动终端付款处理方法、移动终端收款处理方法和系统 |
CN112700238A (zh) * | 2020-12-31 | 2021-04-23 | 车主邦(北京)科技有限公司 | 一种支付信息的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117540294A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402163B2 (en) | Intelligent data extraction | |
US11475143B2 (en) | Sensitive data classification | |
US20230031738A1 (en) | Taxpayer industry classification method based on label-noise learning | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
JP7337949B2 (ja) | 機械学習アプリケーションにおけるカテゴリフィールド値の取り扱い | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN108550065B (zh) | 评论数据处理方法、装置及设备 | |
US20200159993A1 (en) | Methods, devices and systems for data augmentation to improve fraud detection | |
US20230245485A1 (en) | Multimodal multitask machine learning system for document intelligence tasks | |
WO2024109619A1 (zh) | 敏感数据识别方法、装置、设备及计算机存储介质 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN113806548A (zh) | 基于深度学习模型的信访要素抽取方法及抽取系统 | |
US20220335073A1 (en) | Fuzzy searching using word shapes for big data applications | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN112905787B (zh) | 文本信息处理方法、短信处理方法、电子设备及可读介质 | |
CN117540294B (zh) | 一种基于银行账户收付款信息提取及应用方法及装置 | |
CN116579798A (zh) | 基于数据增强的用户画像构建方法、装置、设备及介质 | |
US11681966B2 (en) | Systems and methods for enhanced risk identification based on textual analysis | |
AU2021428503A1 (en) | Systems and methods for generating document numerical representations | |
CN113535888A (zh) | 一种情感分析装置、方法、计算设备及可读存储介质 | |
Perez et al. | Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements | |
CN118094551B (zh) | 基于大数据的系统安全分析方法、设备及介质 | |
CN118313837B (zh) | 一种基于大数据的客户关系管理系统 | |
CN113919447B (zh) | 基于DNA分子加密和LightGBM算法的数字资产交易管理方法及系统 | |
CN113486145B (zh) | 基于网络节点的用户咨询回复方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |