CN117407726A - 一种业务数据智能匹配方法、系统及存储介质 - Google Patents
一种业务数据智能匹配方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117407726A CN117407726A CN202311525508.9A CN202311525508A CN117407726A CN 117407726 A CN117407726 A CN 117407726A CN 202311525508 A CN202311525508 A CN 202311525508A CN 117407726 A CN117407726 A CN 117407726A
- Authority
- CN
- China
- Prior art keywords
- data
- matching
- business
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000007667 floating Methods 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种业务数据智能匹配方法、系统及存储介质,所述方法包括:获取待匹配的业务票据数据;根据训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。通过本发明的业务数据的智能匹配可以让企业的进项发票与业务交易单据通过匹配算法自动关联起来,实现线上自动化两单据匹配和差异性分析,从业务到发票数据形成业务闭环。
Description
技术领域
本发明涉及业务数据处理技术领域,尤其涉及一种业务数据智能匹配模型的训练及业务数据智能匹配方法、系统及存储介质。
背景技术
供应链自动化与智能化,是通过对供应链上物流,信息流,资金流等数据的整合分析,在支持核心业务增长的同时把物流与库存成本降到最小。在供应链中,发票数据是企业购买,销售商品过程中所提供给双方的重要凭证,也是审计在进行资金审查的主要依据。目前在对发票进行对账等业务数据处理时,主要是人工进行核对,机器只能对发票号码,金额等简单信息数据进行辅助核验。因此,一种高效且全面的单据与发票匹配算法可以极大地减少繁琐的人工,并且可以更好的适配风险识别这类实时性要求高的业务场景。
在实际多对多场景下,需要计算出多个指标的近似值,如:供应商、规格型号、价税合计、金额等,然后汇总指标、归集。部分应用场景下需要匹配的业务单据和发票数据会达到数万条,对整体匹配难度和性能有极高的挑战。
关于业务单据匹配场景,业界已存在信息化、自动化的实现方式,用于解决人工处理效率低,出错率高的情况。现有的一般实现方法一般包括如下两种:
一种是强关联匹配:此种实现方式要求需要匹配的两两单据需要提前进行人工或计算机预处理,建立单据的关联关系,如在匹配的是发票和对账单,需要在对账单上明确填报对应的发票号码及编号。然后执行匹配程序,输出该对账单和发票业务维度上是否匹配结果。
另一种是单一数字化匹配:此种实现方式不需要两两匹配单据,预处理之间的关联关系,可通过单据的总金额数据项匹配单据关系并完成单据业务维度上是否匹配结果,但仅限于单据总金额是否一致的简单匹配逻辑。
上述两种实现方式存在较明显问题。强关联匹配方式,对前置处理有要求,前置建立单据关系的步骤需要人工介入,效率低,出错率高。匹配算法完全依赖此种关系建立的正确性,匹配结果需要人工复核的概率高,效率低。
单一数字化匹配方式的问题在于,仅限于单据总金额匹配维度去建立单据关系,维度过于单一,关系建立错误率高,只能满足部分简单的结算业务场景。
针对上述现有技术的问题,本发明为了解决企业线下获取进项发票无法自动匹配关联业务系统的业务单据的痛点。企业上游供应商开具发票无法通过平台线上协同交付发票,线下收取的发票则与业务交易数据是孤立的,没有形成完整性的供应链业务链路闭环的问题。通过本发明的业务数据的智能匹配可以让企业的进项发票与业务交易单据通过匹配算法自动关联起来,实现线上自动化两单据匹配和差异性分析,从业务到发票数据形成业务闭环。
发明内容
针对现有技术的技术问题,本发明提出一种业务数据智能匹配(基于文本与数值相似度的业务单据与发票匹配)方法、装置、系统及计算机可读存储介质。采用的业务数据智能匹配模型通过将业务单据的各个业务元素纳入匹配计算元素,多个业务维度复合计算,结合相似度算法,数值加权算法,建立单据间两两关系,并智能核对单据明细数据得出匹配结论,解决业界常规做法效率低,错误率高,适用场景单一问题。
为此,包括如下几方面:
第一方面,一种业务数据智能匹配模型的训练方法,包括:S101,获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建业务票据数据和发票数据的关联关系;
S102,基于文本分类模型对样本数据的信息字段进行分类;
S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则;
S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
S105,基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则重复S101-S105,进行迭代训练。
进一步,所述业务票据数据包括企业名称、单号;所述发票数据的信息字段包括商品名称、规格型号、单位、数量、金额、税额、税率,发票头信息包含的交易双方的公司信息。
进一步,通过训练的文本分类模型将字段分为四类:精确文本,相似文本,精确数值,浮动数值;
进一步,步骤S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则包括:针对相似字符型数据,采用训练的Bert模型来进行信息字段的匹配;针对浮动数值型,采用浮动范围进行相似匹配;
进一步,在Bert模型的fine-tuning过程中,采用标签注入的方式,进行循环迭代来改进所述信息字段的关系图;
进一步,以新合成的信息字段向量表示输入到Bert模型中进行fine-tuning,训练得到更新的Bert模型,该Bert模型具备对信息字段(例如商品名称字段)更好的表示。其中公式表示为:其中H为隐向量,W1 T为网络权重,σ为可调偏重参数,其表示模型对于向量E的注意力程度,W2 T为E的权重。模型的损失函数为
进一步,步骤S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果包括:
S1041,将业务票据数据和发票数据按照训练构建的匹配规则进行一对一匹配,对应每一类数据均满足匹配要求的结果认定为候选匹配;
S1042,候选匹配列表根据每一类数据权重计算最终得分,选取得分最高的匹配结果认定为完全匹配;
S1043,使用双指针查找法匹配一对多,多对一的结果,合并数据,重复步骤S1041-S1043;
S1044,将剩余待匹配列表数据使用多指针查找法匹配多对多的结果,合并数据,重复步骤S1041-S1044;
S1045,根据不同的相似度阈值,重复步骤S1041-S1044对剩余业务票据数据与发票数据进行匹配,匹配结果认定为相似匹配;
S1046,最终剩余待匹配列表数据认定为不匹配;基于所述不匹配的数据确定匹配结果的误差。
进一步,所述业务数据智能匹配模型采用神经网络模型,包括CNN、RNN、GAN、GNN、LSTM、ANN等。
第二方面,一种业务数据智能匹配(基于文本与数值相似度的业务单据与发票匹配)方法,包括:
S201,获取待匹配的业务票据数据;
S202,根据上述任一项训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
第三方面,一种业务数据智能匹配模型的训练装置,包括:
获取模块,用于获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建所述业务票据数据和发票数据的关联关系;
分类模块,用于基于文本分类模型对所述样本数据的信息字段进行分类;
构建规则模块,用于根据所述样本数据的信息字段的数值类型训练构建匹配规则;
匹配模块,用于根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
判定模块,用于基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则进行迭代训练。
第四方面,一种业务数据智能匹配装置,所述装置包括:
获取模块,用于获取待匹配的业务票据数据;
匹配模块,用于根据上述训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
第五方面,一种业务数据智能匹配模型的训练系统,所述系统包括处理器和存储器,所述处理器执行所述存储器中存储的计算机指令,实现前述第一方面中的任一所述方法。
第六方面,一种业务数据智能匹配系统,所述系统包括处理器和存储器,所述处理器执行所述存储器中存储的计算机指令,实现前述第二方面中的任一所述方法。
第七方面,一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机系统执行前述第一方面中的任一所述方法。
第八方面,一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机系统执行前述第二方面中的任一所述方法。
本发明公开了一种业务数据智能匹配(基于文本与数值相似度的业务单据与发票匹配)方法、装置、系统及计算机可读存储介质。采用的业务数据智能匹配模型通过将业务单据的各个业务元素纳入匹配计算元素,多个业务维度复合计算,结合相似度算法,数值加权算法,建立单据间两两关系,并智能核对单据明细数据得出匹配结论,解决业界常规做法效率低,错误率高,适用场景单一问题。其中业务数据智能匹配模型的训练方法,包括:S101,获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建业务票据数据和发票数据的关联关系;S102,基于文本分类模型对样本数据的信息字段进行分类;S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则;S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;S105,基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则重复S101-S105,进行迭代训练。业务数据智能匹配方法,包括:S201,获取待匹配的业务票据数据;S202,根据上述训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
本发明的技术方案具有如下有益效果:
(1)通过本发明的业务数据的智能匹配可以让企业的进项发票与业务交易单据通过匹配算法自动关联起来,实现线上自动化两单据匹配和差异性分析,从业务到发票数据形成业务闭环。
(2)通过将单据明细行各个业务元素纳入匹配计算元素,多个业务维度复合计算,结合相似度算法,数值加权算法,建立单据间两两关系,并智能核对单据明细数据得出匹配结论,解决业界常规做法效率低,错误率高,适用场景单一问题。
上述说明仅是本发明技术方案的概述,为了能更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种业务数据智能匹配模型的训练方法流程图;
图2是本发明一个实施例的一种业务数据智能匹配的方法流程图;
图3是本发明一个实施例的一种业务数据智能匹配模型的训练装置结构图;
图4是本发明一个实施例的一种业务数据智能匹配装置的结构图;
图5是本发明一个实施例的一种业务数据智能匹配模型的训练或业务数据智能匹配的系统结构图;
图6是本发明一个实施例的一种业务数据智能匹配模型的训练或业务数据智能匹配的方法的计算机系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
目前现有技术中,业务数据的匹配或需要人工介入,效率低,出错率高;匹配结果需要人工复核的概率高,效率低;或维度过于单一,关系建立错误率高,只能满足部分简单的业务场景。
图1为本发明实施例提供的一种业务数据智能匹配模型的训练方法,包括:
S101,获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建业务票据数据和发票数据的关联关系;
在一个实施例中,业务票据数据和发票数据包含:商品名称、规格型号、单位、数量、金额、税额、税率,发票头信息包含的交易双方的公司信息。根据企业名称和单号可以将企业间交易关联,形成交易链。交易双方企业为二分型关联关系,交易数据分为源数据组和目标数据组。
对于每一笔的交易单号是唯一的。可以根据每一笔交易,将企业双方关联。这种交易双方的关联类型为二分型关联关系,可以以三元组的形式表现【买方、单号、卖方】。
S102,基于文本分类模型对样本数据的信息字段进行分类;
在一个实例中,基于不同企业的票据数据与发票的字段数据存在差异,无法直接进行匹配,通过训练文本分类模型将票据数据与发票的字段按照数值类型分为四类:精确文本,相似文本,精确数值,浮动数值。相同类别的字段内容可以使用相同的规则进行匹配计算。
不同企业业务票据的描述字段会存在差异,例如“商品名称”,在业务票据中有的写为“货物名称”,有的直接写成“商品”。需要训练模型将货物名称与商品名称分为一类,都作为相似文本这类字段。
在一个实施例中,文本分类模型训练方法采用:基于Bert预训练模型,使用发票和业务票据语料库作为样本进行数据训练,并在实际应用中不断丰富所述语料库。
S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则;
在一个实施例中,对上述每种类别的字段制定相应的匹配规则,例如:
1.相似文本
使用编辑距离或者语言模型的方法计算相似度,待匹配文本相似度值大于预设的阈值即认定该字段匹配。
2.精确文本
在预设的文本长度下,待匹配文本相等即认定该数据匹配。
3.精确数值
在预设的精度阈值下,待匹配数值相等即认定该数据匹配。
4.浮动数值
在预设的转换比率与浮动阈值下,待匹配数值经过比率转换后差值小于浮动阈值即认定该数据匹配。
在一个实施例中,具体地,针对相似字符型数据如商品名称,先去除无关字符,再进行分词,对每一组词分别计算相似度可提高准确率。针对语言模型,事先使用行业相关语料进行预训练,训练多种语言模型优化特定领域词向量结果。
使用正则匹配的方法去除无关字符,例如:‘-’,‘《》’,‘:’,“**”等。语言模型与上述文本分类模型的训练方式相似,两者不同的地方是使用不同的语料库进行训练。
在一个实施中,构建商品名称之间的关系网络,商品作为节点,商品名称间的相似度作为边。每个商品具有自身独特的词嵌入表示,词嵌入通过Bert模型训练得到。
在一个实施例中,由于业务票据的字段(例如商品名称)集中在票据业务相关的特定领域中,基于传统的Bert模型在特定领域的词嵌入表示效果较差,为了优化业务票据的字段的向量表示,在Bert模型的fine-tuning过程中对模型进行改进,具体的方法采用标签注入的方式,进行循环迭代来改进业务票据字段的关系图。例如具体步骤包括:
S1031,使用通用预训练模型Bert获得商品名称词嵌入,使用向量余弦相似度作为业务票据字段(例如商品名称)间边的值,此时可以对关系图进行初始化:
其中表示从Bert中获取的商品名称字段u的d维词嵌入,n表示商品名称。
其中Suv表示商品名称u和商品名称v之间的相似度,w(u)表示商品u的词嵌入,w(v)表示商品v的词嵌入。
S1032,使用KNN聚类方法赋予每个商品名称节点初始标签,标签种类可以使用k指定,并使用one-hot的方法获得向量化标签 表示向量化标签,i表示第i个类别,k表示标签向量维度。
S1033,将向量化之后的标签与商品名称词嵌入拼接后得到一个包含标签信息的向量表示其中,/>表示合成向量,/>表示从Bert中获取的商品名称字段u的d维词嵌入,/>表示向量化标签;
S1034,以新合成的商品名称向量表示输入到Bert模型中进行fine-tuning,训练得到新的Bert模型,该模型具备对商品名称更好的表示。
其中P为条件概率,H为隐向量,W1 T为网络权重,σ为可调偏重参数,其表示模型对于向量E的注意力程度,W2 T为E的权重。
模型的损失函数为其中L表示损失,n为信息字段集合大小。
S1035,使用新的表示作为商品名称词嵌入,更新原始商品名称关系图。
S1036,重复步骤S1032-S1035直至最终的商品相似度满足阈值要求,停止循环。
通过上述步骤优化后的业务票据字段(例如商品名称)关系网络可以有效的查询得到相似商品,提升了匹配的准确度。
通过在模型训练过程中增加偏重参数来修正模型对于商品名称向量表示的学习程度,并且通过循环迭代的训练框架来进一步优化模型。
在一个实施例中,具体地,针对浮动数值型的转换比率存在两种转换方式:百分比转换和绝对值转换。按照百分比计算:根据当前数值总数的百分比计算,匹配数据与当前数值差异在百分比计算的上下浮动范围内均可匹配。按照绝对值计算:匹配数据与当前数据的差异在绝对值的上下浮动范围内均可匹配。
示例如下:
例1:前置设置误差范围为10%,A公司账单的商品“*基础化学品*泡沫剂”单价为8元,误差值为8*10%=8.8元,B公司给A公司开具的发票上,商品为“*基础化学品*泡沫剂”,单价为8.5元,在误差允许范围内,可以正确匹配成功。
例2:前置设置误差范围为3,A公司账单的商品“*绘图测量仪器*环形测针”单价为100元,误差值为97和103元之间,B公司给A公司开具的发票上,商品为“*绘图测量仪器*环形测针”,单价为102元,在误差允许范围内,可以正确匹配成功。
S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
在一个实施例中,具体包括:
S1041,将业务票据数据和发票数据按照训练构建的匹配规则进行一对一匹配,对应每一类数据均满足匹配要求的结果认定为候选匹配;
在一个实施例中,数值类型不一定全部包含S103中所述的四种类型,仅需存在的每种数值类型都满足匹配要求即可认定匹配。
具体地,一对一匹配在数据量超过万条时,效率显著降低,可以通过分布式计算提升匹配效率。首先识别分组字段将待匹配数据拆分,分组字段一般为精确字符型数据,例如销售方,购买方。分组结束之后根据服务器的性能配置线程数,在每个线程里进行剪枝,对于不符合精确字符字段的数据组跳过匹配来加速匹配效率。由于分组数据存在数据量分布不平衡的问题,对于数据量较大的组进行二次分组,基于系统配置的桶大小将数据拆分,每个桶分配额外的线程进行匹配计算。在匹配结束后的数据合并过程中,同样采用桶大小的方式衡量待合并数据量,根据桶数开启对应数量的线程。
S1042,候选匹配列表根据每一类数据权重计算最终得分,选取得分最高的匹配结果认定为完全匹配;
在一个实施例中,相似文本型数据与浮动数值型数据以乘法的形式进行权重计算。
Score相似文本型(t)=Sij*Wt
其中,Sij表示字符串i与字符串j的相似度;
相似度使用了多种方式:1.文本模型词向量的余弦相似度2.文本Jaro距离。3.Levenshtein距离等。具体的方式选择取决于输入参数,人为设定。
Wt表示该文本型数据对应的权重;
权重是匹配系统的输入参数,人为设定的。
其中,
Rt表示该浮动数值型数据的转换比率;
di表示源数据值;
dj表示目标数据值;
δt表示该浮动数值型数据的浮动阈值;
Wt表示该浮动数值型数据对应的权重;
权重是匹配系统的输入参数,人为设定的。
所有类型数据权重值求和获得最终的得分结果。
S1043,使用双指针查找法匹配一对多,多对一的结果,合并数据,重复步骤S1041-S1043;
在一个实施例中,按照如下规则合并多条数据:
R1.相似文本
需满足任意两条文本数据相似度符合阈值要求,最终按照相似度均值合并多条数据。
例如:在发票中存在商品A,对账单中存在商品B,C,D。A与B的相似度是0.8,A与C的相似度是0.9,A与D的相似度是0.7。设置的相似度阈值是0.75。那么只有B和C满足阈值,合并后按照相似度(0.8+0.9)/2=0.85进行后续的一对一匹配。
R2.精确文本
需满足任意两条文本数据相同,最终取任一文本作为该字段值。
R3.精确数值
A.可累加对多条数据进行求和合并。
有些字段如金额是存在可累加匹配的特征的,比如发票中商品A的金额是100,对账单中商品B的金额是40,C的金额是60。那么在合并的时候将B与C求和,最终与A的金额数相等,在满足其他字段匹配的情况下认定A与B、C与一对多匹配情况。
B.不可累加
需满足任意两条数值数据相等,最终取任一数值作为该字段值不可累加字段如单价,发票中商品A的单价是10,对账单中商品B的单价是4,C的单价是6。那么认定A与B、C并不存在一对多匹配。B与C不能合并为10。但是在另一个对账单中E、F商品的单价都是10,那么可以在满足其他条件下认定A与E、F匹配,合并后单价为10。
R4.浮动数值
A.可累加对多条数据进行求和合并。
B.不可累加需满足任意两条数据数据差符合阈值要求,最终存为列表作为该字段值。
假设浮动数值的阈值为0.1。发票中商品A的金额为29.9,对账单中商品B的金额为29.8,C的金额为30,D的金额为29。最终合并认为A与B、C可以匹配,B、C合并为列表[29.8,30]作为合并后的金额字段值。
具体地,对于不同类型的字段数据配置不同的合并规则。双指针查找法描述如下,在参数配置中选取可累加的数值型字段,使用过滤算法确定指针字段,将该字段排序后设置头指针和尾指针进行迭代查找,查找出的多条数据按照规则合并为单条数据。
S1044,将剩余待匹配列表数据使用多指针查找法匹配多对多的结果,合并数据,重复步骤S1041-S1044;
具体的,数据合并方法与S1043一致,多指针查找法类似双指针查找,区别在于对源数据和目标数据分别设置头指针和尾指针,同时进行迭代查找。
S1045,根据不同的相似度阈值,重复步骤S1041-S1044对剩余业务票据数据与发票数据进行匹配,匹配结果认定为相似匹配;
在一个实施例中,具体地,相似文本型数据和浮动数值型数据可以设置不同的阈值用来区分完全匹配结果和相似匹配结果。一般的,完全匹配结果按照最高的阈值选取,相似匹配结果按照其他阈值可分为多类以满足业务场景的需求。
S1046,最终剩余待匹配列表数据认定为不匹配;基于所述不匹配的数据确定匹配结果的误差。
在一个实施例中,具体地,剩余的数据为不完全满足全部数据类型匹配结果的数据。
S105,基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则重复S101-S105,进行迭代训练。
进一步,所述业务数据智能匹配模型采用神经网络模型,包括CNN、RNN、GAN、GNN、LSTM、ANN等。
图2为一个实施例的一种业务数据智能匹配的方法流程图,所述方法包括:
S201,获取待匹配的业务票据数据;
S202,根据上述训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
图3为本发明实施例提供的一种业务数据智能匹配模型的训练装置,包括:
获取模块,用于获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建业务票据数据和发票数据的关联关系;
分类模块,用于基于文本分类模型对样本数据的信息字段进行分类;
构建规则模块,用于根据所述样本数据的信息字段的数值类型训练构建匹配规则;
匹配模块,用于根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
判定模块,用于基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则重复执行获取模块、分类模块、构建规则模块和匹配模块的功能,进行迭代训练。
图4为一个实施例的一种业务数据智能匹配装置,所述装置包括:
获取模块,用于获取待匹配的业务票据数据;
匹配模块,用于根据训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
图5示出根据本申请一实施方式的电子设备的结构框图。
前述实施方式描述了业务数据智能匹配模型的训练方法及系统,在一个可能的设计中,前述业务数据智能匹配模型的训练方法及系统可集成于电子设备中。如图5中所示,该电子设备500可以包括处理器501和存储器502。
所述存储器502用于存储支持处理器执行上述任一实施例中业务数据智能匹配模型的训练方法的程序,所述处理器501被配置为用于执行所述存储器502中存储的程序。
所述存储器502用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器501执行以实现上述实施方式中步骤,所述步骤在此不再赘述。
图6是适于用来实现根据本申请一实施方式的社区恶意访问行为识别方法的计算机系统的结构示意图。
如图6所示,计算机系统600包括处理器(CPU、GPU、FPGA等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。处理器601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备实现前述的本发明各实施例的多模态交互实现方法的全部或部分步骤。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备前述的本发明各实施例的多模态交互实现方法的全部或部分步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种业务数据智能匹配模型的训练方法,包括:
S101,获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建所述业务票据数据和发票数据的关联关系;
S102,基于文本分类模型对所述样本数据的信息字段进行分类;
S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则;
S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
S105,基于所述匹配结果的误差小于阈值,确定结束所述模型的训练,否则重复步骤S101-S105,进行迭代训练。
2.根据权利要求1所述的方法,所述步骤S103,根据所述样本数据的信息字段的数值类型训练构建匹配规则包括:针对相似字符型数据,采用训练的Bert模型来进行信息字段的匹配;针对浮动数值型,采用浮动范围进行相似匹配。
3.根据权利要求2所述的方法,在Bert模型的fine-tuning过程中,采用标签注入的方式,进行循环迭代来改进所述信息字段的关系图。
4.根据权利要求2所述的方法,以新合成的信息字段向量表示输入到Bert模型中进行fine-tuning,训练得到更新的Bert模型,其中模型公式表示为:
其中P为条件概率,H为隐向量,W1 T为网络权重,σ为可调偏重参数,其表示模型对于向量E的注意力程度,W2 T为E的权重;
模型的损失函数为其中L表示损失,n为信息字段集合大小。
5.根据权利要求1所述的方法,所述步骤S104,根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果包括:
S1041,将业务票据数据和发票数据按照训练构建的匹配规则进行一对一匹配,对应每一类数据均满足匹配要求的结果认定为候选匹配;
S1042,候选匹配列表根据每一类数据权重计算最终得分,选取得分最高的匹配结果认定为完全匹配;
S1043,使用双指针查找法匹配一对多,多对一的结果,合并数据,重复步骤S1041-S1043;
S1044,将剩余待匹配列表数据使用多指针查找法匹配多对多的结果,合并数据,重复步骤S1041-S1044;
S1045,根据不同的相似度阈值,重复步骤S1041-S1044对剩余业务票据数据与发票数据进行匹配,匹配结果认定为相似匹配;
S1046,最终剩余待匹配列表数据认定为不匹配;基于所述不匹配的数据确定匹配结果的误差。
6.一种业务数据智能匹配方法,包括:
S201,获取待匹配的业务票据数据;
S202,根据权利要求1-5任一项训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
7.一种业务数据智能匹配模型的训练装置,包括:
获取模块,用于获取样本数据,所述样本数据包括业务票据数据和发票数据,并构建所述业务票据数据和发票数据的关联关系;
分类模块,用于基于文本分类模型对所述样本数据的信息字段进行分类;
构建规则模块,用于根据所述样本数据的信息字段的数值类型训练构建匹配规则;
匹配模块,用于根据所述匹配规则进行所述业务票据数据与发票数据的数据匹配,生成匹配结果;
判定模块,用于基于所述匹配结果的误差小于阈值,确定结束模型的训练,否则进行迭代训练。
8.一种业务数据智能匹配装置,所述装置包括:
获取模块,用于获取待匹配的业务票据数据;
匹配模块,用于根据权利要求7训练得到的业务数据智能匹配模型,对所述待匹配的业务票据数据进行业务数据智能匹配,得到匹配的发票数据。
9.一种系统,所述系统包括处理器和存储器,所述处理器执行所述存储器中存储的计算机指令,实现权利要求1-6中任一项所述方法。
10.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311525508.9A CN117407726A (zh) | 2023-11-15 | 2023-11-15 | 一种业务数据智能匹配方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311525508.9A CN117407726A (zh) | 2023-11-15 | 2023-11-15 | 一种业务数据智能匹配方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117407726A true CN117407726A (zh) | 2024-01-16 |
Family
ID=89496212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311525508.9A Pending CN117407726A (zh) | 2023-11-15 | 2023-11-15 | 一种业务数据智能匹配方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407726A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014747A (zh) * | 2024-02-06 | 2024-05-10 | 北京嘉华铭品牌策划有限公司 | 一种自动化发票核对与交易对账系统 |
-
2023
- 2023-11-15 CN CN202311525508.9A patent/CN117407726A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014747A (zh) * | 2024-02-06 | 2024-05-10 | 北京嘉华铭品牌策划有限公司 | 一种自动化发票核对与交易对账系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019109918A1 (zh) | 摘要文本生成方法、计算机可读存储介质和计算机设备 | |
US20120330971A1 (en) | Itemized receipt extraction using machine learning | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
US11610271B1 (en) | Transaction data processing systems and methods | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN117407726A (zh) | 一种业务数据智能匹配方法、系统及存储介质 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN114004581A (zh) | 一种基于多维政务事项知识库的意图交互系统 | |
CN115689717A (zh) | 企业风险预警方法、装置、电子设备、介质和程序产品 | |
CN111126073A (zh) | 语义检索方法和装置 | |
CN116089886A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN116048463A (zh) | 基于标签管理的需求项内容智能推荐方法及装置 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
CN114153968A (zh) | 基于词属性位置关系与贝叶斯的少样本金融文本分类系统 | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN113051898A (zh) | 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN113837764B (zh) | 风险预警方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |