CN111861690A

CN111861690A - 账务数据核对方法及账务数据核对装置

Info

Publication number: CN111861690A
Application number: CN202010716876.1A
Authority: CN
Inventors: 宁义双; 辛洪生; 吴粤敏; 宁可
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-30
Anticipated expiration: 2040-07-23
Also published as: CN111861690B

Abstract

本申请实施例公开了一种账务数据核对方法及账务数据核对装置，用于实现记账记录与对账单记录的自动对账。本申请实施例方法包括：基于机器学习算法，使用提取到的正样本特征和负样本特征对待训练分类模型进行训练，在训练过程中待训练分类模型不断学习正样本特征和负样本特征，得到的目标分类模型可以用于核对记账记录和对账单记录，进而输出待核对的记账记录和对账单记录是否匹配的分类结果。因此，通过使用目标分类模型，可以实现记账记录和对账单记录的自动核对，节省了财务出纳人员的劳力付出，同时也避免了因人员失误而造成记账记录和对账单记录的核对出错。

Description

账务数据核对方法及账务数据核对装置

技术领域

本申请实施例涉及账务数据核对领域，具体涉及一种账务数据核对方法及账务数据核对装置。

背景技术

在企业的财务管理活动中，日记账和银行对账单的对账清账问题是财务领域的关键问题，其中的关键技术在于日记账和银行对账单的相互匹配。当前，企业中的对账清账流程主要通过财务出纳人员将日记账与银行送来的对账单进行核对，在凭证的种类、编号、摘要内容、记账方向及借方金额和贷方金额等方面加以核对，做到账实相符。

然而，此种方式不仅要求出纳人员具备专业的知识背景和业务背景，而且还比较费时费力。此外，出纳人员在经过繁重的对账工作后，还容易出现失误。

为解决财务出纳人员在对账过程中的痛点问题，提升对账效率，寻找一种自动的对账方法成为了目前亟待解决的问题。

发明内容

本申请实施例提供了一种账务数据核对方法及账务数据核对装置，用于实现记账记录与对账单记录的自动对账。

本申请实施例第一方面提供了一种账务数据核对方法，包括：

获取携带有正样本标识的正样本和携带有负样本标识的负样本，所述正样本包括相互匹配的记账记录和对账单记录，所述负样本包括相互不匹配的记账记录和对账单记录；

分别对所述正样本和所述负样本进行特征提取，得到正样本特征和负样本特征，所述正样本特征为记账记录与对账单记录相互匹配所具备的特征，所述负样本特征为记账记录与对账单记录相互不匹配所具备的特征；

构建待训练分类模型，将所述正样本标识及所述正样本特征、所述负样本标识及所述负样本特征作为训练样本，并基于机器学习算法，利用所述训练样本对所述待训练分类模型进行训练，得到目标分类模型；

对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

向所述目标分类模型输入所述待识别特征，利用所述目标分类模型对所述待识别特征进行识别，输出所述待核对的记账记录和对账单记录是否匹配的分类结果。

本申请实施例第二方面提供了一种账务数据核对装置，包括：

获取单元，用于获取携带有正样本标识的正样本和携带有负样本标识的负样本，所述正样本包括相互匹配的记账记录和对账单记录，所述负样本包括相互不匹配的记账记录和对账单记录；

特征提取单元，用于分别对所述正样本和所述负样本进行特征提取，得到正样本特征和负样本特征，所述正样本特征为记账记录与对账单记录相互匹配所具备的特征，所述负样本特征为记账记录与对账单记录相互不匹配所具备的特征；

模型训练单元，用于构建待训练分类模型，将所述正样本标识及所述正样本特征、所述负样本标识及所述负样本特征作为训练样本，并基于机器学习算法，利用所述训练样本对所述待训练分类模型进行训练，得到目标分类模型；

所述获取单元还用于对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

核对单元，用于向所述目标分类模型输入所述待识别特征，利用所述目标分类模型对所述待识别特征进行识别，输出所述待核对的记账记录和对账单记录是否匹配的分类结果。

本申请实施例第三方面提供了一种计算机设备，包括：

处理器、存储器、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

所述输入输出设备用于获取携带有正样本标识的正样本和携带有负样本标识的负样本，所述正样本包括相互匹配的记账记录和对账单记录，所述负样本包括相互不匹配的记账记录和对账单记录；

所述处理器用于分别对所述正样本和所述负样本进行特征提取，得到正样本特征和负样本特征，所述正样本特征为记账记录与对账单记录相互匹配所具备的特征，所述负样本特征为记账记录与对账单记录相互不匹配所具备的特征，构建待训练分类模型，将所述正样本标识及所述正样本特征、所述负样本标识及所述负样本特征作为训练样本，并基于机器学习算法，利用所述训练样本对所述待训练分类模型进行训练，得到目标分类模型；

所述输入输出设备还用于对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

所述处理器还用于向所述目标分类模型输入所述待识别特征，利用所述目标分类模型对所述待识别特征进行识别，输出所述待核对的记账记录和对账单记录是否匹配的分类结果。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，基于机器学习算法，使用提取到的正样本特征和负样本特征对待训练分类模型进行训练，在训练过程中待训练分类模型不断学习正样本特征和负样本特征，得到的目标分类模型可以用于核对记账记录和对账单记录，进而输出待核对的记账记录和对账单记录是否匹配的分类结果。因此，通过使用目标分类模型，可以实现记账记录和对账单记录的自动核对，节省了财务出纳人员的劳力付出，同时也避免了因人员失误而造成记账记录和对账单记录的核对出错。

附图说明

图1为本申请实施例中账务数据核对方法一个流程示意图；

图2为本申请实施例中账务数据核对方法另一流程示意图；

图3为本申请实施例中账务数据核对装置一个结构示意图；

图4为本申请实施例中账务数据核对装置另一结构示意图。

具体实施方式

请参阅图1，本申请实施例中账务数据核对方法一个实施例包括：

101、获取携带有正样本标识的正样本和携带有负样本标识的负样本；

本实施例的方法可应用于账务数据核对装置，该装置可以是服务器、终端等能够进行数据处理的计算机设备。账务数据核对装置可以利用训练样本对机器学习模型进行训练，训练完成的机器学习模型可以用于执行多种数据处理任务，例如执行数据分类、文本相似度计算等任务。

在处理对账单记录和记账记录的核对问题时，主要是判断对账单记录与记账记录是否匹配。本实施例采用预先构建的分类模型来核对对账单记录和记账记录。因此，在该分类模型的构建过程中，需要获取该分类模型的训练样本，训练样本为携带有正样本标识的正样本和携带有负样本标识的负样本，其中，正样本包括相互匹配的记账记录和对账单记录，负样本包括相互不匹配的记账记录和对账单记录。

正样本标识和负样本标识都具有指代的作用，正样本标识用于指代正样本，负样本标识用于指代负样本，其标识可以是任意的字段，如正样本标识为“1”，负样本标识为“0”；或者正样本标识为“TRUE”，负样本标识为“FALSE”。正样本标识和负样本标识的具体形式不限定，只要是账务数据核对装置能够识别的标识即可。

本实施例中，确定记账记录与对账单记录是否相互匹配可以从多个维度进行判断，例如从金额维度进行判断，若在一定的日期范围内，记账记录的借方金额与对账单记录的贷方金额相对应或相等，并且记账记录的贷方金额与对账单记录的借方金额相对应或相等，则可确定两者相互匹配，反之，若不相等，或者多个记账记录的借方金额的总额不等于对账单记录的贷方金额，则确定记账记录与对账单记录不匹配；也可以根据凭证号来进行判断，若凭证号相同或者相对应，也可确定两者匹配。确定记账记录与对账单记录是否相互匹配可以有多种方式，本实施例对该方式具体不作限定，只要是能够确定是否相互匹配的方式即可。

102、分别对正样本和负样本进行特征提取，得到正样本特征和负样本特征；

在获取到正样本和负样本之后，分别对正样本和负样本进行特征提取，得到正样本特征和负样本特征，其中，正样本特征为记账记录与对账单记录相互匹配所具备的特征，负样本特征为记账记录与对账单记录相互不匹配所具备的特征。

例如，若判断记账记录与对账单记录相匹配的方式是两者在一定的日期范围内所记录的金额相等，则正样本特征即为记账记录的金额与对账单记录的金额之间的差值为0，负样本特征即为记账记录的金额与对账单记录的金额之间的差值不为0。

本实施例中，正样本特征根据记账记录是否匹配对账单记录的判断方式来确定，由于该判断方式可以有多种，因此，正样本特征也可以有多种。同理，负样本特征也可以有多种。本实施例对正样本特征和负样本特征的具体形式和种类不作限定。

103、构建待训练分类模型，将正样本标识及正样本特征、负样本标识及负样本特征作为训练样本，并基于机器学习算法，利用训练样本对待训练分类模型进行训练，得到目标分类模型；

在获取到正样本特征和负样本特征之后，可以将上述特征作为分类模型的训练样本。因此，可以构建待训练分类模型，将正样本标识及正样本特征、负样本标识及负样本特征作为训练样本，并基于机器学习算法，利用该训练样本对待训练分类模型进行训练。

在模型的训练过程中，该待训练分类模型基于机器学习算法不断学习正样本特征和负样本特征，并根据正样本标识和负样本标识来确定分类的类群，即确定正样本特征应分类到正样本标识所指代的类群(即正样本)、负样本特征应分类到负样本标识所指代的类群(即负样本)。实质上，模型的训练过程就是在该训练样本中找到记账记录与对账单记录匹配和不匹配的分类边界。

待训练分类模型完成训练之后，得到训练完成的分类模型，该训练完成的分类模型可以称为目标分类模型。

104、对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

在得到目标分类模型之后，可以使用该目标分类模型对待核对的记账记录和对账单记录进行识别和分类。因此，可以对待核对的记账记录和对账单记录进行特征提取，从而得到记账记录和对账单记录的待识别特征。

105、向目标分类模型输入待识别特征，利用目标分类模型对待识别特征进行识别，输出待核对的记账记录和对账单记录是否匹配的分类结果；

在得到待识别特征之后，向目标分类模型输入待识别特征，利用该目标分类模型对待识别特征进行识别，目标分类模型根据学习到的正样本特征和负样本特征判断该待识别特征属于正样本特征或者属于负样本特征，进而输出判断结果，即确定该待识别特征属于正样本特征时，说明待核对的记账记录和对账单记录具有相互匹配的特征，则将其分类到正样本标识所指代的类群，并输出待核对的记账记录和对账单记录相互匹配的分类结果；确定该待识别特征属于负样本特征时，说明待核对的记账记录和对账单记录不具有相互匹配的特征，则将其分类到负样本标识所指代的类群，并输出待核对的记账记录和对账单记录相互不匹配的分类结果。

本实施例中，基于机器学习算法，使用提取到的正样本特征和负样本特征对待训练分类模型进行训练，在训练过程中待训练分类模型不断学习正样本特征和负样本特征，得到的目标分类模型可以用于核对记账记录和对账单记录，进而输出待核对的记账记录和对账单记录是否匹配的分类结果。因此，通过使用目标分类模型，可以实现记账记录和对账单记录的自动核对，节省了财务出纳人员的劳力付出，同时也避免了因人员失误而造成记账记录和对账单记录的核对出错。

下面将在前述图1所示实施例的基础上，进一步详细地描述本申请实施例。请参阅图2，本申请实施例中账务数据核对方法另一实施例包括：

201、获取携带有正样本标识的正样本和携带有负样本标识的负样本；

本实施例中，正样本和负样本的获得可以是，由财务人员选取匹配的记账记录与对账单记录作为正样本、选取相互不匹配的记账记录与对账单记录作为负样本，并上传至账务数据核对装置中，从而账务数据核对装置可以获取到正样本和负样本；也可以是，账务数据核对装置根据对账单记录，从多个记账记录中随机采样出m条(m≥1)满足预设条件的记账记录，从而得到正样本或者负样本，其中，该预设条件可以是对账单记录的借方金额不等于记账记录的贷方金额，或者是对账单记录的贷方金额不等于记账记录的借方金额，或者是对账单记录与记账记录匹配或不匹配的其他条件。

202、分别对正样本和负样本进行特征提取，得到正样本特征和负样本特征；

本实施例中，如果记账记录与对账单记录的文本相似或者相同，可以认为记账记录与对账单记录匹配，因此，可以通过记账记录与对账单记录的文本相似度得分这一特征来确定记账记录与对账单记录是否匹配，因此，对正样本和负样本进行特征提取的具体方式可以是，根据文本相似度的计算方法分别计算正样本中记账记录与对账单记录的文本相似度得分以及计算负样本中记账记录与对账单记录的文本相似度得分。

其中，记账记录的文本可以是记账记录的凭证号，对账单记录的文本可以是对账单记录的摘要中记载的凭证号，若记账记录的凭证号与对账单记录的摘要中记载的凭证号相同，则可以确定记账记录与对账单记录是匹配的，因此，可以根据文本相似度的计算方法计算正样本中记账记录的凭证号与对账单记录的摘要的相似度得分，以及，根据文本相似度的计算方法计算负样本中记账记录的凭证号与对账单记录的摘要的相似度得分。

此外，记账记录的文本也可以是记账记录的其他文本，如记账记录的序列号，同样的，对账单记录的文本也可以是对账单记录的序列号，本实施例中记账记录的文本以及对账单记录的文本的具体形式不作限定，只要是可以用于确定记账记录与对账单记录是否匹配的文本形式即可。

其中，文本相似度的计算方法可以是最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量或者Bert句向量等多种文本相似度算法中的一种，也可以是基于文本相似度计算模型的计算方法，该文本相似度计算模型可以通过训练而得到，表示了n个变量与因变量的函数关系，其中n为大于或等于1的正整数。

具体的，该文本相似度计算模型的构建过程为，分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度，得到n个第一初始相似度得分，其中，该n种文本相似度算法可以是上述提及的最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量或者Bert句向量这6种文本相似度算法。此外，还需要获取第一训练文本与第二训练文本的标准相似度得分，该标准相似度得分可以是人为评分。之后，基于机器学习算法，将每个第一初始相似度得分作为该n个变量中的一个变量的取值、该标准相似度得分作为因变量的取值，对该n个第一初始相似度得分与该标准相似度得分进行拟合，得到文本相似度计算模型的参数，因此，该参数也就可以用于拟合文本相似度计算模型的n个变量以得到因变量。

例如，假设文本相似度计算模型具有6个变量，则文本相似度计算模型表示的函数关系可以表示为score＝f(x₁,x₂,x₃,x₄,x₅,x₆)，并且，根据上述提及的6种文本相似度算法中的每一种计算第一训练文本与第二训练文本的第一初始相似度得分，并基于机器学习算法，将每个第一初始相似度得分作为该6个变量中的一个变量的取值且标准相似度得分作为因变量的取值，对该6个第一初始相似度得分与该标准相似度得分进行拟合，得到文本相似度计算模型的参数，因此，该参数也就是上述函数关系score＝f(x₁,x₂,x₃,x₄,x₅,x₆)的参数，可以用于拟合该6个变量与因变量。

其中，用于拟合的机器学习算法可以是XGBoost算法，或者是采用线性回归算法、逻辑回归算法、朴素贝叶斯算法、k-近邻算法(K-Nearest Neighbors,KNN)、随机森林算法(Random Forest)等多种机器学习算法，优选是使用XGBoost算法。

在构建得到文本相似度计算模型之后，可以将其用于记账记录与对账单记录的文本相似度计算中，也就是，分别根据该n种文本相似度算法中的每一种计算正样本中记账记录与对账单记录的文本的第二初始相似度得分，之后，向该文本相似度计算模型输入计算得到的n个第二初始相似度得分，进而计算得到正样本中记账记录与对账单记录的文本相似度得分。

同理，还可以分别根据该n种文本相似度算法中的每一种计算负样本中记账记录与对账单记录的文本的第三初始相似度得分，之后，向该文本相似度计算模型输入计算得到的n个第三初始相似度得分，进而计算得到负样本中记账记录与对账单记录的文本相似度得分。

通过对多种文本相似度算法的计算结果进行拟合，可以融合多种算法的优点，解决了多种算法的计算结果的权重分配问题。

除此之外，对正样本和负样本进行特征提取的具体方式还可以是，分别计算正样本中日记账业务日期与对账单日期之间的差值以及负样本中日记账业务日期与对账单日期之间的差值，即正样本特征和负样本特征为日记账业务日期与对账单日期之间的差值；也可以是，分别计算正样本中日记账借方金额与对账单贷方金额之间的差值以及负样本中日记账借方金额与对账单贷方金额之间的差值，即正样本特征和负样本特征为日记账借方金额与对账单贷方金额之间的差值；还可以是，分别计算正样本中日记账贷方金额与对账单借方金额之间的差值以及负样本中日记账贷方金额与对账单借方金额之间的差值，则正样本特征和负样本特征为日记账贷方金额与对账单借方金额之间的差值。

通过计算日记账借方金额与对账单贷方金额之间的差值，以及计算日记账贷方金额与对账单借方金额之间的差值，可以体现记账记录与对账单记录之间的关联关系，解决了记账记录和对账单记录之间一对多和多对一的问题。

203、构建待训练分类模型，将正样本标识及正样本特征、负样本标识及负样本特征作为训练样本，并基于机器学习算法，利用训练样本对待训练分类模型进行训练，得到目标分类模型；

本实施例中，用于对待训练分类模型进行训练的机器学习算法可以是XGBoost算法，也可以是决策树、随机森林或者神经网络等机器学习算法，其中，XGBoost算法因其固有的优点，是本实施例优选使用的机器学习算法。XGBoost算法在损失函数中加入正则项，用于控制模型的复杂度，降低了模型的方差，使学习出来的模型更加简单，并能够有效防止过拟合。此外，XGBoost算法在训练之前，预先对数据进行了排序，然后保存为block结构，使得模型的并行化训练成为可能。并且，XGBoost算法还内置有处理缺失值的规则，能够自动学习出缺失样本的分裂方向。因此，可优选使用XGBoost算法。

XGBoost算法本质上是一种树提升分类方法，其基本思想是不断地添加树和进行特征分裂来生长一棵树。每添加一棵树，就是在学习一个新的函数来拟合上次预测的残差。模型训练完成后将得到K棵树。在预测阶段，对每个训练样本根据步骤202提取的特征，在每棵树中会落到对应的叶子节点上，最后将每棵树上叶子节点的分数加起来即为训练样本的预测值。XGBoost算法的数学表示如下：

给定一个具有n个样本和m维特征的数据集：

D＝{(x_i,y_i)}(|D|＝n,x_i∈R^m,y_i∈R)；

其中，x_i表示特征，即步骤202所提取到的特征；y_i表示样本标识(即正样本标识或负样本标识)，D指代数据集。

本实施例中的目标分类模型将使用K个加法函数来预测输出，即：

其中，F＝{f(x)＝w_q(x)}(q:R^m→T,w∈R^T)，w_q(x)是叶子节点的分值，q(x)是叶子节点的编号，f(x)是其中的一棵回归树。

通过XGBoost算法对目标分类模型的训练，训练完成的目标分类模型可以用于对待核对的记账记录和对账单记录进行自动对账。

204、根据排序后的业务日期将待核对的记账记录拆分为多个集合；

本实施例中，如果记账记录的数量较为庞大，在核对时需要从数量庞大的记账记录中查找匹配的记账记录，此时，可以预先根据记账记录的业务日期对待核对的记账记录进行排序，并且，根据日期对待核对的对账单记录进行排序，经过排序之后，记账记录的业务日期形成了一定的顺序，从而可以根据该业务日期的顺序很方便地确定记账记录的业务日期。之后，再根据排序后的业务日期将待核对的记账记录拆分为多个集合，其中每个集合对应一个日期范围，从而在查找记账记录时只需根据集合的日期范围确定匹配的记账记录。

在记账记录拆分为多个集合之前预先进行排序，可以快速地确定日记账的业务日期，便于在拆分过程中可以更快速地根据业务日期拆分得到多个集合。其中，对记账记录进行排序可以是按照日期递增或者日期递减的顺序进行排序。

205、在多个集合中，确定待核对的对账单记录的日期在日期范围内的目标集合；

在拆分得到多个集合之后，当需要查找待核对的对账单记录所匹配的记账记录时，可以在该多个集合中，确定待核对的对账单记录的日期在日期范围内的目标集合。

例如，待核对的对账单记录的日期为2008/08/03，而在多个集合中的一个集合的日期范围为2008/08/01～2008/08/31，则可以确定该待核对的对账单记录的日期落在该集合的日期范围内，即该集合为目标集合。

在确定了目标集合之后，可以对目标集合中的记账记录和待核对的对账单记录进行特征提取，从而在该目标集合中查找到与对账单记录相匹配的记账记录，相比于之前需要在数量庞大的记账记录中查找，可以提升匹配效率，缩短匹配时间。

在拆分得到多个集合之后，为便于集合的存储和查询，可以将集合的日期范围作为键、该日期范围对应的集合作为值，并使用字典对该键和值进行存储。例如，在得到日期范围为2008/08/01～2008/08/31的集合之后，可以将该日期范围作为键，该日期范围对应的集合作为值，将键和值存储在字典中。

206、对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

本步骤对待核对的记账记录和对账单记录进行特征提取的方式与前述步骤202对正样本和负样本进行特征提取的方式类似，此处不再赘述。

本实施例中，为避免重复匹配的问题，即同一条记账记录与多条对账单记录相匹配，重复匹配会在一定程度上浪费系统的处理资源，因此，可以对完成核对的记账记录的索引建立索引列表，该索引列表记录了完成核对的记账记录的索引。在核对记账记录与对账单记录时，可以先判断该待核对的记账记录的索引是否已经存在于该索引列表中，若存在，则表明该待核对的记账记录已被核对过，无需再次核对，因此，可以无需执行本步骤；若不存在，则表明该待核对的记账记录未被核对，可以用于判断是否与待核对的对账单记录匹配，因此，可执行本步骤，对记账记录和对账单记录进行特征提取。

通过建立索引列表，可以预先确定待核对的记账记录是否为重复匹配，从而避免了重复匹配的问题。

207、向目标分类模型输入待识别特征，利用目标分类模型对待识别特征进行识别，输出待核对的记账记录和对账单记录是否匹配的分类结果；

在得到待核对的记账记录和对账单记录的待识别特征之后，向目标分类模型输入该待识别特征，目标分类模型可以对该待识别特征进行识别，并输出分类结果。其中，输出的分类结果可以是输出样本标识，即输出正样本标识或者输出负样本标识。

例如，当确定待核对的记账记录和对账单记录匹配时，可以输出正样本标识“1”；当两者不匹配时，输出负样本标识“0”。

以上对本申请实施例中的账务数据核对方法进行了描述，下面对本申请实施例中的账务数据核对装置进行描述，请参阅图3，本申请实施例中账务数据核对装置一个实施例包括：

获取单元301，用于获取携带有正样本标识的正样本和携带有负样本标识的负样本，正样本包括相互匹配的记账记录和对账单记录，负样本包括相互不匹配的记账记录和对账单记录；

特征提取单元302，用于分别对正样本和负样本进行特征提取，得到正样本特征和负样本特征，正样本特征为记账记录与对账单记录相互匹配所具备的特征，负样本特征为记账记录与对账单记录相互不匹配所具备的特征；

模型训练单元303，用于构建待训练分类模型，将正样本标识及正样本特征、负样本标识及负样本特征作为训练样本，并基于机器学习算法，利用训练样本对待训练分类模型进行训练，得到目标分类模型；

特征提取单元302还用于对待核对的记账记录和对账单记录进行特征提取，得到待识别特征；

核对单元304，用于向目标分类模型输入待识别特征，利用目标分类模型对待识别特征进行识别，输出待核对的记账记录和对账单记录是否匹配的分类结果。

本实施例一种优选的实施方式中，特征提取单元302具体用于根据文本相似度的计算方法分别计算正样本中记账记录与对账单记录的文本相似度得分以及负样本中记账记录与对账单记录的文本相似度得分，分别计算正样本中日记账业务日期与对账单日期之间的差值以及负样本中日记账业务日期与对账单日期之间的差值，分别计算正样本中日记账借方金额与对账单贷方金额之间的差值以及负样本中日记账借方金额与对账单贷方金额之间的差值，分别计算正样本中日记账贷方金额与对账单借方金额之间的差值以及负样本中日记账贷方金额与对账单借方金额之间的差值。

本实施例另一优选的实施方式中，特征提取单元302具体用于根据文本相似度的计算方法分别计算正样本中记账记录与对账单记录的文本相似度得分以及负样本中记账记录与对账单记录的文本相似度得分；

其中，文本相似度的计算方法包括基于文本相似度计算模型的计算方法，文本相似度计算模型用于表示n个变量与因变量的函数关系，其中n为大于或等于1的正整数；

文本相似度计算模型的构建过程包括：

分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度，得到n个第一初始相似度得分；

获取第一训练文本与第二训练文本的标准相似度得分，标准相似度得分为人为评分；

基于机器学习算法，将每个第一初始相似度得分作为n个变量中的一个变量的取值、标准相似度得分作为因变量的取值，对n个第一初始相似度得分与标准相似度得分进行拟合，得到文本相似度计算模型的参数，参数用于拟合n个变量以得到因变量。

本实施例另一优选的实施方式中，特征提取单元302具体用于分别根据n种文本相似度算法中的每一种计算正样本中记账记录与对账单记录的文本的第二初始相似度得分，向文本相似度计算模型输入n个第二初始相似度得分，计算得到正样本中记账记录与对账单记录的文本相似度得分；分别根据n种文本相似度算法中的每一种计算负样本中记账记录与对账单记录的文本的第三初始相似度得分，向文本相似度计算模型输入n个第三初始相似度得分，计算得到负样本中记账记录与对账单记录的文本相似度得分。

本实施例另一优选的实施方式中，账务数据核对装置还包括：

排序单元305，用于根据业务日期对待核对的记账记录进行排序，根据日期对待核对的对账单记录进行排序；

拆分单元306，用于根据排序后的业务日期将待核对的记账记录拆分为多个集合，每个集合对应一个日期范围；

确定单元307，用于在多个集合中，确定待核对的对账单记录的日期在日期范围内的目标集合；

特征提取单元302具体用于对目标集合中的记账记录和待核对的对账单记录进行特征提取。

存储单元308，用于将日期范围作为键、日期范围对应的集合作为值，使用字典对键和值进行存储。

建立单元309，用于对完成核对的记账记录的索引建立索引列表；

特征提取单元302具体用于判断待核对的记账记录的索引是否存在于索引列表中，当待核对的记账记录的索引存在于索引列表中时，不对待核对的记账记录和对账单记录进行特征提取；当待核对的记账记录的索引不存在于索引列表中时，对待核对的记账记录和对账单记录进行特征提取。

本实施例中，账务数据核对装置中各单元所执行的操作与前述图1至图2所示实施例中描述的类似，此处不再赘述。

本实施例中，模型训练单元303基于机器学习算法，使用提取到的正样本特征和负样本特征对待训练分类模型进行训练，在训练过程中待训练分类模型不断学习正样本特征和负样本特征，得到的目标分类模型可以用于核对记账记录和对账单记录，进而输出待核对的记账记录和对账单记录是否匹配的分类结果。因此，通过使用目标分类模型，可以实现记账记录和对账单记录的自动核对，节省了财务出纳人员的劳力付出，同时也避免了因人员失误而造成记账记录和对账单记录的核对出错。

下面对本申请实施例中的账务数据核对装置进行描述，请参阅图4，本申请实施例中账务数据核对装置一个实施例包括：

该账务数据核对装置400可以包括一个或一个以上中央处理器(centralprocessing units，CPU)401和存储器405，该存储器405中存储有一个或一个以上的应用程序或数据。

其中，存储器405可以是易失性存储或持久存储。存储在存储器405的程序可以包括一个或一个以上模块，每个模块可以包括对账务数据核对装置中的一系列指令操作。更进一步地，中央处理器401可以设置为与存储器405通信，在账务数据核对装置400上执行存储器405中的一系列指令操作。

账务数据核对装置400还可以包括一个或一个以上电源402，一个或一个以上有线或无线网络接口403，一个或一个以上输入输出接口404，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。

该中央处理器401可以执行前述图1至图2所示实施例中账务数据核对装置所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图1至图2所示实施例中账务数据核对装置所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种账务数据核对方法，其特征在于，包括：

2.根据权利要求1所述的账务数据核对方法，其特征在于，所述分别对所述正样本和所述负样本进行特征提取，包括：

根据文本相似度的计算方法分别计算所述正样本中记账记录与对账单记录的文本相似度得分以及所述负样本中记账记录与对账单记录的文本相似度得分；

分别计算所述正样本中日记账业务日期与对账单日期之间的差值以及所述负样本中日记账业务日期与对账单日期之间的差值；

分别计算所述正样本中日记账借方金额与对账单贷方金额之间的差值以及所述负样本中日记账借方金额与对账单贷方金额之间的差值；

分别计算所述正样本中日记账贷方金额与对账单借方金额之间的差值以及所述负样本中日记账贷方金额与对账单借方金额之间的差值。

3.根据权利要求1所述的账务数据核对方法，其特征在于，所述分别对所述正样本和所述负样本进行特征提取，包括：

其中，所述文本相似度的计算方法包括基于文本相似度计算模型的计算方法，所述文本相似度计算模型用于表示n个变量与因变量的函数关系，其中n为大于或等于1的正整数；

所述文本相似度计算模型的构建过程包括：

获取所述第一训练文本与所述第二训练文本的标准相似度得分，所述标准相似度得分为人为评分；

基于机器学习算法，将每个所述第一初始相似度得分作为所述n个变量中的一个变量的取值、所述标准相似度得分作为所述因变量的取值，对所述n个第一初始相似度得分与所述标准相似度得分进行拟合，得到所述文本相似度计算模型的参数，所述参数用于拟合所述n个变量以得到所述因变量。

4.根据权利要求3所述的账务数据核对方法，其特征在于，所述基于文本相似度计算模型的计算方法，包括：

分别根据所述n种文本相似度算法中的每一种计算所述正样本中记账记录与对账单记录的文本的第二初始相似度得分，向所述文本相似度计算模型输入n个所述第二初始相似度得分，计算得到所述正样本中记账记录与对账单记录的文本相似度得分；

分别根据所述n种文本相似度算法中的每一种计算所述负样本中记账记录与对账单记录的文本的第三初始相似度得分，向所述文本相似度计算模型输入n个所述第三初始相似度得分，计算得到所述负样本中记账记录与对账单记录的文本相似度得分。

5.根据权利要求1所述的账务数据核对方法，其特征在于，所述对待核对的记账记录和对账单记录进行特征提取之前，所述方法还包括：

根据业务日期对待核对的记账记录进行排序，根据日期对待核对的对账单记录进行排序；

根据排序后的业务日期将待核对的记账记录拆分为多个集合，每个所述集合对应一个日期范围；

在所述多个集合中，确定待核对的对账单记录的日期在所述日期范围内的目标集合；

所述对待核对的记账记录和对账单记录进行特征提取，包括：

对所述目标集合中的记账记录和待核对的对账单记录进行特征提取。

6.根据权利要求5所述的账务数据核对方法，其特征在于，所述根据业务日期将待核对的记账记录拆分为多个集合之后，所述方法还包括：

将所述日期范围作为键、所述日期范围对应的集合作为值，使用字典对所述键和所述值进行存储。

7.根据权利要求1所述的账务数据核对方法，其特征在于，所述对待核对的记账记录和对账单记录进行特征提取之前，所述方法还包括：

对完成核对的记账记录的索引建立索引列表；

判断待核对的记账记录的索引是否存在于所述索引列表中；

若是，则不对所述待核对的记账记录和对账单记录进行特征提取；

若否，则对所述待核对的记账记录和对账单记录进行特征提取。

8.一种账务数据核对装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

处理器、存储器、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至7中任一项所述的方法。