发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种基于机器学习模型的单据生成凭证方法及设备。
本申请的方案如下:
根据本申请实施例的第一方面,提供一种基于机器学习模型的单据生成凭证方法,包括:
获取待处理单据数据;
根据所述待处理单据数据,基于所述待处理单据数据对应的模板匹配度模型,得到所述待处理单据数据的业务类别,及所述业务类别对应的专用处理模板;
基于所述专用处理模板对所述待处理单据数据进行处理,生成凭证数据。
优选的,在本申请一种可实现的方式中,还包括:
获取历史单据数据作为样本数据;
通过聚类方法对所述样本数据进行聚类,得到不同业务类别的样本数据;
确定各个业务类别与预设的专用处理模板的对应关系,以根据不同业务类别的样本数据及业务类别对应的专用处理模板,建立所述模板匹配度模型。
优选的,在本申请一种可实现的方式中,还包括:
确定所述样本数据对通用可处理数据的置信度;以根据所述样本数据及所述样本数据对所述通用可处理数据的置信度,建立所述模板匹配度模型。
优选的,在本申请一种可实现的方式中,还包括:
根据所述待处理单据数据,基于所述待处理单据数据对应的模板匹配度模型,得到所述待处理单据数据对所述通用可处理数据的置信度;
所述基于所述专用处理模板对所述待处理单据数据进行处理,生成凭证数据,具体包括:
在所述待处理单据数据对所述通用可处理数据的置信度高于预设阈值时,基于所述待处理单据数据的业务类别对应的专用处理模板对所述待处理单据数据进行处理,生成凭证数据。
优选的,在本申请一种可实现的方式中,还包括:
在所述待处理单据数据对所述通用可处理数据的置信度低于预设阈值时,通过预设的算法分析所述置信度低于预设阈值的异常原因,并将所述异常原因进行上报。
优选的,在本申请一种可实现的方式中,还包括:
判断所述凭证数据是否合规,并在所述凭证数据不合规时进行上报。
优选的,在本申请一种可实现的方式中,还包括:
在所述待处理单据数据对所述通用可处理数据的置信度低于预设阈值时,向用户发送无法处理此类业务的信息。
优选的,在本申请一种可实现的方式中,所述待处理单据数据具有多个数值项;
所述基于所述专用处理模板对所述待处理单据数据进行处理,生成凭证数据,具体包括:
通过预设的模板解析器对所述专用处理模板进行解析,得到所述专用处理模板中与所述待处理单据数据各个数值项对应的计算式;
执行所述计算式,对所述待处理单据数据的各个数值项进行计算,得到所述凭证数据。
优选的,在本申请一种可实现的方式中,还包括:
在根据所述待处理单据数据生成凭证数据时,将所述待处理单据数据标记为已处理业务并存入数据库;
在所述待处理单据数据对所述通用可处理数据的置信度低于预设阈值时,将所述待处理单据数据标记为暂不支持业务并存入数据库;
接收业务人员上传的新增处理模板;
接收业务人员对所述专用处理模板进行调整后生成的调整处理模板;
基于所述新增处理模板或所述调整处理模板对被标记为暂不支持业务的所述待处理单据数据进行处理,生成凭证数据。
根据本申请实施例的第二方面,提供一种基于机器学习模型的单据生成凭证设备,包括:
处理器和存储器;
所述处理器与存储器通过通信总线相连接:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储程序,所述程序至少用于执行以上任一项所述的基于机器学习模型的单据生成凭证方法。
本申请提供的技术方案可以包括以下有益效果:
本申请中,获取待处理单据数据,将待处理单据数据输入对应的模板匹配度模型,得到待处理单据数据的业务类别,及业务类别对应的专用处理模板,专用处理模板用来处理对应的业务类别的待处理单据数据,生成凭证数据。上述处理过程中,通过机器学习模型完成了业务人员对待处理单据数据进行分类并寻找处理单据数据的方法的过程;并通过预设的专用处理模板对待处理单据数据进行处理,生成凭证数据,代替了业务人员手动处理单据数据的过程。本申请中通过机械操作代替人工操作,实现了无人值守,自动完成业务分类,自动处理业务的过程,加快了对单据数据处理的速度,节省了人力资源。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是本申请一个实施例提供的基于机器学习模型的单据生成凭证方法流程图,参照图1-图3,一种基于机器学习模型的单据生成凭证方法,包括:
S11:获取待处理单据数据;
待处理单据数据可以是用户在业务人员提供的终端设备中录入的电子单据数据,终端设备可以是台式电脑,平板电脑等。也可以是其他系统通过接口导入的单据数据。也可以是通过图形图像识别功能识别的纸质单据数据。
S12:根据待处理单据数据,基于待处理单据数据对应的模板匹配度模型,得到待处理单据数据的业务类别,及业务类别对应的专用处理模板;
单据数据一般包括销售发票单据、采购发票单据、费用发票单据、银行收款回单、银行付款回单等业务类别。根据实际业务发生的纸质凭证计入对应科目中。如:公司卖商品给客户开的发票,按业务规则需要计入销售单据,对应科目为主营业务收入。公司购买原材料获取的发票,按业务规则计入采购单据,对应的科目为库存商品等。
模板匹配度模型是通过如下步骤建立的,参照图2:
S21:获取历史单据数据作为样本数据;
S22:通过聚类方法对样本数据进行聚类,得到不同业务类别的样本数据;
业务类别即销售发票单据、采购发票单据、费用发票单据、银行收款回单、银行付款回单。
聚类方法可以采用现有技术中的聚类方法。
S23:确定各个业务类别与预设的专用处理模板的对应关系,以根据不同业务类别的样本数据及业务类别对应的专用处理模板,建立模板匹配度模型;
分析各个业务类别的待处理单据数据的相同处理方式,并针对每类待处理单据数据设计对应的用于处理该类单据数据的专用处理模板,专用处理模板是针对业务处理的流程及计算公式的模板。每一种专用处理模板对应每一种业务类型的单据数据。确定各个业务类别与专用处理模板的对应关系,根据不同业务类别的样本数据及业务类别对应的专用处理模板,建立模板匹配度模型;
S231:确定样本数据对通用可处理数据的置信度;以根据样本数据及样本数据对通用可处理数据的置信度,建立模板匹配度模型。
通用可处理数据为全部专用处理模板可处理的单据数据范围内的数据。
在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信度。
根据样本数据及样本数据对通用可处理数据的置信度,建立模板匹配度模型,是为了对单据数据进行筛选,若样本数据与通用可处理数据具有一定程度的匹配度,则可以被专用处理模板进行处理,若样本数据与通用可处理数据匹配度不达标,则无法被专用处理模板进行处理。
方法还包括:
S121:根据待处理单据数据,基于待处理单据数据对应的模板匹配度模型,得到待处理单据数据对通用可处理数据的置信度。
S13:基于专用处理模板对待处理单据数据进行处理,生成凭证数据;具体包括:
在待处理单据数据对通用可处理数据的置信度高于预设阈值时,基于待处理单据数据的业务类别对应的专用处理模板对待处理单据数据进行处理,生成凭证数据。
在待处理单据数据对通用可处理数据的置信度高于预设阈值时,即在待处理单据数据和通用可处理数据具有一定的匹配度,可以被专用处理模板处理。基于模板匹配度模型还能得到待处理单据数据对应的业务类别,及业务类别对应的专用处理模板,基于专用处理模板对待处理单据数据进行处理,生成凭证数据。
其中,预设阈值为样本数据与通用可处理数据的最低匹配度。
本申请中,将待处理单据数据输入对应的模板匹配度模型,得到待处理单据数据的业务类别,业务类别对应的专用处理模板,和待处理单据数据对通用可处理数据的置信度,首先判断待处理单据数据对通用可处理数据的置信度是否高于预设阈值,在置信度高于预设阈值时,表示待处理单据数据为可以被专用处理模板进行处理的数据。通过专用处理模板对待处理单据数据进行处理,生成凭证数据。
上述处理过程中,通过机器学习模型完成了业务人员对待处理单据数据进行分类并寻找处理单据数据的方法的过程;并通过预设的专用处理模板对待处理单据数据进行处理,生成凭证数据,代替了业务人员手动处理单据数据的过程。本申请中通过机械操作代替人工操作,实现了无人值守,自动完成业务分类,自动处理业务的过程,加快了对单据数据处理的速度,节省了人力资源。
一些实施例中的基于机器学习模型的单据生成凭证方法,还包括:
在待处理单据数据对通用可处理数据的置信度低于预设阈值时,通过预设的算法分析置信度低于预设阈值的异常原因,并将异常原因进行上报。
通过预设的算法分析待处理单据数据与通用可处理数据不匹配的原因,是否待处理单据数据出错,或者待处理单据属于特殊业务类别,或者是其他原因,并将得出的异常原因进行上报给业务人员,业务人员可以根据异常原因进行处理。
一些实施例中的基于机器学习模型的单据生成凭证方法,还包括:
判断凭证数据是否合规,并在凭证数据不合规时进行上报。
在生成凭证数据后,对凭证数据进行财务业务规则的判断,判断借、贷方是否平衡,科目是否正确等,在凭证数据不合规时上报给业务人员。
一些实施例中的基于机器学习模型的单据生成凭证方法,还包括:
在待处理单据数据对通用可处理数据的置信度低于预设阈值时,向用户发送无法处理此类业务的信息。
在待处理单据数据对通用可处理数据的置信度低于预设阈值时,即专用处理模板无法处理该待处理单据数据,此时向用户反馈无法处理此类业务的信息。
优选的,在根据待处理单据数据生成凭证数据时,将待处理单据数据标记为已处理业务并存入数据库;
在待处理单据数据对通用可处理数据的置信度低于预设阈值时,将待处理单据数据标记为暂不支持业务并存入数据库;
接收业务人员上传的新增处理模板;
接收业务人员对专用处理模板或通用可处理数据进行调整后生成的调整处理模板;
基于新增处理模板或调整处理模板对无法处理的单据数据进行处理,生成凭证数据。
在根据待处理单据数据生成凭证数据时,即待处理单据数据已处理完成,将待处理单据数据标记为已处理业务并存入数据库。
在待处理单据数据对通用可处理数据的置信度低于预设阈值时,即专用处理模板无法处理该待处理单据数据,无法处理的待处理单据数据标记为暂不支持业务并存入数据库,业务人员可以从数据库中调出该无法处理的待处理单据数据,判断该待处理单据数据的异常情况,根据该无法处理的待处理单据数据对现有的专用处理模板进行调整,或者根据该单据数据设计新的专用处理模板,并录入系统。
系统接收业务人员上传的新增处理模板,或业务人员对专用处理模板进行调整后生成的调整处理模板;
基于新增处理模板或调整处理模板对被标记为暂不支持业务的待处理单据数据进行处理,生成凭证数据。
优选的,新增处理模板或调整处理模板后,发布会计系统已支持处理相关业务的公告。
一些实施例中的基于机器学习模型的单据生成凭证方法,将被标记为暂不支持业务的待处理单据数据作为新生成的样本数据;
通过聚类方法对新生成的样本数据进行聚类,得到新生成的业务类别的数据。
确定新生成的业务类别与新增处理模板或调整处理模板的对应关系,以根据新生成的业务类别的样本数据及新生成的业务类别对应的新增处理模板或调整处理模板,建立模板匹配度模型。
一些实施例中的基于机器学习模型的单据生成凭证方法,待处理单据数据具有多个数值项;
基于专用处理模板对待处理单据数据进行处理,生成凭证数据,具体包括:
通过预设的模板解析器对专用处理模板进行解析,得到专用处理模板中与待处理单据数据各个数值项对应的计算式;
执行计算式,对待处理单据数据的各个数值项进行计算,得到凭证数据。
待处理单据数据具有多个数值项,如贷方、借方的金额、税额等值。
通过预设的模板解析器对专用处理模板进行解析,读取模板信息,解析模板分录条数,再遍历分录,从分录的摘要、科目、借方、贷方分别取出对应的计算式,通过对应的计算式去待处理单据数据上取对应栏次的值进行公式运算,得到凭证数据。
图4是本申请一个实施例提供的基于机器学习模型的单据生成凭证设备结构图,参照图4,一种基于机器学习模型的单据生成凭证设备,包括:
处理器31和存储器32;
处理器31与存储器32通过通信总线相连接:
其中,处理器31,用于调用并执行存储器32中存储的程序;
存储器32,用于存储程序,程序至少用于执行上述任一实施例中的基于机器学习模型的单据生成凭证方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。