CN113886448A

CN113886448A - 一种账目数据处理方法、装置及存储介质

Info

Publication number: CN113886448A
Application number: CN202111479403.5A
Authority: CN
Inventors: 黄斌
Original assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Current assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-04
Anticipated expiration: 2041-12-07
Also published as: CN113886448B

Abstract

本发明提出了一种账目数据处理方法、装置及存储介质，该方法包括：从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。本发明生成记账凭证后再对规则集中的规则进行优化后更新规则集，从而保证了规则集的准确性，进而确保了后续生成的记账凭证的准确性。

Description

一种账目数据处理方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种账目数据处理方法、装置及存储介质。

背景技术

现有技术中，一般通过票据识别或直接从银行接口中获取到银行流水明细自动导入成银行日记账，再通过日记账中的摘要、金额等信息，计算出凭证分录科目或凭证模板，完成自动记账的流程。

比如，在中国专利201911391598.0中，日记账信息会通过分类器进行业务类型的分类，其公开了：

1.内容分类器：通过摘要分词获得的关键字和其他信息针对用户的最近一次处理习惯建立习惯表进行分类；

2.协同分类器：通过所属银行一致数据进行分词抽取的关键字最大概率的习惯进行分类。

其存在以下缺陷：

1. 内容分类器：依赖最近一次处理习惯以及分词抽取的关键字，摘要经过分词后有多个关键字难以选择，在同一关键字可能对应多种类型的客观事实下，最近一次处理习惯可能会呈现交替变化的现象使人困惑；

2. 协同分类器：依赖所属银行一致的数据，但摘要信息和所属银行并无直接关系，导致协同分类并不准确。

即现有技术中，生成规则集性能较差，且也无法根据当前记账信息进行更新规则集，进而导致了记账的不准确，这是现有技术的缺陷。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种账目数据处理方法，该方法包括：

规则集生成步骤，从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；

匹配步骤，基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；

处理步骤，将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中；

更新步骤，基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。

更进一步地，所述规则集生成步骤的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，即通过变量b在关键字准确率窗口值为c的窗口内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述规则总数、规则准确率、miss率调整到一个可接受范围，基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。

更进一步地，所述关键字准确率包括借方准确率和贷方准确率，其中，借方准确率=当前关键字在当前借方科目下的出现次数/当前关键字在所有借方科目出现的总次数，贷方科目准确率=当前关键字在当前贷方科目下的出现次数/当前关键字在所有贷方科目出现的总次数。

更进一步地，所述生成关键字的操作为：对历史账目的摘要信息的文本进行预处理，然后使用加入行业词典的分词器对预处理后的文本进行分词，得到term集合，每个term包含：term文本、起始位置和结束位置；执行N轮term选择，第1轮选择出1个term的所有组合，第2轮选择2个term的所有组合，以此类推，第X轮选择X个term的所有组合；通过term组合生成关键字，每组term按起始位置进行排序后连接形成关键字，如果term之间在原文本是相连接的词，则直接连接，如果term之间不相连，则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字，其中，1 <= N <= 当前term的总数量。

更进一步地，所述匹配步骤的操作为：通过企业画像数据得到当前企业的企业向量，计算所述企业向量与簇心向量的距离，选择最近的簇心为当前企业所属簇ID，基于所述所属簇ID从所述处理规则集中选择该ID对应的至少一条处理规则。

更进一步地，所述处理步骤的操作为：对当前企业的待记账数据中的摘要信息做文本预处理，对预处理后的文本按顺序从上到下验证是否满足该ID对应的至少一条处理规则的执行条件，若是，则执行该处理规则并完成生成记账凭证，若否，则继续验证下一条处理规则，直至所有处理规则都被验证；对于通过处理规则生成的记账凭证，为其标记出使用的处理规则，给用户提供友好的体验；若基于处理规则的记账凭证不满足用户需求，用户可自行调整记账凭证，对于少量无法匹配到处理规则的记账数据提示用户进行手工记账生成记账凭证；最后将生成的记账凭证并保存在数据库中。

更进一步地，所述更新步骤的操作为：计算当前企业的待记账数据中的摘要信息中的一条概率最大的关键字，计为KA，检查自动记账使用的处理规则的关键字，如果是用户的自定义关键字，且其概率 < KA概率，则提示用户是否调整此关键字为KA关键字；如果不是用户的自定义的关键字，且其概率 < KA概率，则修改此关键字为KA关键字，使用更新为KA关键字的处理规则作为优化后的处理规则更新所述处理规则集。

本发明还提出了一种账目数据处理装置，该装置包括：

规则集生成单元，从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；

匹配单元，基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；

处理单元，将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中；

更新单元，基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。

更进一步地，所述规则集生成单元的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述规则总数、规则准确率、miss率调整到一个可接受范围，基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。

更进一步地，所述匹配单元的操作为：通过企业画像数据得到当前企业的企业向量，计算所述企业向量与簇心向量的距离，选择最近的簇心为当前企业所属簇ID，基于所述所属簇ID从所述处理规则集中选择该ID对应的至少一条处理规则。

更进一步地，所述处理单元的操作为：对当前企业的待记账数据中的摘要信息做文本预处理，对预处理后的文本按顺序从上到下验证是否满足该ID对应的至少一条处理规则的执行条件，若是，则执行该处理规则并完成生成记账凭证，若否，则继续验证下一条处理规则，直至所有处理规则都被验证；对于通过处理规则生成的记账凭证，为其标记出使用的处理规则，给用户提供友好的体验；若基于处理规则的记账凭证不满足用户需求，用户可自行调整记账凭证，对于少量无法匹配到处理规则的记账数据提示用户进行手工记账生成记账凭证；最后将生成的记账凭证并保存在数据库中。

更进一步地，所述更新单元的操作为：计算当前企业的待记账数据中的摘要信息中的一条概率最大的关键字，计为KA，检查自动记账使用的处理规则的关键字，如果是用户的自定义关键字，且其概率 < KA概率，则提示用户是否调整此关键字为KA关键字；如果不是用户的自定义的关键字，且其概率 < KA概率，则修改此关键字为KA关键字，使用更新为KA关键字的处理规则作为优化后的处理规则更新所述处理规则集。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种账目数据处理方法、装置及存储介质，该方法包括：规则集生成步骤S101，从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；匹配步骤S102，基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；处理步骤S103，将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中；更新步骤S104，基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。本发明中采集所有企业的不同银行的历史账目数据进行挖掘后得到一处理规则集，将当前企业与该历史账目数据的企业进行画像处理，进而选择最佳的处理规则，生成记账凭证后再对规则集中的规则进行优化后更新规则集，从而保证了规则集的准确性，进而确保了后续生成的记账凭证的准确性，提高自动记账的效率及准确率；本发明中，创新的提出了将企业进行聚类分簇，分簇后再对其历史账务数据进行处理后得到数据表A，并按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，并定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，然后对数据表A使用最终规则集进行预测后对最终规则集进行优化，优化后的最红规则集才用于实际账目数据的处理，这样生成的规则集与实际使用中的规则集更为接近，解决了现有技术中的生成的规则集不准确的技术问题，且数据处理时加入企业所在簇ID，便于后续的匹配，提高匹配的准确率；本发明中，在账目数据处理时，即为企业划分到一个簇中，因为近似的企业账目信息也相似，因此，本发明中通过画像技术从所述处理规则集中选择该ID对应的至少一条处理规则，从而确保了从而的处理规则的准确性，进而使得生成的规则更为准确，提高账目自动处理的准确性；本发明中，具体提出了更新规则的方法，即基于关键词的概率值进行更新规则，从而确保更新后的规则更加适合账务数据的处理，确保后续规则匹配率更高，基于簇ID选择出的规则的数量更为少，提高了匹配效率，且提高了记账凭证生成的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种账目数据处理方法的流程图。

图2是根据本发明的实施例的一种账目数据处理装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种账目数据处理方法，该方法包括：

规则集生成步骤S101，从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；

匹配步骤S102，基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；

处理步骤S103，将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中；

更新步骤S104，基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。

本发明中采集所有企业的不同银行的历史账目数据进行挖掘后得到一处理规则集，将当前企业与该历史账目数据的企业进行画像处理，进而选择最佳的处理规则，生成记账凭证后再对规则集中的规则进行优化后更新规则集，从而保证了规则集的准确性，进而确保了后续生成的记账凭证的准确性，提高自动记账的效率及准确率，这是本发明的一个重要发明点。

在一个实施例中，所述规则集生成步骤S101的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值，在数据表B中通过收支方向把数据表A中的一条记录按照借方科目、贷方科目分成两条记录，对于借方科目的记录，贷方科目和贷方科目合计值的字段值为空，反之亦然；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，即通过变量b在关键字准确率窗口值为c的窗口内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述规则总数、规则准确率、miss率调整到一个可接受范围，所述可接受范围是指：所述规则总数小于一定阈值，规则准确率大于一定阈值，miss率小于一定阈值，通过三者的调整调整变量a、变量b、变量c的值，即基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。在对该条历史账目的摘要信息生成关键字之前，还对摘要信息进行预处理，预处理包括繁转简、全角转半角、去除空白字符等。

本发明中，创新的提出了将企业进行聚类分簇，分簇后再对其历史账务数据进行处理后得到数据表A，并按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，并定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，然后对数据表A使用最终规则集进行预测后对最终规则集进行优化，优化后的最红规则集才用于实际账目数据的处理，这样生成的规则集与实际使用中的规则集更为接近，解决了现有技术中的生成的规则集不准确的技术问题，且数据处理时加入企业所在簇ID，便于后续的匹配，提高匹配的准确率，这是本发明的一个重要发明点。

在一个实施例中，定义了所述关键字准确率包括借方准确率和贷方准确率，其中，借方准确率=当前关键字在当前借方科目下的出现次数/当前关键字在所有借方科目出现的总次数，贷方科目准确率=当前关键字在当前贷方科目下的出现次数/当前关键字在所有贷方科目出现的总次数。通过准确率可以过滤掉一些生成的初始规则，提高生成规则的准确性，这是本发明的一个重要发明点。

在一个实施例中，所述生成关键字的操作为：对历史账目的摘要信息的文本进行预处理，然后使用加入行业词典的分词器对预处理后的文本进行分词，得到term集合，每个term包含：term文本、起始位置和结束位置；执行N轮term选择，第1轮选择出1个term的所有组合，第2轮选择2个term的所有组合，以此类推，第X轮选择X个term的所有组合；通过term组合生成关键字，每组term按起始位置进行排序后连接形成关键字，如果term之间在原文本是相连接的词，则直接连接，如果term之间不相连，则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字，其中，1 <= N <= 当前term的总数量。

本发明中，提出了适于生成账目数据关键词的具体方法，其进行多个轮次的处理，通过term组合生成关键字，每组term按起始位置进行排序后连接形成关键字，如果term之间在原文本是相连接的词，则直接连接，如果term之间不相连，则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字，从而生成的账目数据的关键词更为准确，进而使得生成的规则更为准确，提高账目自动处理的准确性，这是本发明的一个重要发明构思。

在一个实施例中，所述匹配步骤S102的操作为：通过企业画像数据得到当前企业的企业向量，计算所述企业向量与簇心向量的距离，选择最近的簇心为当前企业所属簇ID，基于所述所属簇ID从所述处理规则集中选择该ID对应的至少一条处理规则。实际使用的企业画像数据包含以下内容：企业规模、城市、所属行业、各行业相关性得分。

本发明中，在账目数据处理时，即为企业划分到一个簇中，因为近似的企业账目信息也相似，因此，本发明中通过画像技术从所述处理规则集中选择该ID对应的至少一条处理规则，从而确保了从而的处理规则的准确性，进而使得生成的规则更为准确，提高账目自动处理的准确性，这是本发明的一个重要发明构思。

在一个实施例中，所述处理步骤S103的操作为：对当前企业的待记账数据中的摘要信息做文本预处理，预处理的方法如前所述。对预处理后的文本按顺序从上到下验证是否满足该ID对应的至少一条处理规则的执行条件，若是，则执行该处理规则并完成生成记账凭证，若否，则继续验证下一条处理规则，直至所有处理规则都被验证；对于通过处理规则生成的记账凭证，为其标记出使用的处理规则，给用户提供友好的体验；若基于处理规则的记账凭证不满足用户需求，用户可自行调整记账凭证，对于少量无法匹配到处理规则的记账数据提示用户进行手工记账生成记账凭证；最后将生成的记账凭证并保存在数据库中。

本发明中，选择簇ID对应的至少一条处理规则对当前需要处理的待记账数据进行处理，由于已经是按照簇选择的处理规则，大大减少了需要匹配处理的规则数量，即将需要匹配规则不是整个规则集中的规则，而是簇ID选择出来的部分规则，大大提高了处理效率，且在处理过程中，对于通过处理规则生成的记账凭证，为其标记出使用的处理规则，供用户参考，从而给用户提供友好的体验，这是本发明的一个重要发明点。

在一个实施例中，所述更新步骤S104的操作为：计算当前企业的待记账数据中的摘要信息中的一条概率最大的关键字，计为KA，检查自动记账使用的处理规则的关键字，如果是用户的自定义关键字，且其概率 < KA概率，则提示用户是否调整此关键字为KA关键字；如果不是用户的自定义的关键字，且其概率 < KA概率，则修改此关键字为KA关键字，使用更新为KA关键字的处理规则作为优化后的处理规则更新所述处理规则集。

本发明中，具体提出了更新规则的方法，即基于关键词的概率值进行更新规则，从而确保更新后的规则更加适合账务数据的处理，确保后续规则匹配率更高，基于簇ID选择出的规则的数量更为少，提高了匹配效率，且提高了记账凭证生成的准确性，这是本发明的另一个重要发明点。

图2示出了本发明的一种账目数据处理装置，该装置包括：

规则集生成单元201，从数据库中获取多个企业的历史账目数据，对所述历史账目数据进行挖掘得到一处理规则集，所述处理规则集中包括至少一条处理规则；

匹配单元202，基于企业画像数据从所述处理规则集中匹配出适合当前企业的至少一条处理规则；

处理单元203，将当前企业的待记账数据使用所述至少一条处理规则进行处理生成记账凭证并保存在数据库中；

更新单元204，基于生成的所述记账凭证对所述处理规则集中的一处理规则进行优化，使用优化后的该处理规则更新所述处理规则集。

在一个实施例中，所述规则集生成单元201的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值，在数据表B中通过收支方向把数据表A中的一条记录按照借方科目、贷方科目分成两条记录，对于借方科目的记录，贷方科目和贷方科目合计值的字段值为空，反之亦然；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，即通过变量b在关键字准确率窗口值为c的窗口内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述规则总数、规则准确率、miss率调整到一个可接受范围，所述可接受范围是指：所述规则总数小于一定阈值，规则准确率大于一定阈值，miss率小于一定阈值，通过三者的调整调整变量a、变量b、变量c的值，即基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。在对该条历史账目的摘要信息生成关键字之前，还对摘要信息进行预处理，预处理包括繁转简、全角转半角、去除空白字符等。

在一个实施例中，所述匹配单元202的操作为：通过企业画像数据得到当前企业的企业向量，计算所述企业向量与簇心向量的距离，选择最近的簇心为当前企业所属簇ID，基于所述所属簇ID从所述处理规则集中选择该ID对应的至少一条处理规则。实际使用的企业画像数据包含以下内容：企业规模、城市、所属行业、各行业相关性得分。

在一个实施例中，所述处理单元203的操作为：对当前企业的待记账数据中的摘要信息做文本预处理，预处理的方法如前所述。对预处理后的文本按顺序从上到下验证是否满足该ID对应的至少一条处理规则的执行条件，若是，则执行该处理规则并完成生成记账凭证，若否，则继续验证下一条处理规则，直至所有处理规则都被验证；对于通过处理规则生成的记账凭证，为其标记出使用的处理规则，给用户提供友好的体验；若基于处理规则的记账凭证不满足用户需求，用户可自行调整记账凭证，对于少量无法匹配到处理规则的记账数据提示用户进行手工记账生成记账凭证；最后将生成的记账凭证并保存在数据库中。

在一个实施例中，所述更新单元204的操作为：计算当前企业的待记账数据中的摘要信息中的一条概率最大的关键字，计为KA，检查自动记账使用的处理规则的关键字，如果是用户的自定义关键字，且其概率 < KA概率，则提示用户是否调整此关键字为KA关键字；如果不是用户的自定义的关键字，且其概率 < KA概率，则修改此关键字为KA关键字，使用更新为KA关键字的处理规则作为优化后的处理规则更新所述处理规则集。

本发明一个实施例中提出了一种账目数据处理设备，所述设备包括处理器和存储器，所述处理器与所述处理器通过总线连接，所述存储器上存储有计算机程序，所述处理器执行所述存储器上的计算机程序时实现上述的方法，该设备可以是台式计算机、服务器、笔记本、智能终端等等。

本发明一个实施例中提出了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法，该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种账目数据处理方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述规则集生成步骤的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述最终规则总数、规则准确率、无法预测的关键字miss率调整到一个可接受范围，基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。

3.根据权利要求2所述的方法，其特征在于，所述关键字准确率包括借方准确率和贷方准确率，其中，借方准确率=当前关键字在当前借方科目下的出现次数/当前关键字在所有借方科目出现的总次数，贷方科目准确率=当前关键字在当前贷方科目下的出现次数/当前关键字在所有贷方科目出现的总次数。

4.根据权利要求3所述的方法，其特征在于，所述生成关键字的操作为：对历史账目的摘要信息的文本进行预处理，然后使用加入行业词典的分词器对预处理后的文本进行分词，得到term集合，每个term包含：term文本、起始位置和结束位置；执行N轮term选择，第1轮选择出1个term的所有组合，第2轮选择2个term的所有组合，以此类推，第X轮选择X个term的所有组合；通过term组合生成关键字，每组term按起始位置进行排序后连接形成关键字，如果term之间在原文本是相连接的词，则直接连接，如果term之间不相连，则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字，其中，1 <= N <= 当前term的总数量。

5.根据权利要求4所述的方法，其特征在于，所述匹配步骤的操作为：通过企业画像数据得到当前企业的企业向量，计算所述企业向量与簇心向量的距离，选择最近的簇心为当前企业所属簇ID，基于所述所属簇ID从所述处理规则集中选择该ID对应的至少一条处理规则。

6.一种账目数据处理装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述规则集生成单元的操作为：从数据库中获取多个企业的历史账目数据，为历史账目数据中的每一条历史账目加入该企业聚类划分出的簇ID，并对该条历史账目的摘要信息生成关键字，所有历史账目处理完毕后得到数据表A，所述数据表A的字段包括：企业ID、簇ID、收支方向、银行日记账摘要、关键字集合、借方科目、贷方科目；通过Spark按簇ID、收支方向分组对数据表A进行数据处理，在每个分组内统计出各个关键字对应的借方科目、贷方科目的合计值，对数据表A中的所有数据处理完毕得到数据表B，数据表B的字段包括：簇ID、收支方向、关键字、关键字出现总数、借方科目、借方科目合计值、贷方科目和贷方科目合计值；定义变量a为关键字出现总数阈值，变量b为科目合计值占比阈值，变量c为合并的关键字准确率窗口值，并初始化变量a、b、c的值；使用网格搜索方法对表B各分组数据按借方科目、贷方科目分别按变量a、变量b进行过滤并按准确率从高到低排序生成原始规则集，通过变量b在关键词准确率窗口范围内进行相似关键字的合并得到最终规则集，然后使用最终规则集对表A的数据进行预测，最后统计出变量a、变量b、变量c的初始值对应的最终规则总数、规则准确率、无法预测的关键字miss率；将所述最终规则总数、规则准确率、无法预测的关键字miss率调整到一个可接受范围，基于所述可接受范围获得变量a、变量b、变量c的更新值，使用变量a、变量b、变量c的更新值使用同样的方法对数据表B进行处理生成更新的最终规则集作为处理规则集并插入到数据库中，所述处理规则集包括至少一张规则表，所述规则表的字段包括：簇ID、收支方向、关键字、借方/贷方科目、科目和关键字准确率。

8.根据权利要求7所述的装置，其特征在于，所述关键字准确率包括借方准确率和贷方准确率，其中，借方准确率=当前关键字在当前借方科目下的出现次数/当前关键字在所有借方科目出现的总次数，贷方科目准确率=当前关键字在当前贷方科目下的出现次数/当前关键字在所有贷方科目出现的总次数。

9.根据权利要求8所述的装置，其特征在于，所述生成关键字的操作为：对历史账目的摘要信息的文本进行预处理，然后使用加入行业词典的分词器对预处理后的文本进行分词，得到term集合，每个term包含：term文本、起始位置和结束位置；执行N轮term选择，第1轮选择出1个term的所有组合，第2轮选择2个term的所有组合，以此类推，第X轮选择X个term的所有组合；通过term组合生成关键字，每组term按起始位置进行排序后连接形成关键字，如果term之间在原文本是相连接的词，则直接连接，如果term之间不相连，则通过“任意一个或多个字符”的字符进行连接形成正则表达式类型的关键字，其中，1 <= N <= 当前term的总数量。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。