CN112364645A - 一种自动审核erp财务系统业务单据的方法及设备 - Google Patents

一种自动审核erp财务系统业务单据的方法及设备 Download PDF

Info

Publication number
CN112364645A
CN112364645A CN202011186277.XA CN202011186277A CN112364645A CN 112364645 A CN112364645 A CN 112364645A CN 202011186277 A CN202011186277 A CN 202011186277A CN 112364645 A CN112364645 A CN 112364645A
Authority
CN
China
Prior art keywords
keywords
keyword
key phrase
library
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011186277.XA
Other languages
English (en)
Inventor
王印智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN202011186277.XA priority Critical patent/CN112364645A/zh
Publication of CN112364645A publication Critical patent/CN112364645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种自动审核ERP财务系统业务单据的方法及设备,用以解决审核人员以人工识别的方式对业务单据进行检查,花费大量的时间,导致有些错误单据在财务结算时才被发现,严重影响了业务处理过程的效率及准确性。该方法通过获取业务单据退单原因的文本信息,对文本信息进行预处理得到关键词集合;通过预设算法确定关键词的分数,并将关键词集合中分数大于第一预设值的关键词存储到关键词库;匹配关键词集合中的关键词得到关键短语集合,将关键短语集合存储到关键短语库;通过关键词库和关键短语库,对业务单据中的违规信息进行自动审核。减少降低了由审核人员人工审核而导致的错误单据,极大的提高升了审核人员的审核效率和准确率。

Description

一种自动审核ERP财务系统业务单据的方法及设备
技术领域
本申请涉及智能识别领域,尤其涉及一种自动审核ERP财务系统业务单据的方法及设备。
背景技术
企业资源计划(Enterprise Resource Planning,ERP)财务系统是集报账、财务、资产、税务等为一体的系统,其存储的数据量十分庞大。因此,如何从ERP财务系统存储的庞大数据中挖掘出需要的信息,用于财务处理,使财务系统的功能更加全面与智能成为关键。
在ERP财务系统中,各类业务单据总会存在报账人制单过程中错误填写情况,例如,报账规定中规定单据中不能包含礼品、礼金、回扣、提成等敏感字眼,酒类发票不得出现茅台、五粮液等商品名称,不可报销衣服、箱包、笔记本等各个商场的发票等。
目前通常由审核人员以人工识别的方式对待审核单据进行一一检查各项,检查项一般随业务的增多而不断增加。
这些业务单据的数量十分庞大,审核任务繁重、需要检查的内容较多,需要花费大量的时间,审核人员在重复工作状态下极易疲劳出错,导致有些错误单据在财务结算的最后环节才被发现,严重影响了业务处理过程的效率及准确性。
发明内容
本申请实施例提供一种自动审核ERP财务系统业务单据的方法及设备,用以解决现有的人工审核任务繁重、需要检查的内容较多,导致有些错误单据在财务结算的最后环节才被发现,严重影响了财务处理过程的效率及准确性的问题。
本申请实施例提供的一种自动审核ERP财务系统业务单据的方法,包括:
获取业务单据退单原因的文本信息,对所述文本信息进行预处理得到关键词集合;通过预设算法确定关键词的分数,并将所述关键词集合中分数大于第一预设值的关键词存储到关键词库;匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库;通过所述关键词库和所述关键短语库,对业务单据中的违规信息进行自动审核。
在一个示例中,匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库,包括:利用特征融合匹配关键词集合中的关键词,并汇总成关键短语集合;将关键短语集合中频率大于第二预设值的关键短语存储到关键短语库。
在一个示例中,过预设算法确定关键词的分数,包括:通过公式
Figure BDA0002751509900000021
分别计算关键词在所述文本信息中的词频;其中,P表示关键词的词频,n表示关键词在文本信息中的出现次数,m表示文本信息中所有关键词的出现次数之和;通过公式
Figure BDA0002751509900000022
分别计算关键词的逆向文件频率;其中,针对每个关键词,Q表示该关键词的逆向文件频率,a表示含有该关键词的业务单据的数量,b表示业务单据的总数;通过公式M=P×Q分别计算关键词的分数;其中,M表示关键词的分数。
在一个示例中,将所述关键词集合中分数大于第一预设值的关键词存储到关键词库之前,所述方法还包括:利用预设停词库标记出关键词集合中的停用词;所述停用词包括标点符号、数值、语气助词;将关键词集合中未标记的关键词按照分数进行排序。
在一个示例中,对所述文本信息进行预处理得到关键词集合,包括:利用短文本分词算法对所述文本信息进行分词得到关键词;将关键词汇总得到关键词集合。
在一个示例中,将所述关键短语集合存储到关键短语库之前,所述方法还包括:通过公式F=w1M1+w2M2+...+wnMn对组成关键短语的关键词的分数进行加权求和,得到关键短语的频率;其中,F表示关键短语的频率,n表示组成关键短语的关键词个数,Mn表示组成关键短语的关键词的分数,w1+w2+...+wn=1。
在一个示例中,利用短文本分词算法对所述文本信息进行分词得到关键词,包括:确定词典中最长词的字符数为max;将所述文本信息中的前max个字符作为匹配字段;将所述匹配字段与所述词典进行对比;若匹配到匹配词则将匹配词切分出来,对剩下的文本信息继续进行匹配;若匹配不到匹配词则将所述匹配字段的最后一个字去掉,对匹配字段中的剩余字符继续进行匹配,直至匹配成功,切分出所述文本信息中的所有关键词。
在一个示例中,所述方法还包括:确定业务单据中包含的违规信息,发出警告提示业务人员。
在一个示例中,所述方法还包括:记录审核出的违规信息的出现频率,并根据审核出的违规信息的出现频率向业务人员反馈。
本申请实施例提供的一种自动审核ERP财务系统业务单据的设备,包括:获取业务单据退单原因的文本信息,对所述文本信息进行预处理得到关键词集合;通过预设算法确定关键词的分数,并将所述关键词集合中分数大于第一预设值的关键词存储到关键词库;匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库;通过所述关键词库和所述关键短语库,对业务单据中的违规信息进行自动审核。
本申请实施例采用的上述至少一个技术方案至少能够达到以下有益效果:
通过对业务单据的退单原因进行文本汇总,并对文本进行过滤,构建关键词库和关键短语库,对业务单据的违规信息进行自动审核,防止错误单据在财务结算的最后环节才被发现,节约了审核人员的时间,减少降低了由审核人员人工审核而导致的错误单据,极大的提高了审核人员的审核效率和准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种自动审核ERP财务系统业务单据的方法流程图;
图2为本申请实施例提供的另一种自动审核ERP财务系统业务单据的方法流程图;
图3为本申请实施例提供的对应于图1的一种自动审核ERP财务系统业务单据的设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在ERP财务系统中,各类业务单据总会存在报账人制单过程中错误填写的情况,目前通常由审核人员以人工识别的方式对待审核单据进行一一检查各项,检查项一般随业务的增多而不断增加。业务单据的数量十分庞大,审核人员的审核任务繁重、需要检查的内容较多,审核不合规的单据占据了审核人员大部分时间,审核人员在重复工作状态下极易疲劳出错,导致有些错误单据在财务结算的最后环节才被发现,严重影响了财务处理过程的效率及准确性。
本申请实施例通过对业务单据的退单原因进行文本汇总,并对文本进行过滤,构建关键词库和关键短语库,对业务单据的违规信息进行自动审核,防止错误单据在财务结算的最后环节才被发现,节约了审核人员的时间,减少了由审核人员人工审核而导致的错误单据,极大的提高了审核人员的审核效率和准确率。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
请参见图1,图1为本申请实施例提供的一种自动审核ERP财务系统业务单据的方法流程图,具体包括以下步骤:
S101:获取业务单据的文本信息,对文本信息进行预处理得到关键词集合。
在本申请实施例中,服务器确定ERP财务系统所有业务单据中退单过的业务单据,将所有退回业务单据的退单原因以逗号隔开形成文本信息。收集完毕文本信息后,服务器对收集到的文本信息进行预处理,得到关键词集合。
其中,退单是指申报人员提交到ERP财务系统的单据可能存在的不合规定的地方。例如,报账规定中规定单据中不能包含礼品、礼金、回扣、提成等敏感字眼,酒类发票不得出现茅台、五粮液等商品名称,不可报销衣服、箱包、笔记本等各个商场的发票。因此审核人员在对上报的单据进行审核后,会把不合规定的单据注明原因之后退回给申报人员。
在本申请实施例中,业务单据的退回原因基本为短文本,因此,服务器选择适合短文本的分词算法对文本信息进行分词,将文本信息中的关键词切分出来,并将切分出来的关键词汇总得到关键词集合。
其中,分词算法是将连续的字序列按照一定的规范重新组合成词序列的算法,现有的分词算法可分为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三大类。
在本申请实施例中,利用分词算法对收集到的文本信息进行分词时,具体包括以下步骤:
步骤一、服务器首先确定出词典中的最长词由max个字符组成。
步骤二、服务器将文本信息字符串中的前max个字符作为匹配字段,与词典中的所有词进行对比。
如果词典中存在与匹配字段相同的词,表示该匹配字段是一个完整的词,则服务器将匹配字段从文本信息中切分出来作为关键词。之后,服务器继续从切分出关键词的剩下的文本信息中取前max个字符作为匹配字段,继续与词典中的所有词进行对比。
如果词典中不存在与匹配字段相同的词,表示该匹配字段不是一个完整的词,则服务器可去掉匹配字段中的最后一个字符,对匹配字段中的剩余字符继续进行匹配,直到在词典中匹配到相同的词。
步骤三、服务器重复进行以上步骤二,直到文本信息中的关键词全部被切分出来且剩余字串的长度为零为止。
其中,为了使本申请实施例中分词过程便于理解,本申请实施例以对“商品名称中包含五粮液”进行分词为例,进行说明。
退单原因的文本信息为“商品名称中包含五粮液”。服务器已经提前确定出词典中的最长词为5个字符。因此服务器将文本信息中的前5个字符“商品名称中”作为匹配字段与词典进行对比,对比之后发现词典中不存在“商品名称中”这个词,因此服务器去掉匹配字段的最后一个字符“中”,将“商品名称”作为匹配字段继续与词典进行对比,对比之后发现词典中不存在“商品名称”这个词,因此服务器去掉最后一个字符“称”将“商品名”作为匹配字段继续与词典进行对比,对比之后发现词典中不存在“商品名”这个词,因此服务器去掉最后一个字符“名”将“商品”作为匹配字段继续与词典进行对比,对比出词典中的词“商品”。服务器将“商品”从文本信息中切分出来后,此时剩余的文本信息为“名称中包含五粮液”,将剩余的文本信息的前五个字,也就是“名称中包含”作为匹配字段,继续进行匹配,直到文本信息中剩余字串的长度为零为止。此时“商品名称中包含五粮液”被拆分成“商品”、“名称”、“中”、“包含”、“五粮液”五个关键词。
S102:通过预设算法确定关键词的分数,并将关键词集合中分数大于第一预设值的关键词存储到关键词库。
在本申请实施例中,服务器首先确定出计算关键词分数的预设算法,利用确定好的算法计算切分出的所有关键词的分数,然后将分数大于第一预设值的关键词存储到关键词库中。其中,第一预设值具体可根据需要设置,本申请对此不做限定。
在本申请实施例中,通过预设算法计算关键词的分数是根据关键词的词频和关键词的逆向文本信息计算出来的,具体包括以下步骤:
步骤一、服务器通过公式
Figure BDA0002751509900000071
分别计算关键词集合中各关键词在文本信息中的词频,P表示关键词的词频,n表示关键词在文本信息中的出现次数,m表示文本信息中所有关键词的出现次数之和。
其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。
步骤二、服务器通过公式
Figure BDA0002751509900000072
分别计算关键词集合中各关键词的逆向文件频率,针对每个关键词,Q表示该关键词的逆向文件频率,a表示含有该关键词的业务单据的数量,b表示业务单据的总数。
其中,逆向文件频率(inverse document frequency,IDF)是表示一个词语普遍重要性的度量。某一特定词语的逆向文件频率,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到。
步骤三、服务器根据公式M=P×Q分别计算各关键词的分数,M表示关键词的分数。
例如,文本信息中包括的总词语数为100,词语“啤酒”出现了3次,那么“啤酒”一词在文本信息中的词频就是3/100=0.03。如果“啤酒”一词在10份业务单据中出现过,而业务单据的总数是1000份的话,那么“啤酒”的逆向文件频率就是lg(1000/10)=2。因此,计算出的“啤酒”的分数就是0.03*2=0.06。
在本申请实施例中,服务器根据文本信息切分出来的关键词中含有大量的并不表示文本特征的词,如标点符号、时间、数值、连词、介词、副词等等,该类型的字或词语在文本信息中大量出现,但对文本分类不起任何作用。因此,需要将这些词标记出来,防止这些对文本分类不起作用的词进入关键词库,占用关键词库的空间。
于是,服务器首先要确定出对关键词进行标记的预设停词库,根据财务业务的需要,利用预设停词库从关键词集合中标记出与业务无关的停用词。然后,服务器将关键词集合中未被标记的关键词按照计算出的分数,从大到小进行排序。本申请通过标记出关键词集合中与业务无关的停用词并进行排序,将出现频率较高的关键词存储到关键词库中,减少了与业务无关的关键词对关键词库空间的占用,便于利用关键词库对业务单据进行审核。
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。
在本申请实施例中,服务器将与财务系统中的业务单据无关的停用词标记出来,无需计算停用词的分数,不仅减少了服务器的计算量,而且节省了关键词库的空间。
在本申请实施例中,随着业务的扩展和不断增加,关键词库和关键短语库中的关键词和关键短语可能满足不了扩展后的业务的需要,因此,服务器可以利用不断增加的业务单据在预设更新周期内对关键词和关键短语进行更新。其中,更新周期可根据需要设置,本申请对此不做限定。
S103:匹配关键词集合中的关键词得到关键短语集合,将关键短语集合存储到关键短语库。
在本申请实施例中,服务器对关键词集合中的关键词进行匹配得到关键短语集合,最后将关键短语集合存储到关键短语库中。
在本申请实施例中,关键词集合中的关键词数量十分庞大,匹配出的短语数量也非常多,匹配出的有些关键短语可能不经常使用,对财务系统业务单据的审核带来的作用比较小,因此,服务器用特征融合对关键词集合中的关键词进行匹配,得到关键短语,并将关键短语汇总得到关键短语集合之后,可计算关键短语的频率,并对频率较低的关键短语进行筛选,将关键短语集合中频率大于第二预设值的关键短语存储到关键短语库中。其中,第二预设值具体可根据需要设置,本申请对此不做限定。本申请实施例通过对关键短语的频率进行计算,并筛选出频率较低的关键短语,提高了关键短语库的精确度。
在本申请实施例中,关键短语的频率是根据组成该关键短语的关键词的分数计算得出的。具体的,服务器通过公式F=w1M1+w2M2+...+wnMn对组成该关键短语的关键词的分数进行加权求和,得到关键短语的频率。
其中,F表示关键短语的频率,n表示组成关键短语的关键词的个数,Mn表示组成关键短语的关键词的分数,w1+w2+...+wn=1。
S104:通过关键词库和关键短语库,对业务单据中的违规信息进行自动审核。
在本申请实施例中,在业务单据上报时,服务器利用关键词库和关键短语库,与上报的业务单据进行匹配,对业务单据中的违规信息进行自动审核,减少了审核人员的工作量,同时也提高了业务单据审核的正确性,大大提升了审核人员的审核效率,有利于财务工作高效率低错误的进行。
在本申请实施例中,服务器利用关键词库和关键短语库对业务单据中的违规信息进行审核时,当确定业务单据中包含有与关键词库中的关键词或者审核出关键短语库中的关键短语匹配的词或短语时,表示此业务单据中含有违规信息,则服务器会将业务单据中对应的关键词或者关键短语标注出来,发出警告来提示业务人员进行处理,无需财务人员一一再对业务单据进行检查。
在本申请实施例中,服务器可直接将关键词库和关键短语库应用于制单发票智能识别中,发票识别过程中可检索识别多份发票明细信息是否包含敏感的不合规词,这样直接在制单环节避免了错单的发生。服务器也可以依据业务需要,将关键词库和关键短语库应用于制单保存或提交操作,也可用于财务人员制证、结算环节,保证审核更加灵活可靠。
在本申请实施例中,服务器会自动记录通过关键词库和关键短语库审核出来的违规信息的出现频率。服务器获取预设时间段内出现频率高于预设值的违规信息,并将这些出现频率较高的违规信息反馈给审核人员。其中,预设时间段、预设值具体可根据需要设置,本申请对此不做限定。
审核人员可根据反馈信息分析出当前财务规范或操作的不足,退单原因中的关键短语可直接反馈审核人员退单错误点较高的操作点,可由审核人员补充填报说明或者通过增加业务控制来避免此现象,从制单环节降低错单率。
为了便于理解,本申请还提供了另一种自动审核ERP财务系统业务单据的方法流程图。具体如图2所示。
首先,服务器获取退单原因的文本信息,利用分词算法对文本信息进行分词处理,然后对分词出的关键词进行过滤并把过滤后的关键词放到关键词库中,最后利用特征融合对关键词进行匹配得到关键短语,服务器对关键短语过滤后,将关键短语放到关键短语库中。于是,服务器利用关键词库和关键短语库对ERP财务系统上报的业务单据进行自动审核。
需要说明的是,图2所示的方法与图1所示的方法本质相同,图2中未详述的部分,具体可参照图1的相关描述,本申请不再赘述。
以上为本申请实施例提供的一种自动审核ERP财务系统业务单据的方法,基于同样的发明思路,本申请实施例还提供了相应的自动审核ERP财务系统业务单据的设备,如图3所示。
图3为本申请实施例提供的对应于图1的自动审核ERP财务系统业务单据的设备的结构示意图,具体包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:获取业务单据的文本信息,对文本信息进行预处理得到关键词集合;通过预设算法确定关键词的分数,并将关键词集合中分数大于第一预设值的关键词存储到关键词库;匹配关键词集合中的关键词得到关键短语集合,将关键短语集合存储到关键短语库;通过关键词库和关键短语库,对业务单据中的违规信息进行自动审核。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种自动审核ERP财务系统业务单据的方法,其特征在于,包括:
获取业务单据退单原因的文本信息,对所述文本信息进行预处理得到关键词集合;
通过预设算法确定关键词的分数,并将所述关键词集合中分数大于第一预设值的关键词存储到关键词库;
匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库;
通过所述关键词库和所述关键短语库,对业务单据中的违规信息进行自动审核。
2.根据权利要求1所述的方法,其特征在于,匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库,包括:
利用特征融合匹配关键词集合中的关键词,并汇总成关键短语集合;
将关键短语集合中频率大于第二预设值的关键短语存储到关键短语库。
3.根据权利要求1所述的方法,其特征在于,通过预设算法确定关键词的分数,包括:
通过公式
Figure FDA0002751509890000011
分别计算关键词在所述文本信息中的词频;
其中,P表示关键词的词频,n表示关键词在文本信息中的出现次数,m表示文本信息中所有关键词的出现次数之和;
通过公式
Figure FDA0002751509890000012
分别计算关键词的逆向文件频率;
其中,针对每个关键词,Q表示该关键词的逆向文件频率,a表示含有该关键词的业务单据的数量,b表示业务单据的总数;
通过公式M=P×Q分别计算关键词的分数;
其中,M表示关键词的分数。
4.根据权利要求1所述的方法,其特征在于,将所述关键词集合中分数大于第一预设值的关键词存储到关键词库之前,所述方法还包括:
利用预设停词库标记出关键词集合中的停用词;所述停用词包括标点符号、数值、语气助词;
将关键词集合中未标记的关键词按照分数进行排序。
5.根据权利要求1所述的方法,其特征在于,对所述文本信息进行预处理得到关键词集合,包括:
利用短文本分词算法对所述文本信息进行分词得到关键词;
将关键词汇总得到关键词集合。
6.根据权利要求1所述的方法,其特征在于,将所述关键短语集合存储到关键短语库之前,所述方法还包括:
通过公式F=w1M1+w2M2+...+wnMn对组成关键短语的关键词的分数进行加权求和,得到关键短语的频率;
其中,F表示关键短语的频率,n表示组成关键短语的关键词个数,Mn表示组成关键短语的关键词的分数,w1+w2+...+wn=1。
7.根据权利要求5所述的方法,其特征在于,利用短文本分词算法对所述文本信息进行分词得到关键词,包括:
确定词典中最长词的字符数为max;
将所述文本信息中的前max个字符作为匹配字段;
将所述匹配字段与所述词典进行对比;
若匹配到匹配词则将匹配词切分出来,对剩下的文本信息继续进行匹配;
若匹配不到匹配词则将所述匹配字段的最后一个字去掉,对匹配字段中的剩余字符继续进行匹配,直至匹配成功,切分出所述文本信息中的所有关键词。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定业务单据中包含的违规信息,发出警告提示业务人员。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录审核出的违规信息的出现频率,并根据审核出的违规信息的出现频率向业务人员反馈。
10.一种自动审核ERP财务系统业务单据的设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取业务单据退单原因的文本信息,对所述文本信息进行预处理得到关键词集合;
通过预设算法确定关键词的分数,并将所述关键词集合中分数大于第一预设值的关键词存储到关键词库;
匹配所述关键词集合中的关键词得到关键短语集合,将所述关键短语集合存储到关键短语库;
通过所述关键词库和所述关键短语库,对业务单据中的违规信息进行自动审核。
CN202011186277.XA 2020-10-29 2020-10-29 一种自动审核erp财务系统业务单据的方法及设备 Pending CN112364645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011186277.XA CN112364645A (zh) 2020-10-29 2020-10-29 一种自动审核erp财务系统业务单据的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011186277.XA CN112364645A (zh) 2020-10-29 2020-10-29 一种自动审核erp财务系统业务单据的方法及设备

Publications (1)

Publication Number Publication Date
CN112364645A true CN112364645A (zh) 2021-02-12

Family

ID=74514137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011186277.XA Pending CN112364645A (zh) 2020-10-29 2020-10-29 一种自动审核erp财务系统业务单据的方法及设备

Country Status (1)

Country Link
CN (1) CN112364645A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989817A (zh) * 2021-05-11 2021-06-18 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警信息自动审核方法
CN113297849A (zh) * 2021-05-17 2021-08-24 济南森维网络科技有限公司 基于区块链技术的财务预提费用管理方法
CN115019320A (zh) * 2022-06-30 2022-09-06 京东方科技集团股份有限公司 一种数据提取方法、装置、设备及存储介质
CN116595164A (zh) * 2023-07-17 2023-08-15 浪潮通用软件有限公司 一种生成单据摘要信息的方法、系统、设备和存储介质
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029144A (en) * 1997-08-29 2000-02-22 International Business Machines Corporation Compliance-to-policy detection method and system
CN107067044A (zh) * 2017-05-31 2017-08-18 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN110599317A (zh) * 2019-08-26 2019-12-20 湖南大唐先一科技有限公司 一种基于规则引擎和ocr的报账及审核自动化方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029144A (en) * 1997-08-29 2000-02-22 International Business Machines Corporation Compliance-to-policy detection method and system
CN107067044A (zh) * 2017-05-31 2017-08-18 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN110599317A (zh) * 2019-08-26 2019-12-20 湖南大唐先一科技有限公司 一种基于规则引擎和ocr的报账及审核自动化方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989817A (zh) * 2021-05-11 2021-06-18 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警信息自动审核方法
CN112989817B (zh) * 2021-05-11 2021-08-27 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警信息自动审核方法
CN113297849A (zh) * 2021-05-17 2021-08-24 济南森维网络科技有限公司 基于区块链技术的财务预提费用管理方法
CN115019320A (zh) * 2022-06-30 2022-09-06 京东方科技集团股份有限公司 一种数据提取方法、装置、设备及存储介质
CN115019320B (zh) * 2022-06-30 2024-10-18 京东方科技集团股份有限公司 一种数据提取方法、装置、设备及存储介质
CN116595164A (zh) * 2023-07-17 2023-08-15 浪潮通用软件有限公司 一种生成单据摘要信息的方法、系统、设备和存储介质
CN116595164B (zh) * 2023-07-17 2023-10-31 浪潮通用软件有限公司 一种生成单据摘要信息的方法、系统、设备和存储介质
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备
CN117273667B (zh) * 2023-11-22 2024-02-20 浪潮通用软件有限公司 一种单据审核处理方法及设备

Similar Documents

Publication Publication Date Title
CN112364645A (zh) 一种自动审核erp财务系统业务单据的方法及设备
US7937303B2 (en) Grants management system
US7562088B2 (en) Structure extraction from unstructured documents
US8315997B1 (en) Automatic identification of document versions
US20080162455A1 (en) Determination of document similarity
US20040205524A1 (en) Spreadsheet data processing system
US20190005050A1 (en) Regularities and trends discovery in a flow of business documents
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111899090B (zh) 企业关联风险预警方法及系统
EP0857334B1 (en) Corporate disclosure and repository system
US7856388B1 (en) Financial reporting and auditing agent with net knowledge for extensible business reporting language
CN110990529B (zh) 企业的行业明细划分方法及系统
US20240193522A1 (en) Citation and policy based document classification
AU2021410731A1 (en) System and method for parsing regulatory and other documents for machine scoring
CN115422371A (zh) 一种基于软件测试知识图谱的检索方法
CN115858470A (zh) 政策法规文件的匹配方法、系统、服务器及存储介质
CN109583773A (zh) 一种纳税信用积分确定的方法、系统及相关装置
EP1286284B1 (en) Spreadsheet data processing system
Grant et al. EDGAR extraction system: An automated approach to analyze employee stock option disclosures
JP2002032566A (ja) リスク分析システム及びその方法、保険設計システム及びその方法、保険約款作成方法、並びにコンピュータ上で動作するリスク分析プログラム、保険設計プログラム又は保険約款作成プログラムを記録した記録媒体
CN114756685A (zh) 一种投诉单的投诉风险识别方法及装置
CN113762719A (zh) 文本相似度的计算方法、计算机设备及存储装置
CN113763143A (zh) 审计处理方法、计算机设备及存储装置
CN113626655A (zh) 提取文件中信息的方法、计算机设备及存储装置
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication