CN112232036A - 报销单生成方法、电子设备和计算机可读存储介质 - Google Patents
报销单生成方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112232036A CN112232036A CN202010934011.2A CN202010934011A CN112232036A CN 112232036 A CN112232036 A CN 112232036A CN 202010934011 A CN202010934011 A CN 202010934011A CN 112232036 A CN112232036 A CN 112232036A
- Authority
- CN
- China
- Prior art keywords
- model
- bill
- semantic
- note
- reimbursement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000004308 accommodation Effects 0.000 description 3
- 238000000586 desensitisation Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种报销单生成方法、电子设备和计算机可读存储介质,报销单生成方法包括:设置记事类型数据库,记事类型数据库包括记事类型;获取票据信息;获取候选记事类型;根据票据信息,获取票据的特征信息;将特征信息映射到记事类型;将记事类型与候选记事类型进行语义对齐;根据经过语义对齐后的记事类型,生成报销单。本发明能够通过设置记事类型,将原始的各种票据生成报销单,提高报账的效率,减少人工操作,降低时间成本以及人工成本,避免了人工填写出错的情况。
Description
技术领域
本发明涉及计算机的技术领域,具体而言,涉及报销单生成方法、电子设备和计算机可读存储介质。
背景技术
员工在因公出差、采购、办公过程中,产生大量发票和票据,需要逐张分类、筛选,并根据企业规章制度,录入报销系统。现有的填制报销单过程繁冗复杂,每张票据均须录入对应的报销类型中,效率低下,时间成本高,且人工填写极易出错。
发明内容
本发明旨在解决上述技术问题的至少之一。
为此,本发明的第一目的在于提供一种报销单生成方法。
本发明的第二目的在于提供一种电子设备。
本发明的第三目的在于提供一种计算机可读存储介质。
为实现本发明的第一目的,本发明的实施例提供了一种报销单生成方法,包括:设置记事类型数据库,记事类型数据库包括记事类型;获取票据信息;获取候选记事类型;根据票据信息,获取票据的特征信息;将特征信息映射到记事类型;将记事类型与候选记事类型进行语义对齐;根据经过语义对齐后的记事类型,生成报销单。
报账是将工作中因出差、接待等事务过程中发生的各种票据,整理、填报并送入财务部门审核的过程。不同的报销单,填充的字段区别很大,所以将不同的报销单分门别类,记为“记事类型”,通过记事类型,将原始的各种票据生成报销单,可提高报账的效率,减少人工操作,降低时间成本以及人工成本,避免了人工填写出错的情况。
另外,本发明上述实施例提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,根据票据信息,获取票据的特征信息,包括:抽取票据各个字段的信息,得到票据信息;
去除票据信息中的用户个人信息;根据票据的类型,确定票据的特征维度;根据票据的特征维度,确定票据的特征信息。
去除票据信息中心的用户个人信息,进行脱敏处理,对用户的个人隐私进行保护的同时,减少了方法的复杂程度,节约时间成本针对不同种类的票据,确定不同的特征维度,提高票据的特征信息映射到记事类型的准确率。
上述任一技术方案中,执行将特征信息映射到记事类型之前,报账方法还包括:构建通用模型、子模型、语义模型;构建语义数据库和规则数据库,语义数据库包括业务数据语义和通用数据语义,规则数据库包括语义与记事类型的对应关系;采用语义数据库,对语义模型进行无监督训练;采用规则数据库,对通用模型和子模型进行有监督训练。
本实施例采用了有监督方法和无监督方法相结合的办法,有效到达计算机理解业务数据,达到了根据票据生成记事类型,生成报销单,进而实现自动报账的效果。
上述任一技术方案中,将特征信息映射到记事类型,包括:采用语义模型,对特征信息进行语义理解,得到特征信息对应的语义;
将特征信息对应的语义输入至通用模型和子模型,通过规则匹配,获取记事类型。
针对获取得到的特征信息,输入至语义模型,进行语义理解,能够得到特征信息对应的语义,再语义输入至通用模型和子模型,映射得到语义对应的记事类型。通过语义模型对特征信息进行了充分的解读,再通过通用模型和子模型,匹配记事类型数据库中的记事类型,准确率高。
上述任一技术方案中,采用语义模型,对特征信息进行语义理解,得到特征信息对应的语义,包括:采用语义模型,计算特征信息的词向量、短语向量和句子向量,通过向量相似度计算,得到特征信息对应的语义。
语义模型的目的是理解词语和句子,得到词向量之后,可进一步计算短语和句子的语义向量,最终通过相似度计算,达到语义匹配。
上述任一技术方案中,采用规则数据库,对通用模型和子模型进行有监督训练,包括:采用规则数据库,基于数据分类算法和规则分发加权算法,分别对通用模型和子模型进行有监督训练。
基于数据分类算法和规则分发加权算法,采用规则数据库每个大类数据、所有数据分别对通用模型和子模型进行有监督训练,即细分到每个票据类型又兼顾通用。
上述任一技术方案中,无监督训练包括:针对语义数据库,通用数据语义采用通用语义向量,业务数据语义采用业务语义向量,对语义模型进行无监督训练。
无监督训练中,通用语义采用语义词向量,业务数据不分词,数据颗粒度采用大粒度,通过上述方式,可以使得语义模型识别更加准确。
上述任一技术方案中,报销单生成方法还包括:将特征信息对应的语义,与经过语义对齐后的记事类型存入规则数据库;当经过语义对齐后的记事类型不满足要求,设定特征信息对应的记事类型,存入规则数据库;采用规则数据库训练通用模型和子模型。
用户可对结果进行人工干预,人工干预结果将反馈给通用模型和子模型,进行进一步机器学习的分析和处理,优化通用模型和子模型。
为实现本发明的第二目的,本发明的实施例提供了一种电子设备,包括存储器,存储有计算机程序;处理器,执行计算机程序;其中,处理器在执行计算机程序时,实现如本发明任一实施例的报销单生成方法的步骤。
本发明实施例提供的电子设备实现如本发明任一实施例的报销单生成方法的步骤,因而其具有如本发明任一实施例的报销单生成方法的全部有益效果,在此不再赘述。
为实现本发明的第三目的,本发明的实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被执行时,实现上述任一实施例的报销单生成方法的步骤。
本发明实施例提供的计算机可读存储介质实现如本发明任一实施例的报销单生成方法的步骤,因而其具有如本发明任一实施例的报销单生成方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的报销单生成方法流程图;
图2为本发明一个实施例的获取票据的特征信息;
图3为本发明一个实施例的语义模型、通用模型、子模型训练方法流程图;
图4为本发明一个实施例的将特征信息映射到记事类型;
图5为本发明一个实施例的获取特征信息对应的语义方法流程图;
图6为本发明一个实施例的有监督训练方法流程图;
图7为本发明一个实施例的无监督训练方法流程图;
图8为本发明一个实施例的采用反馈记事类型进行模型训练方法流程图;
图9为本发明一个实施例的电子设备结构示意图;
图10为本发明一个实施例的生成报销单流程图;
图11为本发明一个实施例的生成报销单举例示意图;
图12为本发明一个实施例的票据的信息举例示意图;
图13为本发明一个实施例的记事的信息举例示意图;
图14为本发明一个实施例的报销单的信息举例示意图;
图15为本发明一个实施例的大连增值税电子普通发票示意图;
图16为本发明一个实施例的机票示意图;
图17为本发明一个实施例的北京增值税普通发票示意图;
图18为本发明一个实施例的大连增值税普通发票示意图;
图19为本发明一个实施例的票据生成明细的方案设计示意图;
图20为本发明一个实施例的数据预处理过程示意图;
图21为本发明一个实施例的通用模型与子模型示意图;
图22为本发明一个实施例的子模型示意图;
图23为本发明一个实施例的通用模型示意图;
图24为本发明一个实施例的语义模型示意图;
图25为本发明一个实施例的语义理解与语义增强示意图;
图26为本发明一个实施例的根据票据生成记事类型示意图;
图27为本发明一个实施例的语义对齐示例图;
图28为本发明一个实施例的有监督和无监督获取语义示意图;
图29为本发明一个实施例的自动报账整体流程示意图。
其中,图9中附图标记与部件名称之间的对应关系为:
200:电子设备,210:存储器,220:处理器。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图29描述本发明一些实施例的报销单生成方法、电子设备和计算机可读存储介质。
实施例1:
如图1所示,本实施例提供了一种报销单生成方法,包括以下步骤:
步骤S102,设置记事类型数据库,记事类型数据库包括记事类型;
步骤S104,获取票据信息;
步骤S106,获取候选记事类型;
步骤S108,根据票据信息,获取票据的特征信息;
步骤S110,将特征信息映射到记事类型;
步骤S112,将记事类型与候选记事类型进行语义对齐;
步骤S114,根据经过语义对齐后的记事类型,生成报销单。
具体而言,记事类型包括:日常交通、通讯费、长途交通费、住宿费、餐饮费等。票据包括:火车票、机票、通行费、长途汽车票、出租车机打发票、增值税发票等。报销单包括:差旅费报销单、交通费报销单、通讯费报销单、其他费用报销单等。票据信息包括:发票类型,价格合计,日期,发票代码,发票号码等。候选记事类型为根据实际需求自行设置的记事类型。特征信息包括能够反映票据种类的票据信息。
举例而言,票据与报销单的对应关系为,差旅费报销单包括长途交通费(高铁或飞机)、往返机场/火车站交通、出差地交通、住宿费、出差补贴等,交通费报销单包括通行费、长途汽车票、客运服务费等,通讯费报销单包括通讯服务费等,其他费用报销单包括多种增值税发票如印刷品、会务服务等。
根据财务部门的要求,将记事类型与报销单进行对应,直接根据记事类型即可得到报销单。
报账是将工作中因出差、接待等事务过程中发生的各种票据,整理、填报并送入财务部门审核的过程。不同的报销单,填充的字段区别很大,所以将不同的报销单分门别类,记为“记事类型”,通过记事类型,将原始的各种票据生成报销单,可提高报账的效率,减少人工操作,降低时间成本以及人工成本,避免了人工填写出错的情况。
原始票据的种类繁多,且格式多变,本实施例获取票据信息,然后提取票据的特征信息,将特征信息映射到记事类型,可以对原始票据信息进行充分的识别,通过设置候选记事类型,满足不同企业对报销单的不同要求,对记事类型与候选记事类型进行语义对齐,进而获得最终的经过语义对齐后的记事类型,生成报销单,本实施例将原始票据的信息充分识别和理解,以正确、合理地映射到记事类型,进而提高报销的效率,满足多样性要求,提高报销单的准确性。
由于记事类型数据库中的记事类型,是通过历史数据得到,则记事类型可能和用户期望的结果不一致,所以,本实施例采用了后处理的方法,用户设置候选记事类型,使得方法映射得到的记事类型与用户期望的记事类型在语义层面对齐。
实施例2:
如图2所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
根据票据信息,获取票据的特征信息,包括:
步骤S202,抽取票据各个字段的信息,得到票据信息;
步骤S204,去除票据信息中的用户个人信息;
步骤S206,根据票据的类型,确定票据的特征维度;
步骤S208,根据票据的特征维度,确定票据的特征信息。
具体而言,针对各类不同的票据,抽取各个字段的信息,得到票据信息包括发票类型,价格合计,日期,发票代码,发票号码等,根据不同发票类型的特征,确定票据的特征维度,在票据信息中确定票据的特征信息。
本实施例中,去除票据信息中心的用户个人信息,进行脱敏处理,对用户的个人隐私进行保护的同时,减少了方法的复杂程度,节约时间成本。
举例而言,飞机票具有起始地、目的地、出发日期特征,前两者的属性是地点,出发日期是时间属性;增值税发票具有“货物或应税劳务、服务名称”、购买方和销售方的信息等属性,其中购买方和销售方的子属性均包括名称、纳税人识别号、地址电话、开户行及账号。名称是文本类型,可进一步分词和词性识别,纳税人识别号是不可分割字符串。
针对不同种类的票据,确定不同的特征维度,提高票据的特征信息映射到记事类型的准确率。
实施例3:
如图3所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
执行将特征信息映射到记事类型之前,报账方法还包括:
步骤S302,构建通用模型、子模型、语义模型;
步骤S304,构建语义数据库和规则数据库,语义数据库包括业务数据语义和通用数据语义,规则数据库包括语义与记事类型的对应关系;
步骤S306,采用语义数据库,对语义模型进行无监督训练;
步骤S308,采用规则数据库,对通用模型和子模型进行有监督训练。
考虑到不同类型的票据,具备较强的独属特点,本实施例采用子模型和通用模型相结合的方式。
子模型是将每种类型的票据分别建模,票据类型包括:air(机票)、invoice(发票)、quota(定额发票)、taxi(出租车票)、train(火车票)和tolls(通行费、过路费)。
通用模型是将不同类型的票据数据首先合并起来,然后基于整体数据训练进而得到通用的模型。
规则数据库中的数据从业务数据库导出,是已有标注的数据集,所以采用有监督的方法训练子模型和通用模型。由于有监督的模型是从历史数据训练而来,则通过通用模型和子模型推荐的结果,可能和用户期望的结果不一致,所以,本实施例还采用了后处理的方法,使得推荐的结果和用户期望的结果在语义层面对齐。
业务数据语义包括专业领域词汇的语义,例如,发票代码、发票类型、票据类型等词语。通用数据语义包括生活中常见的短语等。
如何理解票据的数据信息是非常重要的,本实施例采用了业务数据语义和通用数据语义相结合的方法,能够有效避免语义理解中的OOV(Out-of-vocabulary)问题。
语义模型的结构为以所有单词为行组成的二维数据,每行包含N+1列,N是训练模型时指定的词向量维度。第一列是单词,为字符串或字符结构;其余列为浮点类型的数值。
构建语义模型的目的是理解词语和句子,以词向量为介质,采用无监督方法训练,得到词向量之后,可进一步计算短语和句子的语义向量,最终通过相似度计算,达到语义匹配,业务数据训练的词向量,能够将发票类型、票据类型等词语的语义充分理解,而通用语义模型,能够补充理解生活中常见的词语。
本实施例采用了有监督方法和无监督方法相结合的办法,有效到达计算机理解业务数据,达到了根据票据生成记事类型,生成报销单,进而实现自动报账的效果。
实施例4:
如图4所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
将特征信息映射到记事类型,包括:
步骤S402,采用语义模型,对特征信息进行语义理解,得到特征信息对应的语义;
步骤S404,将特征信息对应的语义输入至通用模型和子模型,通过规则匹配,获取记事类型。
针对获取得到的特征信息,输入至语义模型,进行语义理解,能够得到特征信息对应的语义,再语义输入至通用模型和子模型,映射得到语义对应的记事类型。通过语义模型对特征信息进行了充分的解读,再通过通用模型和子模型,匹配记事类型数据库中的记事类型,准确率高。
实施例5:
如图5所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
采用语义模型,对特征信息进行语义理解,得到特征信息对应的语义,包括:
步骤S502,采用语义模型,计算特征信息的词向量、短语向量和句子向量,通过向量相似度计算,得到特征信息对应的语义。
语义模型的目的是理解词语和句子,得到词向量之后,可进一步计算短语和句子的语义向量,最终通过相似度计算,达到语义匹配。
实施例6:
如图6所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
采用规则数据库,对通用模型和子模型进行有监督训练,包括:
步骤S602,采用规则数据库,基于数据分类算法和规则分发加权算法,分别对通用模型和子模型进行有监督训练。
基于数据分类算法和规则分发加权算法,采用规则数据库每个大类数据、所有数据分别对通用模型和子模型进行有监督训练,即细分到每个票据类型又兼顾通用。
实施例7:
如图7所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
无监督训练,包括:
步骤S702,针对语义数据库,通用数据语义采用通用语义向量,业务数据语义采用业务语义向量,对语义模型进行无监督训练。
无监督训练中,通用语义采用语义词向量,业务数据不分词,数据颗粒度采用大粒度,通过上述方式,可以使得语义模型识别更加准确。
实施例8:
如图8所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
报销单生成方法,还包括:
步骤S802,将特征信息对应的语义,与经过语义对齐后的记事类型存入规则数据库;
步骤S804,当经过语义对齐后的记事类型不满足要求,设定特征信息对应的记事类型,存入规则数据库;
步骤S806,采用规则数据库训练通用模型和子模型。
用户可对结果进行人工干预,人工干预结果将反馈给通用模型和子模型,进行进一步机器学习的分析和处理,优化通用模型和子模型。
实施例9:
如图9所示,本实施例提供了一种电子设备200,包括:存储器210,存储有计算机程序;处理器220,执行计算机程序;其中,处理器220在执行计算机程序时,实现如本发明任一实施例的报销单生成方法的步骤。
实施例10:
本实施例提供了一种计算机可读存储介质,包括:计算机可读存储介质存储有计算机程序,计算机程序被执行时,实现如本发明任一实施例的报销单生成方法的步骤。
具体实施例:
本实施例提供了一种根据票据报销单生成方法。
本实施例在企业员工报销过程中,通过发票识别技术获取发票信息后,利用发票信息内容,通过智能算法,智能匹配报销类型,生成并自动填写报销单,减少人为操作工作量。
本实施例需要解决下述问题至少之一:
(1)根据发票类型、发票内容进行发票信息分析,判断业务含义;
(2)根据报销系统中的设置,读取报销类型,进行业务含义分析;
(3)根据用户历史报销记录进行使用习惯分析,匹配发票类型和报销类型进行匹配和转换。
报账是将工作中因出差、接待等事务过程中发生的各种票据,整理、填报并送入财务部门审核的过程。自动报账的过程中,可直接将原始发票生成报销单。但是不同的报销单,填充的字段区别很大。如图10所示,将不同的报销单分门别类,记为“记事类型”,可提高报账的效率。图10中,记事类型包括:日常交通、通讯费、长途交通费、住宿费、餐饮费等。票据包括:火车票、机票、通行费、长途汽车票、出租车机打发票、增值税发票等。报销单包括:差旅费报销单、交通费报销单、通讯费报销单、其他费用报销单等。
用户将原始的票据(例如发票、火车票、机票等)提交到报销系统中,首先抽取各个字段的信息,然后根据不同类型的票据信息,映射到记事类型,最终将记事类型对应到报销单。流程如图11所示,其中,票据的信息如图12所示,票据详情记载有发票类型,价格合计,日期,发票代码,发票号码等,记事的信息如图13所示,包括日常交通、通讯费、长途交通费、住宿费、餐饮等。报销单的信息如图14所示,住宿费包括金额、出差地点、住宿日期、住宿天数、发票类型、事由等。餐饮包括金额、人数、日期等。通讯费包括报销金额、报销季度、开始日期、结束日期、发票金额等。
原始票据的种类繁多,且格式多变。举例为,大连增值税电子普通发票如图15所示,机票如图16所示,北京增值税普通发票如图17所示,大连增值税普通发票如图18所示,如何将原始票据的信息充分识别和理解,以正确、合理地映射到记事类型,是非常重要的环节。
本实施例解决了“原始票据”到“记事类型”的映射关系,以此提高报销的效率,减少人工操作。
总体而言,当有新业务发生时,根据新业务中包含的发票数据、用户信息,通过数据分类和规则加权的智能算法,进行最优报销类型的匹配,并对结果进行输出。用户可对结果进行人工干预,人工干预结果将反馈给智能算法进行进一步机器学习的分析和处理,优化算法模型。
具体的,如图19所示,包括:
(1)进行发票识别,将发票信息,待选明细类型输出至智能算法;
明细类型即记事类型,智能算法包括通用模型、子模型以及语义模型。
(2)智能算法采用数据分类算法和规则分发加权算法,输出最佳匹配明细类型,生成明细;
(3)对发票识别信息以及生成明细进行修改或保存,得到明细-发票关系库,明细数据库和发票数据库;
明细-发票关系库存储明细与发票的对应关系,明细数据库存储明细的类型,发票数据库,存储发票的信息。
(4)通过明细-发票关系库,明细数据库和发票数据库中的发票信息以及确认的明细类型,对智能算法进行算法训练。
算法训练包括规则抽取。
本实施例收集了用户的历史数据,并做脱敏处理,分别使用有监督的分类方法和无监督的训练词向量的方法,构建模型、增强语义理解,最终达到将原始票据归类到记事类型的目的。
本实施例中,针对原始数据,原始数据包括原始票据数据和记事发票关联数据,抽取票据各个字段的信息,得到票据信息,然后去除票据信息中的用户个人信息,再根据票据的类型,确定票据的特征维度,进行特征提取。其中,如图20所示,对数据预处理,将原始数据中,原始票据信息的用户个人信息抹除掉,例如:姓名、座位号、航班号等,然后针对不同的票据类型,筛选不同的维度作为特征。
考虑到不同类型的票据,具备较强的独属特点,本实施例采用子模型和通用模型相结合的方式。因数据从业务数据库导出,是已有标注的数据集,所以采用有监督的方法训练模型,如图21所示,构建通用模型、子模型、语义模型。
参与模型训练的数据,即为表1类型的票据数据。
表1为:票据类型释义
票据类型 | 票据类型释义 |
air | 机票 |
invoice | 发票 |
quota | 定额发票 |
taxi | 出租车票 |
train | 火车票 |
tolls | 通行费、过路费 |
如图22所示,子模型是将每种类型的票据分别建模。如图23所示,通用模型是将不同类型的票据数据首先合并起来,然后基于整体数据训练进而得到通用的模型。其中,.bin后缀的是二进制文件,计算机程序加载的时候使用,.vec后缀的是文本文件,可人工查看模型每个单词对应的词向量。
本实施例中,构建语义数据库和规则数据库,语义数据库包括业务数据语义和通用数据语义,规则数据库包括语义与记事类型的对应关系,采用语义数据库,对语义模型进行无监督训练,针对语义数据库,通用数据语义采用通用语义向量,业务数据语义采用业务语义向量,对语义模型进行无监督训练。
如图24所示,语义模型的结构为以所有单词为行组成的二维数据,每行包含N+1列,N是训练模型时指定的词向量维度。第一列是单词,为字符串或字符结构;其余列为浮点类型的数值。
针对语义理解和语义增强具体为,如何理解票据的数据信息是非常重要的。本实施例采用了业务数据语义和通用数据语义相结合的方法,这样能够有效避免语义理解中常见的OOV(Out-of-vocabulary,词表溢出)问题。语义模型的目的是理解词语和句子,通常以词向量为介质,可用无监督方法训练模型。得到词向量之后,可进一步计算短语和句子的语义向量,最终通过相似度计算,达到语义匹配。业务数据训练的词向量,能够将发票类型、票据类型等词语的语义充分理解;而通用语义模型,能够补充理解生活中常见的词语。如图25所示,业务数据设有业务词向量,通用语料设有通用词向量,语义模型通过业务词向量以及通用词向量,计算短语向量、句子向量,进行向量相似度计算,进行排序,得到最终的语义。
如图26所示,用户将原始的票据信息和候选的记事类型发送请求到本实施例,本实施例将推荐的记事类型以加权的方式反馈给用户,整体流程包括,获取票据信息,记事类型都选集,然后对票据信息提取特征,计算特征的语义,推荐记事类型,将推荐的记事类型与候选集进行语义比较,对比较厚的语义进行重排序,最后,得到记事类型推荐。
由于有监督的模型是从历史数据训练而来,那么该模型推荐的结果,可能和用户期望的结果不一致,所以,本实施例还采用了后处理的方法,使得模型推荐的结果和用户期望的结果在语义层面对齐。如图27所示,将推荐的记事类型:交通记事、往返交通费、交通明细合并起来,逐个计算cos值(cosine,余弦相似度),再排序,得到:餐饮记事,公司活动和出差乘车报销。
本实施例采用有监督方法和无监督方法相结合的方法,如图28所示,针对通用语义向量和业务数据,采用无监督方法,其中业务数据不分词,采用大粒度,通用语义向量包括通用语义,业务数据包括专业领域词汇的语义,例如,发票代码。有监督方法,每个大类数据、所有数据分别训练通用模型以及子模型,即细分到每个票据类型,又兼顾通用。
综上,本实施例采用了有监督方法和无监督方法相结合的办法,有效到达计算机理解业务数据,达到了根据票据生成记事类型,进而自动报账的效果。
本实施例的自动报账整体流程,如图29所示,包括机器学习、策略融合、Rest服务几个部分,具体的:
机器学习具体包括:通过业务数据库,获取规则库、语义库和语义模型,通过模型训练中心,进行语义模型以及通用模型和子模型训练。
策略融合具体包括:规则匹配和语义理解,对匹配以及语义理解后的结果进行推荐结果持久化,通过模型训练中心再对语义模型以及通用模型和子模型进行机器学习。
Rest服务具体包括:提供明细类型只能匹配服务,用户选择结果反馈服务,将明细类型输入给用户,对用户的选择结果进行反馈,对推荐结果持久化,通过模型训练中心再对语义模型以及通用模型和子模型进行机器学习。
其中,(1)通过自然语言处理,语义识别,用户行为分析等方法,选择,选择最佳明细类型。(2)可根据用据用户反馈,实时跟踪算法推荐效果,并定期自动训练模型并更新。(3)考虑数据不均衡问题,采用基于规则和基于语义的多种方法融合策略,具体算法采用了CNN(Convolutional Neural Networks,卷积神经网络)、fastText(一种快速的文本分类方法)、SVM(support vector machines,支持向量机)。(4)实验阶段,准确率达到76%(R3)。(5)服务提供2个接口:一个接口适于智能匹配明细,另一个接口适于跟踪结果。
综上,本发明实施例的有益效果为:
1.传统人工填报方式,一张包含10张票据的报销单,平均填写时间约为15分钟左右,通过本发明方法,即智能算法进行自动匹配和自动数据代入方式,可以将填写时间缩短为3分钟左右,节约80%的人工填报工作量。
2.将不同的报销单分门别类,记为“记事类型”,通过记事类型,将原始的各种票据生成报销单,可提高报账的效率,减少人工操作,降低时间成本以及人工成本,避免了人工填写出错的情况。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种报销单生成方法,其特征在于,包括:
设置记事类型数据库,所述记事类型数据库包括记事类型;
获取票据信息;
获取候选记事类型;
根据所述票据信息,获取票据的特征信息;
将所述特征信息映射到所述记事类型;
将所述记事类型与所述候选记事类型进行语义对齐;
根据经过所述语义对齐后的记事类型,生成报销单。
2.根据权利要求1所述的报销单生成方法,其特征在于,所述根据所述票据信息,获取票据的特征信息,包括:
抽取所述票据各个字段的信息,得到所述票据信息;
去除所述票据信息中的用户个人信息;
根据所述票据的类型,确定所述票据的特征维度;
根据所述票据的特征维度,确定所述票据的特征信息。
3.根据权利要求1所述的报销单生成方法,其特征在于,执行将所述特征信息映射到所述记事类型之前,所述报销单生成方法,还包括:
构建通用模型、子模型、语义模型;
构建语义数据库和规则数据库,所述语义数据库包括业务数据语义和通用数据语义,所述规则数据库包括语义与所述记事类型的对应关系;
采用所述语义数据库,对所述语义模型进行无监督训练;
采用所述规则数据库,对所述通用模型和所述子模型进行有监督训练。
4.根据权利要求3所述的报销单生成方法,其特征在于,所述将所述特征信息映射到所述记事类型,包括:
采用所述语义模型,对所述特征信息进行语义理解,得到所述特征信息对应的语义;
将所述特征信息对应的语义输入至所述通用模型和所述子模型,通过规则匹配,获取所述记事类型。
5.根据权利要求4所述的报销单生成方法,其特征在于,所述采用所述语义模型,对所述特征信息进行语义理解,得到所述特征信息对应的语义,包括:
采用所述语义模型,计算所述特征信息的词向量、短语向量和句子向量,通过向量相似度计算,得到所述特征信息对应的语义。
6.根据权利要求3所述的报销单生成方法,其特征在于,所述采用所述规则数据库,对所述通用模型和所述子模型进行有监督训练,包括:
采用所述规则数据库,基于数据分类算法和规则分发加权算法,分别对所述通用模型和所述子模型进行有监督训练。
7.根据权利要求3所述的报销单生成方法,其特征在于,所述无监督训练包括:
针对所述语义数据库,所述通用数据语义采用通用语义向量,所述业务数据语义采用业务语义向量,对所述语义模型进行无监督训练。
8.根据权利要求4所述的报销单生成方法,其特征在于,还包括:
将所述特征信息对应的语义,与经过所述语义对齐后的记事类型存入所述规则数据库;
当所述经过语义对齐后的记事类型不满足要求,设定所述特征信息对应的记事类型,存入所述规则数据库;
采用所述规则数据库训练所述通用模型和所述子模型。
9.一种电子设备(200),其特征在于,包括:
存储器(210),存储有计算机程序;
处理器(220),执行所述计算机程序;
其中,所述处理器(220)在执行所述计算机程序时,实现如权利要求1至8中任一项所述的报销单生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如权利要求1至8中任一项所述的报销单生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010934011.2A CN112232036A (zh) | 2020-09-08 | 2020-09-08 | 报销单生成方法、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010934011.2A CN112232036A (zh) | 2020-09-08 | 2020-09-08 | 报销单生成方法、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232036A true CN112232036A (zh) | 2021-01-15 |
Family
ID=74117233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010934011.2A Pending CN112232036A (zh) | 2020-09-08 | 2020-09-08 | 报销单生成方法、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232036A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065940A (zh) * | 2021-04-27 | 2021-07-02 | 平安普惠企业管理有限公司 | 基于人工智能的发票报销的方法、装置、设备及存储介质 |
CN113239811A (zh) * | 2021-05-17 | 2021-08-10 | 上海中通吉网络技术有限公司 | 确定报销单中导入的电子发票对应的费用类型的方法 |
CN113989010A (zh) * | 2021-11-26 | 2022-01-28 | 中国银行股份有限公司 | 财务报销方法及装置、存储介质及电子设备 |
CN114155071A (zh) * | 2021-10-12 | 2022-03-08 | 远光软件股份有限公司 | 报销单据生成方法、系统以及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102208092A (zh) * | 2011-05-25 | 2011-10-05 | 重庆市电力公司永川供电局 | 财务票据报销自动处理方法 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN105512890A (zh) * | 2015-11-30 | 2016-04-20 | 深圳市金蝶友商电子商务服务有限公司 | 生成记账凭证的方法和系统 |
CN109508845A (zh) * | 2017-09-15 | 2019-03-22 | 华为技术有限公司 | 费用数据的处理方法、装置和计算机可读存储介质 |
CN109636557A (zh) * | 2018-12-11 | 2019-04-16 | 厦门商集网络科技有限责任公司 | 一种基于票据识别的智能分类记账方法及设备 |
CN109636556A (zh) * | 2018-12-07 | 2019-04-16 | 用友网络科技股份有限公司 | 单据推荐方法及系统、计算机可读存储介质 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的发票识别方法及系统 |
CN110188714A (zh) * | 2019-06-04 | 2019-08-30 | 言图科技有限公司 | 一种在聊天场景下实现财务管理的方法、系统及存储介质 |
CN110188336A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种基于oa申请单生成报销单的方法和装置 |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN110458675A (zh) * | 2019-07-24 | 2019-11-15 | 北京一诺前景财税科技有限公司 | 一种基于大数据的票据生成凭证方法 |
CN111179044A (zh) * | 2019-12-23 | 2020-05-19 | 望海康信(北京)科技股份公司 | 票据报销方法及装置 |
-
2020
- 2020-09-08 CN CN202010934011.2A patent/CN112232036A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102208092A (zh) * | 2011-05-25 | 2011-10-05 | 重庆市电力公司永川供电局 | 财务票据报销自动处理方法 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN105512890A (zh) * | 2015-11-30 | 2016-04-20 | 深圳市金蝶友商电子商务服务有限公司 | 生成记账凭证的方法和系统 |
CN109508845A (zh) * | 2017-09-15 | 2019-03-22 | 华为技术有限公司 | 费用数据的处理方法、装置和计算机可读存储介质 |
CN109636556A (zh) * | 2018-12-07 | 2019-04-16 | 用友网络科技股份有限公司 | 单据推荐方法及系统、计算机可读存储介质 |
CN109636557A (zh) * | 2018-12-11 | 2019-04-16 | 厦门商集网络科技有限责任公司 | 一种基于票据识别的智能分类记账方法及设备 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的发票识别方法及系统 |
CN110264288A (zh) * | 2019-05-20 | 2019-09-20 | 深圳壹账通智能科技有限公司 | 基于信息识别技术的数据处理方法及相关装置 |
CN110188336A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种基于oa申请单生成报销单的方法和装置 |
CN110188714A (zh) * | 2019-06-04 | 2019-08-30 | 言图科技有限公司 | 一种在聊天场景下实现财务管理的方法、系统及存储介质 |
CN110458675A (zh) * | 2019-07-24 | 2019-11-15 | 北京一诺前景财税科技有限公司 | 一种基于大数据的票据生成凭证方法 |
CN111179044A (zh) * | 2019-12-23 | 2020-05-19 | 望海康信(北京)科技股份公司 | 票据报销方法及装置 |
Non-Patent Citations (1)
Title |
---|
鲁静;宋斌;向万红;吴士泓;孙晓东;唐静;: "基于图像识别的移动端原始凭证电子化智能填单系统", 计算机工程, vol. 43, no. 06, 15 June 2017 (2017-06-15), pages 136 - 144 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065940A (zh) * | 2021-04-27 | 2021-07-02 | 平安普惠企业管理有限公司 | 基于人工智能的发票报销的方法、装置、设备及存储介质 |
CN113065940B (zh) * | 2021-04-27 | 2023-11-17 | 江苏环迅信息科技有限公司 | 基于人工智能的发票报销的方法、装置、设备及存储介质 |
CN113239811A (zh) * | 2021-05-17 | 2021-08-10 | 上海中通吉网络技术有限公司 | 确定报销单中导入的电子发票对应的费用类型的方法 |
CN114155071A (zh) * | 2021-10-12 | 2022-03-08 | 远光软件股份有限公司 | 报销单据生成方法、系统以及存储介质 |
CN113989010A (zh) * | 2021-11-26 | 2022-01-28 | 中国银行股份有限公司 | 财务报销方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232036A (zh) | 报销单生成方法、电子设备和计算机可读存储介质 | |
CN114862540B (zh) | 一种票据审核系统及其方法 | |
CN108170715B (zh) | 一种文本结构化处理方法 | |
CN110458675B (zh) | 一种基于大数据的票据生成凭证方法 | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
US20050165642A1 (en) | Method and system for processing classified advertisements | |
CN110046978A (zh) | 智能报销方法 | |
CN112035653A (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN112184145A (zh) | 一种基于ai无人干预审批系统 | |
CN110517130A (zh) | 一种智能记账方法及其系统 | |
US11574003B2 (en) | Image search method, apparatus, and device | |
CN111931780A (zh) | 一种会计凭证智能管理方法及设备 | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN112069893A (zh) | 一种票据处理方法、装置、电子设备及存储介质 | |
CN111144409A (zh) | 一种跟单托收审单处理方法及系统 | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
CN114693420A (zh) | 一种智慧报账系统 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113112239A (zh) | 一种便捷式岗位人才筛选方法 | |
CA3210419C (en) | Method and system for extracting data from tables within regulatory content | |
CN113240562A (zh) | 一种基于nlp的产学研项目推荐匹配方法与系统 | |
CN109583687A (zh) | 自动计算违约合同的控制方法、装置、计算机设备及存储介质 | |
CN116777592A (zh) | 一种金融业务审批方法、装置、设备和存储介质 | |
CN116383414A (zh) | 一种基于碳核查知识图谱的智能文件评审系统及方法 | |
CN109933704A (zh) | 车辆咨询信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |