CN114004605A - 发票超限量申请审批方法、装置、设备和介质 - Google Patents

发票超限量申请审批方法、装置、设备和介质 Download PDF

Info

Publication number
CN114004605A
CN114004605A CN202111651786.XA CN202111651786A CN114004605A CN 114004605 A CN114004605 A CN 114004605A CN 202111651786 A CN202111651786 A CN 202111651786A CN 114004605 A CN114004605 A CN 114004605A
Authority
CN
China
Prior art keywords
approval
entity
feature vector
invoice
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111651786.XA
Other languages
English (en)
Inventor
郭建彬
董立峰
黄泰文
李晓彤
徐明媛
赵菲菲
盘浩军
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Wenge Technology Co ltd
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Shenzhen Zhongke Wenge Technology Co ltd
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Wenge Technology Co ltd, Beijing Zhongke Wenge Technology Co ltd filed Critical Shenzhen Zhongke Wenge Technology Co ltd
Priority to CN202111651786.XA priority Critical patent/CN114004605A/zh
Publication of CN114004605A publication Critical patent/CN114004605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例涉及一种发票超限量申请审批方法、装置、设备和介质。该方法包括:获取待审批实体的实体信息和涉税数据,其中,所述待审批实体为发起发票超限量申请的实体;基于所述实体信息和所述涉税数据,构建第一基础特征向量;基于所述第一基础特征向量,生成第一衍生特征向量;其中,所述第一衍生特征向量用于反映所述待审批实体属于审批通过类型或审批拒绝类型的区分程度;将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果。通过上述技术方案,提高了审批方案的泛化性能和审批准确性。

Description

发票超限量申请审批方法、装置、设备和介质
技术领域
本发明涉及金融技术领域,尤其涉及一种发票超限量申请审批方法、装置、设备和介质。
背景技术
发票超限量申请是指纳税实体(如企业)受各种因素的影响,在实际生产经营过程中出现实际用票量超过票种核定的领票数量,进而向主管税务机关发起的超额发票领取的申请。发票超限量申请审批是指主管税务机关对发票超限量申请的批复过程。为了提高主管税务机关的审批效率,往往借助计算机技术进行相关数据的处理,来实现智能/自动审批。
目前,对于发票超限量申请的智能审批的主要实现方案是基于专家评价指标体系的审批方案。该方案利用相关税务专家确定的评价指标、指标权重和风险定性阈值等参数对发起发票超限量申请的实体进行评估,并根据评估结果来确定是否通过该实体的发票超限量申请。
但是,上述基于专家评价指标体系的审批方案中,评价指标的选取、指标权重和风险定性阈值的设定均依赖于税务专家的领域经验,使得该方案存在泛化性能较差、可扩展性较差的问题。并且,上述三项内容的确定策略均是人为设定,其难以适应税收政策的变化与更新、也难以适应企业发展所引起的企业行为数据的变化与更新,导致该方案对于新时期发票审批的适应性和企业发展的适应性均较差,最终导致该方案的智能审批的准确性低。
发明内容
为了解决上述技术问题,本发明提供了一种发票超限量申请审批方法、装置、设备和介质。
第一方能,本发明实施例提供了一种发票超限量申请审批方法,该方法包括:
获取待审批实体的实体信息和涉税数据,其中,所述待审批实体为发起发票超限量申请的实体;
基于所述实体信息和所述涉税数据,构建第一基础特征向量;
基于所述第一基础特征向量,生成第一衍生特征向量;其中,所述第一衍生特征向量用于反映所述待审批实体属于审批通过类型或审批拒绝类型的区分程度;
将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果。
在一些实施例中,所述基于所述第一基础特征向量,生成第一衍生特征向量包括:
获取多个样本实体类别;其中,所述样本实体类别通过对多个样本实体的第二基础特征向量进行分类而得到,所述样本实体类别和所述样本实体均为所述目标申请审批模型的训练数据;
确定所述第一基础特征向量归属于各所述样本实体类别的归属度,并基于各所述归属度生成归属度向量;
基于所述归属度向量,生成所述第一衍生特征向量。
在一些实施例中,所述基于所述归属度向量,生成所述第一衍生特征向量包括:
基于各所述样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,确定各所述样本实体类别对应的关联度向量;其中,所述关联度向量中的元素用于表征所述元素对应的样本实体类别与所述审批通过类型之间的关联程度;
基于所述归属度向量和所述关联度向量,生成所述第一衍生特征向量。
在一些实施例中,所述确定所述第一基础特征向量归属于各所述样本实体类别的归属度包括:
确定每个所述样本实体类别的类别中心向量;
确定所述第一基础特征向量和每个所述样本实体类别对应的所述类别中心向量之间的欧氏距离;
针对每个所述样本实体类别,确定所述样本实体类别对应的所述欧氏距离与各所述欧氏距离的加和的比值,作为所述第一基础特征向量归属于所述样本实体类别的所述归属度。
在一些实施例中,所述样本实体类别通过对所述多个样本实体的所述第二基础特征向量进行聚类分析而得到。
在一些实施例中,所述第一基础特征向量包含历史申请次数、历史审批通过率、历史用票方差、当前申请异常值、历史纳税异常值、注册地址异常值和信息变更频度值。
进一步地,所述基于所述实体信息和所述涉税数据,构建第一基础特征向量包括:
统计所述涉税数据中的发票超限额申请的申请次数,作为所述历史申请次数;
统计所述涉税数据中的发票超限额申请的审批通过次数,并确定所述审批通过次数与所述历史申请次数的比值,作为所述历史审批通过率;
基于所述涉税数据中的各历史发票领取周期内的领取发票信息,确定所述历史用票方差;
基于当前发票领取周期内的已使用发票信息、当前发票超限额申请的申请发票信息和所述涉税数据中的各所述历史发票领取周期内的领取发票信息,确定所述当前申请异常值;
基于所述涉税数据中的各所述历史发票领取周期内的纳税申报信息,确定所述历史纳税异常值;
基于所述实体信息中的历史注册地址信息和历史实体法人信息,确定所述注册地址异常值和所述信息变更频度值。
在一些实施例中,所述基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果包括:
基于所述模型输出的审批通过类型对应的概率和审批拒绝类型对应的概率,确定所述待审批实体发起的所述发票超限量申请对应的目标审批类型;
将所述审批通过类型对应的概率、所述审批拒绝类型对应的概率和所述目标审批类型确定为所述审批结果。
在一些实施例中,所述目标申请审批模型通过如下方式预先训练获得:
获取训练样本集;其中,所述训练样本集中包含每个样本实体对应的第二基础特征向量、第二衍生特征向量和审批类型标签;所述审批类型标签为审批通过类型标签或审批拒绝类型标签;
利用所述训练样本集对所述预设分类模型进行模型训练,并在训练达到预设收敛条件时,停止训练,且将训练后的预设分类模型确定为所述目标申请审批模型。
进一步地,所述预设分类模型为极致梯度提升模型。
第二方面,本发明实施例还提供了一种发票超限量申请审批装置,所述装置包括:
数据获取模块,用于获取待审批实体的实体信息和涉税数据,其中,所述待审批实体为发起发票超限量申请的实体;
第一基础特征向量构建模块,用于基于所述实体信息和所述涉税数据,构建第一基础特征向量;
第一衍生特征向量生成模块,用于基于所述第一基础特征向量,生成第一衍生特征向量;其中,所述第一衍生特征向量用于反映所述待审批实体属于审批通过类型或审批拒绝类型的区分程度;
审批结果确定模块,用于将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果。
在一些实施例中,第一衍生特征向量生成模块包括:
样本实体类别获取子模块,用于获取多个样本实体类别;其中,所述样本实体类别通过对多个样本实体的第二基础特征向量进行分类而得到,所述样本实体类别和所述样本实体均为所述目标申请审批模型的训练数据;
归属度向量生成子模块,用于确定所述第一基础特征向量归属于各所述样本实体类别的归属度,并基于各所述归属度生成归属度向量;
第一衍生特征向量生成子模块,用于基于所述归属度向量,生成所述第一衍生特征向量。
在一些实施例中,第一衍生特征向量生成子模块具体用于:
基于各所述样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,确定各所述样本实体类别对应的关联度向量;其中,所述关联度向量中的元素用于表征所述元素对应的样本实体类别与所述审批通过类型之间的关联程度;
基于所述归属度向量和所述关联度向量,生成所述第一衍生特征向量。
在一些实施例中,归属度向量生成子模块具体用于:
确定每个所述样本实体类别的类别中心向量;
确定所述第一基础特征向量和每个所述样本实体类别对应的所述类别中心向量之间的欧氏距离;
针对每个所述样本实体类别,确定所述样本实体类别对应的所述欧氏距离与各所述欧氏距离的加和的比值,作为所述第一基础特征向量归属于所述样本实体类别的所述归属度。
在一些实施例中,所述样本实体类别通过对所述多个样本实体的所述第二基础特征向量进行聚类分析而得到。
在一些实施例中,所述第一基础特征向量包含历史申请次数、历史审批通过率、历史用票方差、当前申请异常值、历史纳税异常值、注册地址异常值和信息变更频度值。
进一步地,第一基础特征向量构建模块具体用于:
统计所述涉税数据中的发票超限额申请的申请次数,作为所述历史申请次数;
统计所述涉税数据中的发票超限额申请的审批通过次数,并确定所述审批通过次数与所述历史申请次数的比值,作为所述历史审批通过率;
基于所述涉税数据中的各历史发票领取周期内的领取发票信息,确定所述历史用票方差;
基于当前发票领取周期内的已使用发票信息、当前发票超限额申请的申请发票信息和所述涉税数据中的各所述历史发票领取周期内的领取发票信息,确定所述当前申请异常值;
基于所述涉税数据中的各所述历史发票领取周期内的纳税申报信息,确定所述历史纳税异常值;
基于所述实体信息中的历史注册地址信息和历史实体法人信息,确定所述注册地址异常值和所述信息变更频度值。
在一些实施例中,审批结果确定模块具体用于:
基于所述模型输出的审批通过类型对应的概率和审批拒绝类型对应的概率,确定所述待审批实体发起的所述发票超限量申请对应的目标审批类型;
将所述审批通过类型对应的概率、所述审批拒绝类型对应的概率和所述目标审批类型确定为所述审批结果。
在一些实施例中,发票超限量申请审批装置还包括模型训练模块,用于所述通过如下方式预先训练获得目标申请审批模型:
获取训练样本集;其中,所述训练样本集中包含每个样本实体对应的第二基础特征向量、第二衍生特征向量和审批类型标签;所述审批类型标签为审批通过类型标签或审批拒绝类型标签;
利用所述训练样本集对所述预设分类模型进行模型训练,并在训练达到预设收敛条件时,停止训练,且将训练后的预设分类模型确定为所述目标申请审批模型。
进一步地,所述预设分类模型为极致梯度提升模型。
第三方面,本发明实施例还提供了一种的电子设备,该电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行本发明任意实施例中所说明的发票超限量申请审批方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或所述指令使计算机执行本发明任意实施例中所说明的发票超限量申请审批方法的步骤。
本发明实施例提供的技术方案与现有技术相比具有如下优点:
1、根据待审批实体的实体信息和涉税数据,构建第一基础特征向量,能够充分考虑待审批实体的静态信息和涉税行为数据,获得待审批实体的精细且全面的特征信息,以高效刻画待审批实体的发票超限量申请行为,为后续智能审批过程提供精准的实体特征信息。
2、根据所述第一基础特征向量,生成用于表征所述待审批实体属于审批通过类型和审批拒绝类型的概率的第一衍生特征向量,能够进一步加深第一基础特征向量在特征挖掘上的深度,弱化待审批实体的行为数据中随时间而变化的特征,向实体特征信息中增加更加精细的特征信息,进一步提高实体特征信息的全面性,从而进一步提高后续智能审批的输入数据的精准性,进而提高对企业发展而引起的企业涉税行为变化的适应性。
3、通过将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果,能够通过对机器学习算法进行训练而得到目标申请审批模型,并据此得到审批结果,而无需相关专家制定或调整评价指标及其相关阈值,解决了基于专家评价指标体系的审批方案泛化性能不足和扩展性差及其导致的审批准确性低的问题,不仅削弱了审批过程中的人为影响,提高了审批方案对税收政策变化的适应速度,而且提高了待审批实体的发票超限量申请的审批结果的准确性,从而更加高效地为审批相关人员提供精准的审批决策依据,缩短审批周期。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种发票超限量申请审批方法的流程示意图;
图2为本发明实施例提供的一种发票超限量申请审批装置的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将对本发明的方案进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
相关技术中因采用了基于专家评价指标的智能审批方法,使得审批存在泛化性能差、扩展性差、对税收政策变化的适应速度慢和精度低等问题。
为了解决泛化性能差和扩展性差的问题,本发明实施例中利用了机器学习算法具有的泛化能力强、对多维度的输入数据的兼容性强等特性,选择了收集训练数据并训练机器学习算法,得到能够自动判定涉税企业的发票超限量申请是否通过的目标申请审批模型,且在实际应用过程中利用该目标申请审批模型对发票超限量申请进行审批结果的预测。
为了解决对税收政策变化的适应速度慢和精度低等问题,本发明实施例中考虑到无论税收政策如何变化,涉税实体的更多维度的相关数据均可反映其是否符合税收政策的要求。所以,在训练模型和应用模型的过程中,本发明实施例均尽可能全面且精细地提取涉税实体的多维度的特征信息,以尽量覆盖各种税收政策所包含的税法点,以此来提高目标申请审批模型对各种税收政策变化的适应速度。
本发明实施例提供的发票超限量申请审批方法,主要适用于对纳税实体(如企业)发起的发票超限量申请进行智能审批的情况。本发明实施例提供的发票超限量申请审批方法可以由发票超限量申请审批装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有一定的计算能力的电子设备中,例如笔记本电脑、台式电脑或服务器等。
图1是本发明实施例提供的一种发票超限量申请审批方法的流程图。参见图1,该发票超限量申请审批方法具体包括:
S110、获取待审批实体的实体信息和涉税数据。
其中,待审批实体为发起发票超限量申请的实体。该实体是指纳税主体,也可称为纳税实体,例如可以是企业。实体信息是指纳税实体的静态属性信息,例如可以是实体注册信息、注册信息变更信息等。涉税数据是指纳税主体执行的纳税相关行为而产生的数据,例如可以是对应纳税额进行申报的行为数据、发起发票超限额申请的行为数据、领取发票的行为数据、使用发票的行为数据等。
具体地,在利用目标申请审批模型对审批结果进行预测的过程中,电子设备首先要获得模型的输入向量。根据上述说明,该输入向量是待审批实体的全面且精细的多维度的特征信息,而这些特征信息可以从待审批实体的实体信息和涉税数据中提取得到。所以,电子设备首要的是获取待审批实体的实体信息和涉税数据。
电子设备可以在经过相关授权后,从税务大数据平台中提取固定时间期限内的待审批实体的实体信息和涉税数据。该固定时间期限与模型的训练数据的收集时间期限一致,例如可以设置为12个月。
在获取到实体信息和涉税数据之后,还需对其进行数据预处理,以确保数据的完整性和一致性,并降低数据因素对后续模型预测的审批结果的准确性的影响。例如,对获取的数据进行异常值识别与剔除、缺失值填充(如利用均值或者预先设置的固定值作为缺失部分的值)、统一量纲、数据去重和噪声滤除等处理。
S120、基于实体信息和涉税数据,构建第一基础特征向量。
其中,第一基础特征向量是指待审批实体对应的基础特征向量。该基础特征向量是指从涉税实体的相关数据中直接抽取得到的特征向量。
具体地,根据上述说明,电子设备在获取到实体信息和涉税数据后,需要对其进行特征提取,以构建待审批实体的第一基础特征向量。对于第一基础特征向量的构建,可以有至少两种实现方式。
在一种实施方式中,电子设备可以预先获得自动提取信息的信息提取模型。然后,电子设备将上述实体信息和涉税数据输入上述信息提取模型,得到待审批实体的第一基础特征向量。
在另一种实施方式中,电子设备中可以预先配置基础特征向量所包含的特征维度和每个特征维度对应的特征含义和特征提取方式。然后,电子设备按照上述配置对待审批实体的实体信息和涉税数据进行相关特征维度的特征值的提取,并由提取的各特征值来构建待审批实体的第一基础特征向量。
在一些实施例中,上述第二种实施方式中的第一基础特征向量包含历史申请次数、历史审批通过率、历史用票方差、当前申请异常值、历史纳税异常值、注册地址异常值和信息变更频度值。
其中,历史申请次数是指待审批实体在固定时间期限内曾经发起的发票超限量申请的次数,其用于表征待审批实体的发票超限量申请的稳定性。示例性地,电子设备可以统计涉税数据中的发票超限额申请的申请次数,作为历史申请次数。
其中,历史审批通过率是指固定时间期限内,待审批实体发起的发票超限量申请被审批通过的申请占比,其用于表征待审批实体在发票超限量申请行为上的可信程度。历史审批通过率越高,该待审批实体的可信程度越高。示例性地,电子设备可以统计涉税数据中的发票超限额申请被审批通过的次数(即审批通过次数),并确定审批通过次数与历史申请次数的比值,作为历史审批通过率。
其中,历史用票方差是指固定时间期限内待审批企业使用发票的方差,其用于表征待审批实体在发票用量上的稳定程度。历史用票方差越大,说明待审批实体的发票用量越不稳定,那么其发起发票超限量申请的合理性越高。示例性地,电子设备基于涉税数据中的各历史发票领取周期内的领取发票信息,确定历史用票方差。这里的历史发票领取周期是指固定时间期限内、领取发票的周期(即发票领取周期)。发票领取周期与相关税收政策一致,例如可以是一个月。那么,电子设备可以从涉税数据中提取每个月的领取发票信息(如发票总金额或发票数量),然后利用这些领取发票信息计算方差,便可得到历史用票方差。
其中,当前申请异常值是指待审批企业当前发起的发票超限量申请中所申请的发票信息(即申请发明信息)的异常程度的值。当前申请异常值越大,待审批实体的当前申请的异常程度越高。示例性地,电子设备基于当前发票领取周期内的已使用发票信息、当前发票超限额申请的申请发票信息和涉税数据中的各历史发票领取周期内的领取发票信息,确定当前申请异常值。这里的当前发票领取周期是指当前发起发票超限量申请的发票领取周期。已使用发票信息是指当前发票领取周期内待审批实体已经用掉的发票信息。例如,电子设备可以从税务大数据平台中获取待审批实体在当前月的已使用发票信息和申请发票信息,并从涉税数据中获得每个月的领取发票信息。然后,电子设备计算已使用发票信息与申请发票信息的加和,以表示待审批实体在当月的发票使用情况。并且,电子设备计算各领取发票信息的均值,以表示待审批实体的用票平均水平。之后,电子设备计算上述加和与上述均值的比值,作为当前申请异常值。
其中,历史纳税异常值是指待审批企业在固定时间期限内是否对应纳税额进行了申报。未申报或未完全申报的次数越多,待审批实体的纳税异常程度越高,待审批实体的涉税活动的合理性越低。示例性地,电子设备基于涉税数据中的各历史发票领取周期内的纳税申报信息,确定历史纳税异常值。例如,电子设备从涉税数据中提取到待审批实体每个月已申报的纳税金额和每个月应纳税额,并比较每个月的已申报的纳税金额和应纳税额是否相等,以判断其是否每个月均正常申报。然后,计算未正常申报的次数与应申报次数的比值,作为历史纳税异常值。
其中,注册地址异常值是指待审批实体的注册地址的异常程度,其用于表征待审批实体潜在的风险程度。示例性地,电子设备基于实体信息中的历史注册地址信息,确定注册地址异常值。例如,电子设备从历史注册地址信息中获取到待审批实体的当前注册地址,并查询该当前注册地址对应的涉税实体的数量。如果数量大于2,注册地址异常值为表征异常的值。如果数量等于1,注册地址异常值为表征正常的值。
其中,信息变更频度值是指待审批实体的法人信息、注册地址信息等的变更次数或频率,其用于表征待审批实体在诚信经营方面的稳定程度。信息变更频度值越高,稳定程度越低。示例性地,电子设备基于实体信息中的历史注册地址信息和历史实体法人信息,确定信息变更频度值。即电子设备从历史注册地址信息中查询固定时间时期内待审批实体的注册地址的变更次数,从历史实体法人信息中查询该固定时间时期内待审批实体的法人变更次数。然后,根据注册地址的变更次数和法人变更次数来计算信息变更频度值。例如,预先为注册地址和法人分别设定对应的权重,然后根据设定的权重对注册地址的变更次数和法人变更次数进行加权求和,所得结果作为信息变更频度值。上述两个权重可以依据注册地址和法人对企业诚信经营的重要性来确定。
通过上述各特征维度的设置,可以借助大数据挖掘和税务专家经验为涉税实体提取更加精细且全面的指标特征,从而实现对涉税实体的涉税行为的高效刻画,为其发票超限量申请的智能审批提供多维度的精准的决策依据。
S130、基于第一基础特征向量,生成第一衍生特征向量。
其中,衍生特征向量是对基础特征向量进行进一步加工处理而获得的涉税实体的更深层次的特征向量。上述加工处理的规则是由基础特征向量来推算其对应的涉税实体与审批通过类型的关联程度。那么,衍生特征向量可以反映涉税实体属于审批通过类型或审批拒绝类型的区分程度。这里的审批通过类型是指发票超限量申请审批通过的类型。审批拒绝类型是指发票超限量申请未被审批通过的类型。那么,第一衍生特征向量是由第一基础特征向量处理而获得的衍生特征向量,且第一衍生特征向量用于反映待审批实体属于审批通过类型或审批拒绝类型的区分程度。
具体地,电子设备基于第一基础特征向量来分析待审批实体属于审批通过类型或审批拒绝类型的区分程度。
在一种实施方式中,电子设备可以分析第一基础特征向量中的每个特征维度的特征值,以确定在每个特征维度上待审批实体属于审批通过类型或审批拒绝类型的区分程度,这样便可得到第一衍生特征向量。
在另一种实施方式中,电子设备可以预先获得与审批通过类型具有不同的区分程度的基础特征向量,即获得由高到低的多个区分程度档位的基础特征向量。例如,获得区分程度最高、区分程度次高、区分程度中等、区分程度次低和区分程度最低的各基础特征向量。然后,电子设备对第一基础特征向量和上述各基础特征向量分别进行一定的计算处理,便可得到第一衍生特征向量。例如,电子设备计算第一基础特征向量和各基础特征向量之间的向量相似度,并将各向量相似度作为第一衍生特征向量的元素。再如,电子设备将第一基础特征向量和每个上述基础特征向量的对应元素进行一定的加权处理(权重与区分程度成正比例关系),所得向量也可作为第一衍生特征向量。
需要说明的是,为了提高数据利用率和数据准确性,上述与审批通过类型具有不同的区分程度的各基础特征向量,可以是训练目标申请审批模型的训练数据中的至少一部分数据。
S140、将第一基础特征向量和第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对待审批实体发起的发票超限量申请的审批结果。
其中,目标申请审批模型通过预先对预设分类模型进行训练而获得。这里的预设分类模型可以是各种分类模型中的一种。示例性地,预设分类模型可以为极致梯度提升模型(eXtreme Gradient Boosting,XGBoost)。XGBoost模型基于boosting集成策略整合多个决策树模型的分类器,梯度提升树集成全部决策树的分类投票结果,将投票次数最多的类别标签指定为最终的类别标签输出。XGBoost模型输出的类别标签是由个别树输出的类别标签的众数而确定,在拥有较高分类准确率的同时保证了分类过程的鲁棒性。所以,XGBoost模型具有分类准确率高、适用于高维数据、兼容数据缺失问题等优点,其能够提供相对于其他分类模型更高的分类准确性和模型鲁棒性,从而提供更加准确和稳定的智能审批结果。
具体地,电子设备将第一基础特征向量和第一衍生特征向量,按照模型的输入要求,共同输入目标申请审批模型,经过模型的运算获得模型输出结果。该模型输出结果可以是待审批实体分别归属于审批通过类型和审批拒绝类型的概率,也可以是判定待审批实体所属的审批类型的标签,如审批通过类型标签或审批拒绝类型标签。这里的审批拒绝类型是发票超限量申请审批不被通过的类型。审批通过类型标签和审批拒绝类型标签分别是表征审批通过类型和审批拒绝类型的标识性信息。之后,电子设备根据模型输出结果和审批实际场景中所需的决策依据,确定待审批实体发起的发票超限量申请的最终的审批结果。该审批结果可以作为主管税务机关的相关工作人员进行发票超限量申请审批的有效决策依据。
在一示例中,目标申请审批模型的模型输入要求为一个特征向量,那么电子设备可以拼接第一基础特征向量和第一衍生特征向量,形成一个维度更多的输入特征向量。
在另一示例中,目标申请审批模型的模型输入要求可以为多个特征向量,那么电子设备直接将第一基础特征向量和第一衍生特征向量作为两个独立的输入特征向量。
在一些实施例中,上述基于模型输出结果确定对待审批实体发起的发票超限量申请的审批结果包括:基于模型输出的审批通过类型对应的概率和审批拒绝类型对应的概率,确定待审批实体发起的发票超限量申请对应的目标审批类型;将审批通过类型对应的概率、审批拒绝类型对应的概率和目标审批类型确定为审批结果。
具体地,在模型输出结果包含待审批实体分别归属于审批通过类型和审批拒绝类型的概率时,电子设备通过比较两个概率,将较大概率对应的审批类型确定为待审批实体对应的审批类型(即目标审批类型)。然后,电子设备将上述两个概率和确定的目标审批类型全部作为审批结果输出。这样可为主管税务机关的相关工作人员进行发票超限量申请的审批提供更加全面的决策依据。
本发明实施例的上述技术方案,通过待审批实体的实体信息和涉税数据,构建第一基础特征向量,能够充分考虑待审批实体的静态信息和涉税行为数据,获得待审批实体的精细且全面的特征信息,以高效刻画待审批实体的发票超限量申请行为,为后续智能审批过程提供精准的实体特征信息。通过第一基础特征向量,生成用于表征待审批实体属于审批通过类型和审批拒绝类型的概率的第一衍生特征向量,能够进一步加深第一基础特征向量在特征挖掘上的深度,弱化待审批实体的行为数据中随时间而变化的特征,向实体特征信息中增加更加精细的特征信息,进一步提高实体特征信息的全面性,从而进一步提高后续智能审批的输入数据的精准性,进而提高对企业发展而引起的企业涉税行为变化的适应性。通过将第一基础特征向量和第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对待审批实体发起的发票超限量申请的审批结果,能够通过对机器学习算法进行训练而得到目标申请审批模型,并据此得到审批结果,而无需相关专家制定或调整评价指标及其相关阈值,解决了基于专家评价指标体系的审批方案泛化性能不足和扩展性差及其导致的审批准确性低的问题,不仅削弱了审批过程中的人为影响,提高了审批方案对税收政策变化的适应速度,而且提高了待审批实体的发票超限量申请的审批结果的准确性,从而更加高效地为审批相关人员提供精准的审批决策依据,缩短审批周期。
对于S130中的第二种实施方式,本发明实施例中可以预先根据各样本实体的基础特征向量(即第二基础特征向量)对多个样本实体进行分类,得到类内特征相似、类间特征差异的多个样本实体类别。因为样本实体的实体信息和涉税行为数据能够间接反映出该样本实体属于审批通过类型或审批拒绝类型的区分程度,而基础特征向量是基于样本实体的实体信息和涉税行为数据而得到,所以上述所得的各样本实体类别也能够在一定程度上反映其类内的各样本实体属于审批通过类型或审批拒绝类型的区分程度,即每个样本实体类别对应于一个区分涉税实体属于审批通过类型或审批拒绝类型的区分程度。那么,S130可实现为如下步骤A~步骤C。
步骤A、获取多个样本实体类别。
其中,样本实体是训练目标申请审批模型之前收集的训练数据中的涉税实体。样本实体类别是对多个样本实体的第二基础特征向量进行分类而得到的类别。故样本实体类别也是训练数据的一部分。上述分类所采用的分类算法可以是监督分类算法或非监督分类算法。示例性地,本发明实施例中采用聚类算法对各第二基础特征向量进行分类,得到多个样本实体类别,以避免该过程中引入人工误差。
具体地,在收集训练数据的过程中,电子设备可以获得各样本实体在固定时间期限内的实体信息和涉税数据,并按照上述S120的步骤得到每个样本实体对应的第二基础特征向量。然后,电子设备对各第二基础特征向量进行聚类分析,得到多个聚类类别,作为各样本实体类别。那么,电子设备在基于第一基础特征向量来获取第一衍生特征向量的过程中,可以直接查询获得训练数据中的各样本实体类别。这样不仅可以提高数据利用率,而且能够基于目标申请审批模型的训练数据来计算第一衍生特征向量,提高第一衍生特征向量与目标申请审批模型的输入数据特性的一致性,从而提高后续模型预测结果的准确性。
步骤B、确定第一基础特征向量归属于各样本实体类别的归属度,并基于各归属度生成归属度向量。
具体地,根据上述说明,每个样本实体类别代表着一个区分程度,那么,计算第一基础特征向量归属于每个样本实体类别的程度(即归属度),就能够获得第一基础特征向量接近于上述每个区分程度的程度,进而能够获得待审批实体对应的、由各归属度构成的归属度向量。
在一些实施例中,上述确定第一基础特征向量归属于各样本实体类别的归属度包括:确定每个样本实体类别的类别中心向量;确定第一基础特征向量和每个样本实体类别对应的类别中心向量之间的欧氏距离;针对每个样本实体类别,确定样本实体类别对应的欧氏距离与各欧氏距离的加和的比值,作为第一基础特征向量归属于样本实体类别的归属度。
具体地,电子设备先确定每个样本实体类别的类别中心对应的特征向量(即类别中心向量)。例如,电子设备计算各样本实体类别中包含的各样本实体对应的第二基础特征向量在各特征维度上的均值,所得向量作为类别中心向量。或者,电子设备根据样本实体类别中包含的各样本实体的第二基础特征向量的分布情况,从中选择一个最接近中心位置的第二基础特征向量,作为类别中心向量。然后,电子设备计算第一基础特征向量和每个样本实体类别的类别中心向量之间的欧氏距离。之后,电子设备计算各欧氏距离的加和,并计算每个欧氏距离与上述加和的比值,作为第一基础特征向量和相应欧氏距离对应的样本实体类别之间的归属度。
例如,以gi表示待审批实体的第一基础特征向量归属于第i个样本实体类别的归属度,以disti表示第一基础特征向量与第i个样本实体类别的类别中心向量之间的欧氏距离,以dist表示第一基础特征向量与各样本实体类别的类别中心向量之间的欧氏距离的加和,那么归属度计算公式如下:
Figure 983181DEST_PATH_IMAGE001
那么,上述归属度向量可表示为G = {g1, g2,…, gn},其中的n表示样本实体类别的数量。
步骤C、基于归属度向量,生成第一衍生特征向量。
具体地,在样本实体类别能够一定程度上代表不同的区分程度的基础上,上述归属度向量也可以一定程度上反映第一基础特征向量归属于审批通过类型或审批拒绝类型的区分程度。所以,电子设备可以直接将归属度向量确定为第一衍生特征向量。
在一些实施例中,步骤C可实现为:基于各样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,确定各样本实体类别对应的关联度向量;基于归属度向量和关联度向量,生成第一衍生特征向量。
其中,关联度向量中的元素用于表征元素对应的样本实体类别与审批通过类型之间的关联程度。关联程度越高,样本实体类别对应于审批通过类型的可能性越大。
具体地,为了进一步提高第一衍生特征向量的准确性,本实施例中,电子设备可以进一步计算每个样本实体类别与审批通过类型的关联程度,进而进一步通过归属度向量和由各关联程度构成的关联度向量计算第一衍生特征向量。
电子设备在收集训练数据过程中,会为每个样本实体设置其对应的审批类型。例如,在一定时期内,某个样本实体发起的发票超限量申请均审批通过,且该样本实体不存在违反税法的相关行为,那么为该样本实体设置审批通过类型标签。反之,在一定时期内,如果某个样本实体发起的发票超限量申请中有至少一次申请未审批通过,或者发票超限量申请均审批通过但其存在至少一次的违反税法的行为,那么为该样本实体设置审批拒绝类型标签。这样,上述每个样本实体类别中包含的各样本实体均携带审批标签。
基于上述情况,对于每个样本实体类别,电子设备统计该样本实体类别中包含的携带审批通过类型标签的样本实体的数量,并计算该数量与该样本实体类别中包含的样本实体的总数量程度比值,便可得到该样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,以表征该样本实体类别与审批通过类型的关联程度。由各样本实体类别对应的上述占比构成的向量便称为关联度向量。
之后,电子设备将归属度向量和关联度向量的对应元素值相乘,便可得到第一衍生特征向量。
例如,以ri表示第i个样本实体类别与审批通过类型的关联程度,那么关联度向量R可表示为R = {r1, r2,…, rn}。按照上述说明,第一衍生特征向量T可表示为T = {t1,t2,…, tn} = { t1*g1, t2*g2,…, tn*gn}。
在上述各实施例的基础上,目标申请审批模型通过如下方式预先训练获得:获取训练样本集;其中,训练样本集中包含每个样本实体对应的第二基础特征向量、第二衍生特征向量和审批类型标签;审批类型标签为审批通过类型标签或审批拒绝类型标签;利用训练样本集对预设分类模型进行模型训练,并在训练达到预设收敛条件时,停止训练,且将训练后的预设分类模型确定为目标申请审批模型。
具体地,本发明实施例中训练样本的获取方式和上述各实施例中待审批实体对应的模型的输入特征向量的获取方式一致,那么电子设备需要为每个训练样本取对应的样本实体的第二基础特征向量和第二衍生特征向量,此外还需按照上述说明为每个样本实体设置审批类型标签。然后,电子设备可以将训练样本集按照一定的比例(如7:2:1)划分为训练集、测试集和验证集。之后,电子设备利用训练集中的各训练样本对预设分类模型进行迭代训练,直至模型训练次数达到预设次数,或模型输出误差达到预设误差阈值,结束模型训练,此时的预设分类模型便为目标申请审批模型。之后,电子设备可以利用测试集对目标申请审批模型的预测精度进行测试评估。
此外,电子设备还可以利用验证集来进一步优化目标申请审批模型,来进一步提高模型预测精度。
进一步地,电子设备还可以在目标申请审批模型的实际应用过程中,不断收集相关工作人员反馈的错误预测数据,并利用该错误预测数据中的涉税实体的实体信息、涉税数据和相关工作人员做出的正确的审批类型标签,继续优化目标申请审批模型,实现模型的自学习,从而更进一步地提高模型预测精度。
图2为本发明实施例提供的一种发票超限量申请审批装置的结构示意图。如图2所示,该发票超限量申请审批装置200包括:
数据获取模块210,用于获取待审批实体的实体信息和涉税数据,其中,待审批实体为发起发票超限量申请的实体;
第一基础特征向量构建模块220,用于基于实体信息和涉税数据,构建第一基础特征向量;
第一衍生特征向量生成模块230,用于基于第一基础特征向量,生成第一衍生特征向量;其中,第一衍生特征向量用于反映待审批实体属于审批通过类型或审批拒绝类型的区分程度;
审批结果确定模块240,用于将第一基础特征向量和第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对待审批实体发起的发票超限量申请的审批结果。
本发明实施例提供的上述发票超限量申请审批装置,通过待审批实体的实体信息和涉税数据,构建第一基础特征向量,能够充分考虑待审批实体的静态信息和涉税行为数据,获得待审批实体的精细且全面的特征信息,以高效刻画待审批实体的发票超限量申请行为,为后续智能审批过程提供精准的实体特征信息。通过第一基础特征向量,生成用于表征待审批实体属于审批通过类型和审批拒绝类型的概率的第一衍生特征向量,能够进一步加深第一基础特征向量在特征挖掘上的深度,弱化待审批实体的行为数据中随时间而变化的特征,向实体特征信息中增加更加精细的特征信息,进一步提高实体特征信息的全面性,从而进一步提高后续智能审批的输入数据的精准性,进而提高对企业发展而引起的企业涉税行为变化的适应性。通过将第一基础特征向量和第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对待审批实体发起的发票超限量申请的审批结果,能够通过对机器学习算法进行训练而得到目标申请审批模型,并据此得到审批结果,而无需相关专家制定或调整评价指标及其相关阈值,解决了基于专家评价指标体系的审批方案泛化性能不足和扩展性差及其导致的审批准确性低的问题,不仅削弱了审批过程中的人为影响,提高了审批方案对税收政策变化的适应速度,而且提高了待审批实体的发票超限量申请的审批结果的准确性,从而更加高效地为审批相关人员提供精准的审批决策依据,缩短审批周期。
在一些实施例中,第一衍生特征向量生成模块230包括:
样本实体类别获取子模块,用于获取多个样本实体类别;其中,样本实体类别通过对多个样本实体的第二基础特征向量进行分类而得到,样本实体类别和样本实体均为目标申请审批模型的训练数据;
归属度向量生成子模块,用于确定第一基础特征向量归属于各样本实体类别的归属度,并基于各归属度生成归属度向量;
第一衍生特征向量生成子模块,用于基于归属度向量,生成第一衍生特征向量。
在一些实施例中,第一衍生特征向量生成子模块具体用于:
基于各样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,确定各样本实体类别对应的关联度向量;其中,关联度向量中的元素用于表征元素对应的样本实体类别与审批通过类型之间的关联程度;
基于归属度向量和关联度向量,生成第一衍生特征向量。
在一些实施例中,归属度向量生成子模块具体用于:
确定每个样本实体类别的类别中心向量;
确定第一基础特征向量和每个样本实体类别对应的类别中心向量之间的欧氏距离;
针对每个样本实体类别,确定样本实体类别对应的欧氏距离与各欧氏距离的加和的比值,作为第一基础特征向量归属于样本实体类别的归属度。
在一些实施例中,样本实体类别通过对多个样本实体的第二基础特征向量进行聚类分析而得到。
在一些实施例中,第一基础特征向量包含历史申请次数、历史审批通过率、历史用票方差、当前申请异常值、历史纳税异常值、注册地址异常值和信息变更频度值。
进一步地,第一基础特征向量构建模块220具体用于:
统计涉税数据中的发票超限额申请的申请次数,作为历史申请次数;
统计涉税数据中的发票超限额申请的审批通过次数,并确定审批通过次数与历史申请次数的比值,作为历史审批通过率;
基于涉税数据中的各历史发票领取周期内的领取发票信息,确定历史用票方差;
基于当前发票领取周期内的已使用发票信息、当前发票超限额申请的申请发票信息和涉税数据中的各历史发票领取周期内的领取发票信息,确定当前申请异常值;
基于涉税数据中的各历史发票领取周期内的纳税申报信息,确定历史纳税异常值;
基于实体信息中的历史注册地址信息和历史实体法人信息,确定注册地址异常值和信息变更频度值。
在一些实施例中,审批结果确定模块240具体用于:
基于模型输出的审批通过类型对应的概率和审批拒绝类型对应的概率,确定待审批实体发起的发票超限量申请对应的目标审批类型;
将审批通过类型对应的概率、审批拒绝类型对应的概率和目标审批类型确定为审批结果。
在一些实施例中,发票超限量申请审批装置200还包括模型训练模块,用于通过如下方式预先训练获得目标申请审批模型:
获取训练样本集;其中,训练样本集中包含每个样本实体对应的第二基础特征向量、第二衍生特征向量和审批类型标签;审批类型标签为审批通过类型标签或审批拒绝类型标签;
利用训练样本集对预设分类模型进行模型训练,并在训练达到预设收敛条件时,停止训练,且将训练后的预设分类模型确定为目标申请审批模型。
进一步地,预设分类模型为极致梯度提升模型。
本发明实施例所提供的发票超限量申请审批装置可执行本发明任意实施例所提供的发票超限量申请审批方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述发票超限量申请审批装置的实施例中,所包括的各个模块和子模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块/子模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图3为本发明实施例提供的一种电子设备的结构示意图。如图3所示,电子设备300包括一个或多个处理器301和存储器302。
处理器301可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备300中的其他组件以执行期望的功能。
存储器302可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器301可以运行程序指令,以实现上文所说明的本发明实施例的发票超限量申请审批方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如目标申请审批模型、样本实体类别、关联度向量等各种内容。
在一个示例中,电子设备300还可以包括:输入装置303和输出装置304,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置303可以包括例如键盘、鼠标等等。该输出装置304可以向外部输出各种信息,包括审批通过类型对应的概率、审批拒绝类型对应的概率和目标审批类型等。该输出装置304可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备300中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备300还可以包括任何其他适当的组件。
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本发明实施例所提供的发票超限量申请审批方法。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本发明实施例所提供的发票超限量申请审批方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,本发明所用术语仅为了描述特定实施例,而非限制本申请范围。如本发明说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种发票超限量申请审批方法,其特征在于,包括:
获取待审批实体的实体信息和涉税数据,其中,所述待审批实体为发起发票超限量申请的实体;
基于所述实体信息和所述涉税数据,构建第一基础特征向量;
基于所述第一基础特征向量,生成第一衍生特征向量;其中,所述第一衍生特征向量用于反映所述待审批实体属于审批通过类型或审批拒绝类型的区分程度;
将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一基础特征向量,生成第一衍生特征向量包括:
获取多个样本实体类别;其中,所述样本实体类别通过对多个样本实体的第二基础特征向量进行分类而得到,所述样本实体类别和所述样本实体均为所述目标申请审批模型的训练数据;
确定所述第一基础特征向量归属于各所述样本实体类别的归属度,并基于各所述归属度生成归属度向量;
基于所述归属度向量,生成所述第一衍生特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述归属度向量,生成所述第一衍生特征向量包括:
基于各所述样本实体类别中包含的对应有审批通过类型标签的样本实体的占比,确定各所述样本实体类别对应的关联度向量;其中,所述关联度向量中的元素用于表征所述元素对应的样本实体类别与所述审批通过类型之间的关联程度;
基于所述归属度向量和所述关联度向量,生成所述第一衍生特征向量。
4.根据权利要求2所述的方法,其特征在于,所述确定所述第一基础特征向量归属于各所述样本实体类别的归属度包括:
确定每个所述样本实体类别的类别中心向量;
确定所述第一基础特征向量和每个所述样本实体类别对应的所述类别中心向量之间的欧氏距离;
针对每个所述样本实体类别,确定所述样本实体类别对应的所述欧氏距离与各所述欧氏距离的加和的比值,作为所述第一基础特征向量归属于所述样本实体类别的所述归属度。
5.根据权利要求2所述的方法,其特征在于,所述样本实体类别通过对所述多个样本实体的所述第二基础特征向量进行聚类分析而得到。
6.根据权利要求1所述的方法,其特征在于,所述第一基础特征向量包含历史申请次数、历史审批通过率、历史用票方差、当前申请异常值、历史纳税异常值、注册地址异常值和信息变更频度值。
7.根据权利要求1所述的方法,其特征在于,所述基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果包括:
基于所述模型输出的审批通过类型对应的概率和审批拒绝类型对应的概率,确定所述待审批实体发起的所述发票超限量申请对应的目标审批类型;
将所述审批通过类型对应的概率、所述审批拒绝类型对应的概率和所述目标审批类型确定为所述审批结果。
8.一种发票超限量申请审批装置,其特征在于,包括:
数据获取模块,用于获取待审批实体的实体信息和涉税数据,其中,所述待审批实体为发起发票超限量申请的实体;
第一基础特征向量构建模块,用于基于所述实体信息和所述涉税数据,构建第一基础特征向量;
第一衍生特征向量生成模块,用于基于所述第一基础特征向量,生成第一衍生特征向量;其中,所述第一衍生特征向量用于反映所述待审批实体属于审批通过类型或审批拒绝类型的区分程度;
审批结果确定模块,用于将所述第一基础特征向量和所述第一衍生特征向量输入预先训练得到的目标申请审批模型,并基于模型输出结果确定对所述待审批实体发起的所述发票超限量申请的审批结果。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述发票超限量申请审批方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述发票超限量申请审批方法的步骤。
CN202111651786.XA 2021-12-31 2021-12-31 发票超限量申请审批方法、装置、设备和介质 Pending CN114004605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651786.XA CN114004605A (zh) 2021-12-31 2021-12-31 发票超限量申请审批方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651786.XA CN114004605A (zh) 2021-12-31 2021-12-31 发票超限量申请审批方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN114004605A true CN114004605A (zh) 2022-02-01

Family

ID=79932315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651786.XA Pending CN114004605A (zh) 2021-12-31 2021-12-31 发票超限量申请审批方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114004605A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844302A (zh) * 2016-04-07 2016-08-10 南京新与力文化传播有限公司 基于深度学习的自动计算商品潮流指数的方法
CN110175911A (zh) * 2019-06-03 2019-08-27 卓尔智联(武汉)研究院有限公司 基于深度学习的信贷审批结果预判方法及相关设备
CN110297907A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
US20200013098A1 (en) * 2018-07-06 2020-01-09 David Schnitt Invoice classification and approval system
CN111523996A (zh) * 2020-04-21 2020-08-11 北京易点淘网络技术有限公司 一种审批方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844302A (zh) * 2016-04-07 2016-08-10 南京新与力文化传播有限公司 基于深度学习的自动计算商品潮流指数的方法
US20200013098A1 (en) * 2018-07-06 2020-01-09 David Schnitt Invoice classification and approval system
CN110175911A (zh) * 2019-06-03 2019-08-27 卓尔智联(武汉)研究院有限公司 基于深度学习的信贷审批结果预判方法及相关设备
CN110297907A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN111523996A (zh) * 2020-04-21 2020-08-11 北京易点淘网络技术有限公司 一种审批方法及系统

Similar Documents

Publication Publication Date Title
Rao et al. Design of comprehensive evaluation index system for P2P credit risk of “three rural” borrowers
US20210118054A1 (en) Resource exchange system
CN111127178A (zh) 数据处理方法与装置、存储介质、电子设备
US20210117889A1 (en) Co-operative resource pooling system
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN109583966A (zh) 一种高价值客户识别方法、系统、设备及存储介质
CN114265967B (zh) 一种敏感数据安全等级标注方法及装置
CN111985937A (zh) 交易商价值信息评估方法、系统、存储介质、计算机设备
US11967165B2 (en) Artificial intelligence (AI) based document processing and validation
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
Fan et al. Improved ML-based technique for credit card scoring in internet financial risk control
CN105991574A (zh) 风险行为监控方法及装置
US20190303424A1 (en) Novel and innovative computer system and method for accurately and consistently automating the coding of timekeeping activities and expenses, and automatically assessing the reasonableness of amounts of time billed for those activities and expenses, through the use of supervised and unsupervised machine learning, as well as lexical, statistical, and multivariate modelling of billing entries
CN112329862A (zh) 基于决策树的反洗钱方法及系统
CN114004605A (zh) 发票超限量申请审批方法、装置、设备和介质
CN115482084A (zh) 用于生成风控规则集的方法及装置
CN114708090A (zh) 基于大数据的银行支付业务风险识别装置
US11379929B2 (en) Advice engine
KR102095022B1 (ko) 기사 분석을 이용한 주식 자동 매매 방법, 장치 및 프로그램
CN114626863A (zh) 出口骗税企业的检测方法、装置、设备及存储介质
Li et al. Research on listed companies’ credit ratings, considering classification performance and interpretability
Yang et al. An Evidential Reasoning Rule-Based Ensemble Learning Approach for Evaluating Credit Risks with Customer Heterogeneity
CN113450116A (zh) 一种交易风险分析方法、装置、电子设备及存储介质
Huang et al. Application of enhanced cluster validity index function to automatic stock portfolio selection system
CN117670509A (zh) 违约风险预测模型训练和违约风险预测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination