CN113536091A - 发票爬虫查验方法、装置、计算机设备及存储介质 - Google Patents

发票爬虫查验方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113536091A
CN113536091A CN202110803461.2A CN202110803461A CN113536091A CN 113536091 A CN113536091 A CN 113536091A CN 202110803461 A CN202110803461 A CN 202110803461A CN 113536091 A CN113536091 A CN 113536091A
Authority
CN
China
Prior art keywords
invoice
checking
verification code
website
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110803461.2A
Other languages
English (en)
Inventor
周程伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Lianrong Technology Co ltd
Original Assignee
Shenzhen Lianrong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Lianrong Technology Co ltd filed Critical Shenzhen Lianrong Technology Co ltd
Priority to CN202110803461.2A priority Critical patent/CN113536091A/zh
Publication of CN113536091A publication Critical patent/CN113536091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明实施例公开了发票爬虫查验方法、装置、计算机设备及存储介质。所述方法包括:获取发票列表;根据所述发票列表从数据库内提取待查验发票的数据信息;判断所述数据信息是否为空;若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;获取所述查验网站的需求;根据所述查验网站的需求获取所述查验网站的图像验证码信息;对所述查验网站的图像验证码信息进行打码处理;对打码后的验证码信息进行发票查验,以得到查验结果。通过实施本发明实施例的方法可实现自动对未查验的发票或者符合要求的发票进行爬虫和查验,查验过程便捷程度高。

Description

发票爬虫查验方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说是指发票爬虫查验方法、装置、计算机设备及存储介质。
背景技术
在日常生活中,财务人员经常需要通过发票查验网站对发票的真伪进行查验;但是,目前的发票查验网站存在以下问题:用户在进行发票验证时需要手动输入验证码,而且经常会出现验证码输入错误的情况;利用现有的发票查验网站,一次只能对一张发票进行查验,不能对多张发票进行批量查询,需要用户反复操作;因此,现有的发票查询网站存在查验操作繁琐、查验过程不够便捷。
因此,有必要设计一种新的方法,实现自动对未查验的发票爬虫和查验,查验过程便捷程度高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供发票爬虫查验方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:发票爬虫查验方法,包括:
获取发票列表;
根据所述发票列表从数据库内提取待查验发票的数据信息;
判断所述数据信息是否为空;
若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;
获取所述查验网站的需求;
根据所述查验网站的需求获取所述查验网站的图像验证码信息;
对所述查验网站的图像验证码信息进行打码处理;
对打码后的验证码信息进行发票查验,以得到查验结果。
其进一步技术方案为:所述对打码后的验证码信息进行发票查验,以得到查验结果之后,还包括:
判断所述查验结果是否是发票信息不存在;
若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;
若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息;
保存所述查验结果以及所述关键信息。
其进一步技术方案为:所述查验结果是否是发票信息不存在之后,还包括:
若所述查验结果是发票信息不存在,则保存所述查验结果。
其进一步技术方案为:所述根据所述数据信息填充查验网站对应的位置,包括:
初始化所述查验网站;
根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
其进一步技术方案为:所述根据所述查验网站的需求获取所述查验网站的图像验证码信息,包括:
判断所述查验网站的需求是否是需要输入发票查验码;
若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;
获取所述查验网站的图像验证码信息;
若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述获取所述查验网站的图像验证码信息。
其进一步技术方案为:所述对所述查验网站的图像验证码信息进行打码处理,包括:
判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;
若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述获取所述查验网站的图像验证码信息;
若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据;
对所述内容数据进行打码。
其进一步技术方案为:所述对打码后的验证码信息进行发票查验,以得到查验结果,包括:
在所述查验网站内填充打码后的验证码信息;
判断打码后的验证码信息是否正确;
若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果;
若打码后的验证码信息不正确,则执行所述刷新所述图像验证码。
本发明还提供了发票爬虫查验装置,包括:
列表获取单元,用于获取发票列表;
数据信息提取单元,用于根据所述发票列表从数据库内提取待查验发票的数据信息;
数据信息判断单元,用于判断所述数据信息是否为空;
数据信息填充单元,用于若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;
需求获取单元,用于获取所述查验网站的需求;
验证码信息获取单元,用于根据所述查验网站的需求获取所述查验网站的图像验证码信息;
打码单元,用于对所述查验网站的图像验证码信息进行打码处理;
查验单元,用于对打码后的验证码信息进行发票查验,以得到查验结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过从服务器下拉发票列表后,根据发票列表从数据库提取对应的数据信息,并进行发票的爬虫和查验,且自动进行打码,实现自动对未查验的发票或者符合要求的发票进行爬虫和查验,查验过程便捷程度高。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的发票爬虫查验方法的应用场景示意图;
图2为本发明实施例提供的发票爬虫查验方法的流程示意图;
图3为本发明实施例提供的发票爬虫查验方法的子流程示意图;
图4为本发明实施例提供的发票爬虫查验方法的子流程示意图;
图5为本发明实施例提供的发票爬虫查验方法的子流程示意图;
图6为本发明实施例提供的发票爬虫查验方法的子流程示意图;
图7为本发明另一实施例提供的发票爬虫查验方法的流程示意图;
图8为本发明实施例提供的发票爬虫查验装置的示意性框图;
图9为本发明实施例提供的发票爬虫查验装置的数据信息填充单元的示意性框图;
图10为本发明实施例提供的发票爬虫查验装置的验证码信息获取单元的示意性框图;
图11为本发明实施例提供的发票爬虫查验装置的打码单元的示意性框图;
图12为本发明实施例提供的发票爬虫查验装置的查验单元的示意性框图;
图13为本发明另一实施例提供的发票爬虫查验装置的示意性框图;
图14为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的发票爬虫查验方法的应用场景示意图。图2为本发明实施例提供的发票爬虫查验方法的示意性流程图。该发票爬虫查验方法应用于终端中。该终端与服务器进行数据交互,终端内设有查验网站,其中,终端从服务器处拉取发票列表,并根据该发票列表内的对应的待查验发票进行自动爬虫和查验,并将查验后的结果反馈至服务器,待查验发票包括未查验发票以及符合设定条件的发票。
图2是本发明实施例提供的发票爬虫查验方法的流程示意图。如图2所示,该方法包括以下步骤S110至S180。
S110、获取发票列表。
在本实施例中,发票列表是指包括发票状态的发票集成的列表,发票状态是指发票是否已查验以及查验的结果。
发票列表一直保留在服务器内,终端每间隔一端时间则会从服务器上拉取对应的发票列表,该发票列表还囊括有发票查验请求,一般终端从服务器拉取对应的发票列表后都会获得发票查验请求。
S120、根据所述发票列表从数据库内提取待查验发票的数据信息。
在本实施例中,数据信息包括发票代码、发票号码以及发票金额等发票相关信息。
S130、判断所述数据信息是否为空。
在本实施例中,当发票列表内有需要查验的待查验发票时,终端可以从数据库内提取待对应的待查验发票的数据信息,若发票列表内没有需要查验的待查验发票,则终端获取到的数据信息为空,此时进入结束步骤。
S140、若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置。
在本实施例中,查验网站内有对应的位置用于填充数据信息,以进行发票查验。
在一实施例中,请参阅图3,上述的步骤S140可包括步骤S141~S142。
S141、初始化所述查验网站。
初始化所述查验网站主要是为了清除查验网站对应位置的内容,以便于填充待查验发票的数据信息。
S142、根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
在本实施例中,可采用OCR技术对数据信息和查验网站对应的输入框进行识别,以便于自动将数据信息中发票代码、发票号码以及发票日期填入到对应的输入框内,自动化程度高,提高查验的便捷度。
S150、获取所述查验网站的需求。
在本实施例中,当填入发票代码、发票号码以及发票日期后,查验网站会根据填入的内容实时展示还需要提供的查验内容,包括发票金额或验证码。
S160、根据所述查验网站的需求获取所述查验网站的图像验证码信息。
在本实施例中,图像验证码信息是指用于发票查验的验证码图像,该图像是由查验网站在填入对应的数据信息后生成的。
在一实施例中,请参阅图4,上述的步骤S160可包括步骤S161~S164。
S161、判断所述查验网站的需求是否是需要输入发票查验码;
S162、若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;
S163、获取所述查验网站的图像验证码信息;
S164、若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述步骤S163。
当查验网站的需求是输入发票查验码时,则需要自动填充发票查验码,并以此生成对应的图像验证码信息,当当查验网站的需求不是输入发票查验码时,则需要输入发票金额,并以此生成对应的图像验证码信息;在进行发票查验,当前面的发票代码、发票号码以及发票日期填充完毕后,后续需要填充发票查验码或者发票金额,才可以生成对应的图像验证码信息,只有生成图像验证码信息后才能进行发票的查验。
S170、对所述查验网站的图像验证码信息进行打码处理。
在一实施例中,请参阅图5,上述的步骤S170可包括步骤S171~S174。
S171、判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;
S172、若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述步骤S163。
S173、若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据。
在本实施例中,内容数据包括图像验证码内的校验信息,比如校验的数字或者符号等。
只有当图像验证码是黑白状态时,才可以进行打码操作,以提高打码的成功率,若图像验证码是彩色状态,容易将非内容数据也打码进去,导致后续的校验过程较为繁琐且准确率不高。
S174、对所述内容数据进行打码。
在本实施例中,打码过程是由打码平台自动进行打码的,属于现有技术,此处不再赘述。
S180、对打码后的验证码信息进行发票查验,以得到查验结果。
在本实施例中,查验结果包括待查验发票不存在或者是待查验发票存在的结果。
在一实施例中,请参阅图6,上述的步骤S180可包括步骤S181~S183。
S181、在所述查验网站内填充打码后的验证码信息;
S182、判断打码后的验证码信息是否正确;
S183、若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果;
若打码后的验证码信息不正确,则执行所述步骤S172。
打码完成后的验证码信息可以直接用于发票的查验,由查验网站直接进行查验,属于现有技术,此处不再赘述。
若所述数据信息为空,则进入结束步骤。
在本实施例中,终端可以是分布式集群中的其中一个,可以多个终端同时执行发票列表内不同的发票的查验,提高发票查验效率。
上述的发票爬虫查验方法,通过从服务器下拉发票列表后,根据发票列表从数据库提取对应的数据信息,并进行发票的爬虫和查验,且自动进行打码,实现自动对未查验的发票或者符合要求的发票进行爬虫和查验,查验过程便捷程度高。
图7是本发明另一实施例提供的一种发票爬虫查验方法的流程示意图。如图7所示,本实施例的发票爬虫查验方法包括步骤S210-S330。其中步骤S210-S280与上述实施例中的步骤S110-S180类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S290-S330。
S290、判断所述查验结果是否是发票信息不存在;
S300、若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;
S310、若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息。
在本实施例中,关键信息包括发票存在,发票的真伪性以及相关的数据,相关的数据包括发票的时间等。
具体地,采用结构化分析查验结果的页面,提取页面内的关键信息。
S320、保存所述查验结果以及所述关键信息。
在本实施例中,将查验结果以及关键信息进行保存,并反馈至服务器。
S330、若所述查验结果是发票信息不存在,则保存所述查验结果。
若当天查验次数大于设定次数阈值,则执行所述步骤S330。
图8是本发明实施例提供的一种发票爬虫查验装置300的示意性框图。如图8所示,对应于以上发票爬虫查验方法,本发明还提供一种发票爬虫查验装置300。该发票爬虫查验装置300包括用于执行上述发票爬虫查验方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图8,该发票爬虫查验装置300包括列表获取单元301、数据信息提取单元302、数据信息判断单元303、数据信息填充单元304、需求获取单元305、验证码信息获取单元306、打码单元307以及查验单元308。
列表获取单元301,用于获取发票列表;数据信息提取单元302,用于根据所述发票列表从数据库内提取待查验发票的数据信息;数据信息判断单元303,用于判断所述数据信息是否为空;数据信息填充单元304,用于若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;需求获取单元305,用于获取所述查验网站的需求;验证码信息获取单元306,用于根据所述查验网站的需求获取所述查验网站的图像验证码信息;打码单元307,用于对所述查验网站的图像验证码信息进行打码处理;查验单元308,用于对打码后的验证码信息进行发票查验,以得到查验结果。
在一实施例中,如图9所示,所述数据信息填充单元304包括初始化子单元3041以及数据填充子单元3042。
初始化子单元3041,用于初始化所述查验网站;数据填充子单元3042,用于根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
在一实施例中,如图10所示,所述验证码信息获取单元306包括需求判断子单元3061、查验码填充子单元3062、信息获取子单元3063以及金额填充子单元3064。
需求判断子单元3061,用于判断所述查验网站的需求是否是需要输入发票查验码;查验码填充子单元3062,用于若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;信息获取子单元3063,用于获取所述查验网站的图像验证码信息;金额填充子单元3064,用于若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述获取所述查验网站的图像验证码信息。
在一实施例中,如图11所示,所述打码单元307包括图形判断子单元3071、刷新子单元3072、内容数据获取子单元3073以及数据打码子单元3074。
图形判断子单元3071,用于判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;刷新子单元3072,用于若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述获取所述查验网站的图像验证码信息;内容数据获取子单元3073,用于若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据;数据打码子单元3074,用于对所述内容数据进行打码。
在一实施例中,如图12所示,所述查验单元308包括信息填充子单元3081、信息判断子单元3082以及发票查验子单元3083。
信息填充子单元3081,用于在所述查验网站内填充打码后的验证码信息;信息判断子单元3082,用于判断打码后的验证码信息是否正确;若打码后的验证码信息不正确,则执行所述刷新所述图像验证码。发票查验子单元3083,用于若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果。
图13是本发明另一实施例提供的一种发票爬虫查验装置300的示意性框图。如图13所示,本实施例的发票爬虫查验装置300是上述实施例的基础上增加了结果判断单元309、次数判断单元310、分析单元311、第一保存单元312以及第二保存单元313。
结果判断单元309,用于判断所述查验结果是否是发票信息不存在;次数判断单元310,用于若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;分析单元311,用于若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息;第一保存单元312,用于保存所述查验结果以及所述关键信息。第二保存单元313,用于若所述查验结果是发票信息不存在,则保存所述查验结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述发票爬虫查验装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述发票爬虫查验装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图14所示的计算机设备上运行。
请参阅图14,图14是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图14,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种发票爬虫查验方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种发票爬虫查验方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取发票列表;根据所述发票列表从数据库内提取待查验发票的数据信息;判断所述数据信息是否为空;若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;获取所述查验网站的需求;根据所述查验网站的需求获取所述查验网站的图像验证码信息;对所述查验网站的图像验证码信息进行打码处理;对打码后的验证码信息进行发票查验,以得到查验结果。
在一实施例中,处理器502在实现所述对打码后的验证码信息进行发票查验,以得到查验结果步骤之后,还实现如下步骤:
判断所述查验结果是否是发票信息不存在;若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息;保存所述查验结果以及所述关键信息。
在一实施例中,处理器502在实现所述查验结果是否是发票信息不存在步骤之后,还实现如下步骤:
若所述查验结果是发票信息不存在,则保存所述查验结果。
在一实施例中,处理器502在实现所述根据所述数据信息填充查验网站对应的位置步骤时,具体实现如下步骤:
初始化所述查验网站;根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
在一实施例中,处理器502在实现所述根据所述查验网站的需求获取所述查验网站的图像验证码信息步骤时,具体实现如下步骤:
判断所述查验网站的需求是否是需要输入发票查验码;若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;获取所述查验网站的图像验证码信息;若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述获取所述查验网站的图像验证码信息。
在一实施例中,处理器502在实现所述对所述查验网站的图像验证码信息进行打码处理步骤时,具体实现如下步骤:
判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述获取所述查验网站的图像验证码信息;若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据;对所述内容数据进行打码。
在一实施例中,处理器502在实现所述对打码后的验证码信息进行发票查验,以得到查验结果步骤时,具体实现如下步骤:
在所述查验网站内填充打码后的验证码信息;判断打码后的验证码信息是否正确;若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果;若打码后的验证码信息不正确,则执行所述刷新所述图像验证码。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取发票列表;根据所述发票列表从数据库内提取待查验发票的数据信息;判断所述数据信息是否为空;若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;获取所述查验网站的需求;根据所述查验网站的需求获取所述查验网站的图像验证码信息;对所述查验网站的图像验证码信息进行打码处理;对打码后的验证码信息进行发票查验,以得到查验结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对打码后的验证码信息进行发票查验,以得到查验结果步骤之后,还实现如下步骤:
判断所述查验结果是否是发票信息不存在;若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息;保存所述查验结果以及所述关键信息。
在一实施例中,所述处理器在执行所述计算机程序而实现所述查验结果是否是发票信息不存在步骤之后,还实现如下步骤:
若所述查验结果是发票信息不存在,则保存所述查验结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述数据信息填充查验网站对应的位置步骤时,具体实现如下步骤:
初始化所述查验网站;根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述查验网站的需求获取所述查验网站的图像验证码信息步骤时,具体实现如下步骤:
判断所述查验网站的需求是否是需要输入发票查验码;若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;获取所述查验网站的图像验证码信息;若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述获取所述查验网站的图像验证码信息。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述查验网站的图像验证码信息进行打码处理步骤时,具体实现如下步骤:
判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述获取所述查验网站的图像验证码信息;若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据;对所述内容数据进行打码。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对打码后的验证码信息进行发票查验,以得到查验结果步骤时,具体实现如下步骤:
在所述查验网站内填充打码后的验证码信息;判断打码后的验证码信息是否正确;若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果;若打码后的验证码信息不正确,则执行所述刷新所述图像验证码。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.发票爬虫查验方法,其特征在于,包括:
获取发票列表;
根据所述发票列表从数据库内提取待查验发票的数据信息;
判断所述数据信息是否为空;
若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;
获取所述查验网站的需求;
根据所述查验网站的需求获取所述查验网站的图像验证码信息;
对所述查验网站的图像验证码信息进行打码处理;
对打码后的验证码信息进行发票查验,以得到查验结果。
2.根据权利要求1所述的发票爬虫查验方法,其特征在于,所述对打码后的验证码信息进行发票查验,以得到查验结果之后,还包括:
判断所述查验结果是否是发票信息不存在;
若所述查验结果不是发票信息不存在,则判断当天查验次数是否大于设定次数阈值;
若当天查验次数不大于设定次数阈值,则分析所述查验结果,并提取对应的关键信息;
保存所述查验结果以及所述关键信息。
3.根据权利要求2所述的发票爬虫查验方法,其特征在于,所述查验结果是否是发票信息不存在之后,还包括:
若所述查验结果是发票信息不存在,则保存所述查验结果。
4.根据权利要求1至3任一项所述的发票爬虫查验方法,其特征在于,所述根据所述数据信息填充查验网站对应的位置,包括:
初始化所述查验网站;
根据所述数据信息在所述查验网站对应的输入框内自动填充对应的发票代码、发票号码以及发票日期。
5.根据权利要求1至3任一项所述的发票爬虫查验方法,其特征在于,所述根据所述查验网站的需求获取所述查验网站的图像验证码信息,包括:
判断所述查验网站的需求是否是需要输入发票查验码;
若所述查验网站的需求是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票查验码;
获取所述查验网站的图像验证码信息;
若所述查验网站的需求不是需要输入发票查验码,则在所述查验网站对应的输入框内自动填充发票金额,并执行所述获取所述查验网站的图像验证码信息。
6.根据权利要求5所述的发票爬虫查验方法,其特征在于,所述对所述查验网站的图像验证码信息进行打码处理,包括:
判断所述查验网站的图像验证码信息是否已经初始化完成且所述图像验证码为黑白类型图形;
若所述查验网站的图像验证码信息不是已经初始化完成和/或所述图像验证码不为黑白类型图形,则刷新所述图像验证码,并执行所述获取所述查验网站的图像验证码信息;
若查验网站的图像验证码信息是已经初始化完成且所述图像验证码为黑白类型图形,则获取所述图像验证码的内容数据;
对所述内容数据进行打码。
7.根据权利要求6所述的发票爬虫查验方法,其特征在于,所述对打码后的验证码信息进行发票查验,以得到查验结果,包括:
在所述查验网站内填充打码后的验证码信息;
判断打码后的验证码信息是否正确;
若打码后的验证码信息正确,则对打码后的验证码信息进行发票查验,以得到查验结果;
若打码后的验证码信息不正确,则执行所述刷新所述图像验证码。
8.发票爬虫查验装置,其特征在于,包括:
列表获取单元,用于获取发票列表;
数据信息提取单元,用于根据所述发票列表从数据库内提取待查验发票的数据信息;
数据信息判断单元,用于判断所述数据信息是否为空;
数据信息填充单元,用于若所述数据信息不为空,则根据所述数据信息填充查验网站对应的位置;
需求获取单元,用于获取所述查验网站的需求;
验证码信息获取单元,用于根据所述查验网站的需求获取所述查验网站的图像验证码信息;
打码单元,用于对所述查验网站的图像验证码信息进行打码处理;
查验单元,用于对打码后的验证码信息进行发票查验,以得到查验结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
CN202110803461.2A 2021-07-14 2021-07-14 发票爬虫查验方法、装置、计算机设备及存储介质 Pending CN113536091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110803461.2A CN113536091A (zh) 2021-07-14 2021-07-14 发票爬虫查验方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110803461.2A CN113536091A (zh) 2021-07-14 2021-07-14 发票爬虫查验方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113536091A true CN113536091A (zh) 2021-10-22

Family

ID=78128235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110803461.2A Pending CN113536091A (zh) 2021-07-14 2021-07-14 发票爬虫查验方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113536091A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793990A (zh) * 2012-11-02 2014-05-14 航天信息股份有限公司 发票的验证方法和系统
CN109389736A (zh) * 2017-08-08 2019-02-26 航天信息股份有限公司 一种发票查验方法及装置
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110175899A (zh) * 2019-04-15 2019-08-27 深圳壹账通智能科技有限公司 一种查验发票的方法、装置、计算机设备及可读存储介质
CN112561484A (zh) * 2020-12-21 2021-03-26 深圳市链融科技股份有限公司 中登登记审单方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793990A (zh) * 2012-11-02 2014-05-14 航天信息股份有限公司 发票的验证方法和系统
CN109389736A (zh) * 2017-08-08 2019-02-26 航天信息股份有限公司 一种发票查验方法及装置
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110175899A (zh) * 2019-04-15 2019-08-27 深圳壹账通智能科技有限公司 一种查验发票的方法、装置、计算机设备及可读存储介质
CN112561484A (zh) * 2020-12-21 2021-03-26 深圳市链融科技股份有限公司 中登登记审单方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭晶;: "智能识别技术在企业信息化系统中的应用探讨", 信息与电脑(理论版), no. 14 *
赵国生,王健: "《Python网络爬虫技术与实战》", 31 January 2021, 机械工业出版社, pages: 194 - 199 *

Similar Documents

Publication Publication Date Title
EP3869385A1 (en) Method for extracting structural data from image, apparatus and device
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN112966583A (zh) 图像处理方法、装置、计算机设备和存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN110781925B (zh) 软件页面的分类方法、装置、电子设备及存储介质
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN112989256B (zh) 识别响应信息中web指纹的方法和装置
CN113536091A (zh) 发票爬虫查验方法、装置、计算机设备及存储介质
US10216988B2 (en) Information processing device, information processing method, and computer program product
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN112784189A (zh) 一种识别页面图像的方法和装置
CN111046631A (zh) 基于字符转换的姓名存储方法、装置、计算机设备
CN115294592A (zh) 理赔信息采集方法和采集装置、计算机设备、存储介质
CN114860608A (zh) 基于场景构建的系统自动化测试方法、装置、设备及介质
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN114706886A (zh) 一种评测方法和装置、计算机设备、存储介质
CN112698883A (zh) 一种配置数据处理方法、装置、终端和存储介质
CN111026631A (zh) 接口自动化检测方法、装置和服务器
CN114328242B (zh) 表单的测试方法、装置、电子设备和介质
CN112380860B (zh) 句子向量处理方法、句子匹配方法、装置、设备和介质
CN111144066B (zh) 字库字面的调整方法、装置、设备和存储介质
CN115310424A (zh) 一种基于vb6的表达式处理方法
Zheng et al. Automated Testing Method for Font on GUI Based on Scene Text Detection and Font Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination