CN103856565A - 一种电子商务税源管理云采集监控方法 - Google Patents
一种电子商务税源管理云采集监控方法 Download PDFInfo
- Publication number
- CN103856565A CN103856565A CN201410099726.5A CN201410099726A CN103856565A CN 103856565 A CN103856565 A CN 103856565A CN 201410099726 A CN201410099726 A CN 201410099726A CN 103856565 A CN103856565 A CN 103856565A
- Authority
- CN
- China
- Prior art keywords
- tax
- line shop
- commerce
- essential information
- source management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种电子商务税源管理云采集监控方法,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,该一种电子商务税源管理云采集监控方法和现有技术相比,提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障。该系统通过采集各电子商务平台的网店销售情况,经过汇总分析,挖掘出不同类别的非正常缴税纳税人,提供给税务局参考监管,达到保障税收的目的。
Description
技术领域
本发明涉及云计算技术领域,具体的说是一种电子商务税源管理云采集监控方法。
背景技术
我国电子商务快速发展,网购消费也成为一种主流的消费方式。电子商务的不断发展也促使税务数据不断壮大,但由于互联网的虚拟性及电子商务特殊的商品交易方式、劳务提供方式和支付方式,给互联网上的税务数据进行有效的管理带来了困难。而当前市场对于税务数据的需求却日益突出,如税务机关需要对通过互联网上的电子商务交易数量来对企业的税收状况进行监控分析;纳税人通过税务数据对竞争对手及当前市场需求进行分析,都显示出了税务数据的重要性。基于此,现提供一种电子商务税源管理云采集监控方法,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,为提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种电子商务税源管理云采集监控方法。
本发明的技术方案是按以下方式实现的,该一种电子商务税源管理云采集监控方法,其具体实施过程为:
从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息;
将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总;
每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
本发明与现有技术相比所产生的有益效果是:
本发明的一种电子商务税源管理云采集监控方法基于云计算和大数据处理的电子商务税源管理采集监控系统,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障;该系统通过采集各电子商务平台的网店销售情况,经过汇总分析,挖掘出不同类别的非正常缴税纳税人,提供给税务局参考监管,达到保障税收的目的,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的逻辑构架图。
具体实施方式
下面结合附图对本发明的一种电子商务税源管理云采集监控方法作以下详细说明。
如附图1所示,一种电子商务税源管理云采集监控方法,其具体实施过程为:
从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息。
将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总。
每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
Hadoop框架是一种可以进行分布式计算、能够自动保存数据的多个副本、能够将失败的任务重新分配以及可以动态扩展的集成框架,能够保证系统的高可靠性、高扩展性和高容错性。
Pig和Nutch部署于Hadoop框架之上,能够有效的进行分布式数据采集和分析,使得本系统高效的运行,从而保证采集数据的准确性。
Snmp监控weblogic服务以及Spring Batch框架式的系统自动监控整个采集过程,引入智能学习技术,积累异常处理方法,并调整调度策略,减少异常的发生。
用户界面友好,通过图形呈现整个采集、分析过程以及各采集服务器的运行情况,能够对无法自行解决的异常发送报警,提示管理员尽快解决。
能够为税局监管纳税人申报情况提供及时、有效、可靠的数据依据。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种电子商务税源管理云采集监控方法,其特征在于其具体实施过程为:
从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息;
将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总;
每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
2.根据权利要求1所述的一种电子商务税源管理云采集监控方法,其特征在于:上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
3.根据权利要求1所述的一种电子商务税源管理云采集监控方法,其特征在于:采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410099726.5A CN103856565A (zh) | 2014-03-18 | 2014-03-18 | 一种电子商务税源管理云采集监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410099726.5A CN103856565A (zh) | 2014-03-18 | 2014-03-18 | 一种电子商务税源管理云采集监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103856565A true CN103856565A (zh) | 2014-06-11 |
Family
ID=50863769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410099726.5A Pending CN103856565A (zh) | 2014-03-18 | 2014-03-18 | 一种电子商务税源管理云采集监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103856565A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714875A (zh) * | 2015-03-11 | 2015-06-17 | 浪潮集团有限公司 | 一种分布式的自动化采集的方法 |
CN105741170A (zh) * | 2016-01-29 | 2016-07-06 | 浪潮软件集团有限公司 | 一种第三方涉税信息处理方法及装置 |
CN105843840A (zh) * | 2016-02-22 | 2016-08-10 | 乐视体育文化产业发展(北京)有限公司 | 网页质量监控方法及装置 |
CN106250429A (zh) * | 2016-07-26 | 2016-12-21 | 浪潮软件股份有限公司 | 一种基于sqoop的数据抽取方法 |
CN107861994A (zh) * | 2017-10-18 | 2018-03-30 | 福建中金在线信息科技有限公司 | 日志整理方法及装置 |
CN109242625A (zh) * | 2018-09-06 | 2019-01-18 | 成都数银科技有限公司 | 一种大数据监管方法 |
CN113919865A (zh) * | 2021-09-26 | 2022-01-11 | 浪潮卓数大数据产业发展有限公司 | 一种网络零售额统计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332141A (zh) * | 2011-06-24 | 2012-01-25 | 浪潮齐鲁软件产业有限公司 | 一种通过税控机监控企业经营数据的方法 |
CN102622443A (zh) * | 2012-03-13 | 2012-08-01 | 北京邮电大学 | 一种面向微博的定制化筛选系统及方法 |
CN103020437A (zh) * | 2012-12-04 | 2013-04-03 | 司春林 | 资产评估风险控制系统 |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
US20130339099A1 (en) * | 2012-06-15 | 2013-12-19 | Daood Aidroos | Method and system for business program and service planning, delivery and management |
-
2014
- 2014-03-18 CN CN201410099726.5A patent/CN103856565A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332141A (zh) * | 2011-06-24 | 2012-01-25 | 浪潮齐鲁软件产业有限公司 | 一种通过税控机监控企业经营数据的方法 |
CN102622443A (zh) * | 2012-03-13 | 2012-08-01 | 北京邮电大学 | 一种面向微博的定制化筛选系统及方法 |
US20130339099A1 (en) * | 2012-06-15 | 2013-12-19 | Daood Aidroos | Method and system for business program and service planning, delivery and management |
CN103020437A (zh) * | 2012-12-04 | 2013-04-03 | 司春林 | 资产评估风险控制系统 |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714875A (zh) * | 2015-03-11 | 2015-06-17 | 浪潮集团有限公司 | 一种分布式的自动化采集的方法 |
CN105741170A (zh) * | 2016-01-29 | 2016-07-06 | 浪潮软件集团有限公司 | 一种第三方涉税信息处理方法及装置 |
CN105843840A (zh) * | 2016-02-22 | 2016-08-10 | 乐视体育文化产业发展(北京)有限公司 | 网页质量监控方法及装置 |
CN106250429A (zh) * | 2016-07-26 | 2016-12-21 | 浪潮软件股份有限公司 | 一种基于sqoop的数据抽取方法 |
CN107861994A (zh) * | 2017-10-18 | 2018-03-30 | 福建中金在线信息科技有限公司 | 日志整理方法及装置 |
CN107861994B (zh) * | 2017-10-18 | 2021-07-02 | 福建中金在线信息科技有限公司 | 日志整理方法及装置 |
CN109242625A (zh) * | 2018-09-06 | 2019-01-18 | 成都数银科技有限公司 | 一种大数据监管方法 |
CN113919865A (zh) * | 2021-09-26 | 2022-01-11 | 浪潮卓数大数据产业发展有限公司 | 一种网络零售额统计方法 |
CN113919865B (zh) * | 2021-09-26 | 2023-07-07 | 浪潮卓数大数据产业发展有限公司 | 一种网络零售额统计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103856565A (zh) | 一种电子商务税源管理云采集监控方法 | |
US10353799B2 (en) | Testing and improving performance of mobile application portfolios | |
CN110717784B (zh) | 一种基于智能管理平台的电力营销系统及方法 | |
CN102404126B (zh) | 一种云计算在应用过程中的收费方法 | |
CN106372975B (zh) | 一种基于SOAP技术和ActiveX控件技术的发票管理系统 | |
CN103455636A (zh) | 一种基于互联网税务数据自动抓取与智能分析的方法 | |
CN103761309A (zh) | 一种运营数据处理方法及系统 | |
CN103123712A (zh) | 一种网络行为数据的监控方法和系统 | |
CN103854220A (zh) | 实现跨平台购物的实现方法及装置 | |
CN107979477A (zh) | 一种业务监控的方法及系统 | |
US20180341989A1 (en) | Systems and Methods for Providing Real-Time Values Determined Based on Aggregated Data From Disparate Systems | |
CN104021454A (zh) | 用于集团企业资金账户数据监控的方法及系统 | |
CN105260841A (zh) | 一种配电网故障抢修回单审核系统 | |
CN107248113A (zh) | 一种基于电商数据分析的信息控税方法及平台 | |
CN106600395A (zh) | 一种基于电商数据分析的信息控税平台 | |
CN115168460A (zh) | 数据处理方法、数据交易系统、设备及存储介质 | |
CN104636972A (zh) | 一种通过商品构成监控企业虚抵发票的方法及其系统 | |
CN101388036A (zh) | 一种数据表的汇总方法和装置 | |
CN112181972A (zh) | 基于大数据的数据治理方法、装置和计算机设备 | |
CN116028324A (zh) | 云信平台用户行为分析方法及系统 | |
CN103870989A (zh) | 一种电力资源协同应用方法和系统 | |
Mulcahy et al. | Autonomic software systems: Developing for self-managing legacy systems | |
CN111291246A (zh) | 一种大数据快速分析系统 | |
CN114565451A (zh) | 批量数据报送方法、装置、电子设备和介质 | |
CN117882041A (zh) | 包括为通过多层处理数据提供ai可解释性的技术的ai增强审计平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140611 |
|
WD01 | Invention patent application deemed withdrawn after publication |