CN111930815A - 一种基于行业属性和经营属性构建企业画像的方法及系统 - Google Patents

一种基于行业属性和经营属性构建企业画像的方法及系统 Download PDF

Info

Publication number
CN111930815A
CN111930815A CN202010574259.2A CN202010574259A CN111930815A CN 111930815 A CN111930815 A CN 111930815A CN 202010574259 A CN202010574259 A CN 202010574259A CN 111930815 A CN111930815 A CN 111930815A
Authority
CN
China
Prior art keywords
invoice
sales
industry
data
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010574259.2A
Other languages
English (en)
Inventor
杨海峰
任钦正
顾津
潘竞旭
张学军
鲁龙
宋颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202010574259.2A priority Critical patent/CN111930815A/zh
Publication of CN111930815A publication Critical patent/CN111930815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于行业属性和经营属性构建企业画像的方法及系统,使用SQOPP从Oracle数据库中导出数据,通过ETL过程清洗数据存入HIVE数据仓库,基于Spark分布式处理框架处理数据,能够满足海量数据中迅速定位待构建企业画像企业及其所属行业的信息,具有可扩展性强和效率高等特点,在营改增以后发票量日益增长,现阶段需要对大规模数据进行统计分析的背景下有明显的优势;仅使用企业销项发票数据,且针对不同行业可以设定不同的参数,生成特定行业的企业画像构建模型,能够提高企业画像结果的针对性和准确性;可以为税务人员提供企业画像构建结果供其参考,减轻了税务人员的工作负担,提高了税务人员的工作效率,对推动互联网和税务执法发展进程具有重要意义。

Description

一种基于行业属性和经营属性构建企业画像的方法及系统
技术领域
本发明涉及数据处理技术领域,并且更具体地,涉及一种基于行业属性和经营属性构建企业画像的方法及系统。
背景技术
企业画像可定义为通过收集和分析一个或多个来源的数据,对同一企业的所有相关信息进行提炼、整理与汇总,得到刻画、描述企业个体属性、行业属性和经营属性等多个维度的“画像”,即标签。
现阶段基于企业的业务或应用中,以企业画像的相关企业信息为基础来开展工作,可以大大提高业务工作的效率和准确率。随着互联网信息量的暴涨及社会信息化程度的提高,各企业本身相关的信息、数据也随之增加,这也导致可供企业画像这一技术方法来分析的数据也越来越丰富。同时,企业画像的应用场景也更加丰富,分析的成果也更具说服力。但是,目前缺少企业画像在具体行业中的具体落地实现方案。
发明内容
本发明提出一种基于行业属性和经营属性构建企业画像的及系统,以解决如何生成企业的企业画像的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于行业属性和经营属性构建企业画像的方法,所述方法包括:
获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
确定待画像企业所属行业的行业属性代码;
根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
优选地,其中所述获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
优选地,其中所述根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
优选地,其中所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
优选地,其中所述方法还包括:
根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
根据本发明的另一个方面,提供了一种基于行业属性和经营属性构建企业画像的系统,所述系统包括:
销项发票数据获取单元,用于获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
行业属性代码确定单元,用于确定待画像企业所属行业的行业属性代码;
行业销项发票汇总数据获取单元,用于根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
销项开票金额区间确定单元,用于根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
企业画像单元,用于根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
优选地,其中所述销项发票处理数据获取单元,获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
优选地,其中所述销项开票金额区间确定单元,根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
优选地,其中所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
优选地,其中所述系统还包括:
经营标签标准确定单元,用于根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
本发明提供了一种基于行业属性和经营属性构建企业画像的方法及系统,使用SQOPP从Oracle数据库中导出数据,通过ETL过程清洗数据存入HIVE数据仓库,再基于Spark分布式处理框架处理数据,能够满足海量数据中迅速定位待构建企业画像企业及其所属行业的相关信息,具有可扩展性强和效率高等特点,在营改增以后发票量日益增长,现阶段需要对大规模数据进行统计分析的背景下有明显的优势;仅使用企业销项发票数据,且针对不同行业可以设定不同的参数,生成特定行业的企业画像构建模型,能够提高企业画像结果的针对性和准确性;还可以为税务人员提供企业画像构建结果供其参考,减轻了税务人员的工作负担,提高了税务人员的工作效率,对推动互联网和税务执法发展进程具有重要意义。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于行业属性和经营属性构建企业画像的方法100的流程图;
图2为根据本发明实施方式的基于行业属性和经营属性构建企业画像的系统200的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于行业属性和经营属性构建企业画像的方法100的流程图。如图1所示,本发明实施方式提供的基于行业属性和经营属性构建企业画像的方法,使用SQOPP从Oracle数据库中导出数据,通过ETL过程清洗数据存入HIVE数据仓库,再基于Spark分布式处理框架处理数据,能够满足海量数据中迅速定位待构建企业画像企业及其所属行业的相关信息,具有可扩展性强和效率高等特点,在营改增以后发票量日益增长,现阶段需要对大规模数据进行统计分析的背景下有明显的优势;仅使用企业销项发票数据,且针对不同行业可以设定不同的参数,生成特定行业的企业画像构建模型,能够提高企业画像结果的针对性和准确性。本发明实施方式提供的基于行业属性和经营属性构建企业画像的方法100,从步骤101处开始,在步骤101获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据。
优选地,其中所述获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
优选地,其中所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
在本发明的实施方式中,由于历史原因,企业购销相关的发票信息和发票明细信息一般存在传统关系型数据库Oracle中。因此,使用SQOOP工具从原始电子底账Oracle数据库中抽取营改增以后企业购销相关的发票信息,存入Hadoop平台下HIVE对应库的发票原始信息表中。然后,使用Spark程序对HIVE发票原始信息表中的源数据进行ETL数据清洗、转换和加载处理,以得到包括销项发票处理数据的销项发票信息的数据仓库。其中哦,销项发票处理数据包括:企业信息维表和发票明细数据表。其中,预设时间段根据需求设置。例如,设置预设时间段为当前时刻前12个月。
在步骤102,确定待画像企业所属行业的行业属性代码。
在步骤103,根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据。
在本发明的实施方式中,输入待构建企业画像的企业的信息,从所述销项发票信息的数据仓库中查找得到该企业所属的行业属性代码。
在步骤104,根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间。
优选地,其中所述根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
优选地,其中所述方法还包括:
根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
在本发明的实施方式中,汇总待构建企业画像的企业的销项开票信息,结合整个行业的行业属性(即行业属性代码)和经营属性(即行业销项发票汇总数据),生成特定行业的企业画像构建模型。其中,根据行业属性代码进行筛选,从销项发票信息的数据仓库中抽取该行业中所有企业的全部销项发票数据;对企业销项发票数据进行汇总得到整个行业的经营属性。然后,根据所述行业销项发票汇总数据,结合整个行业的经营属性设置行业销售地位分档的临界值和销售业绩分档的临界值,确定每个经营标签对应的销项开票金额区间。
例如,在本发明的实施方式中,经营属性包括:“行业销售地位”和“销售业绩”。
对于“行业销售地位”,其对应的经营标签包括:行业销售排名靠前、行业销售排名较靠前、行业销售排名中等、行业销售排名较靠后、行业销售排名靠后和新办企业。标签标准为:若企业在预设时间段内的销项开票金额在行业中的排名为前20%,则为该企业打标签为“行业销售排名靠前”;若企业在预设时间段内的销项开票金额在行业中的排名为20%~40%,则为该企业打标签为“行业销售排名较靠前”;若企业在预设时间段内的销项开票金额在行业中的排名为40%~60%,则为该企业打标签为“行业销售排名中等”;若企业在预设时间段内的销项开票金额在行业中的排名为60%~80%,则为该企业打标签为“行业销售排名较靠后”;若企业在预设时间段内的销项开票金额在行业中的排名为后20%,则为该企业打标签为“行业销售排名靠后”;若企业的开票时间不满足所述预设时间段12个月,则为该企业打标签为“新办企业”。根据经营标签标准即可确定每个经营标签对应的销项开票金额区间。
对于“销售业绩”,其对应的经营标签包括:销售业绩良好、销售业绩一般和销售业绩较差。若根据全量样本数据观测时点回溯12个月内企业销项开票总金额确定的两个三分位点为3000万元和3亿元,则确定标签标准为:若企业在观测时点回溯12个月内企业的销项开票总金额>=3亿元”,则该企业打标签为“销售业绩良好”;若企业在观测点回溯12个月内的销项开票总金额满足“3000万元<=观测时点回溯12个月内企业销项开票总金额<3亿元”,则该企业打标签为“销售业绩一般”;若企业在观测点回溯12个月内的销项开票总金额满足“0<观测时点回溯12个月内企业销项开票总金额<3000万元”,则该企业打标签为“销售业绩较差”。
在本发明的实施方式中,不同行业的行业属性和经营属性不同,通过变换“行业销售地位”标签和“销售业绩”标签生成时具体的指标标准,就可以得到不同行业企业的企业画像模型。
在步骤105,根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
在本发明的实时方式中,首先,计算待画像企业的观测时点回溯12个月内的销项发票金额,即得到该企业的经营属性。然后,将所述待画像企业的销项开票金额与每个经营标签对应的销项开票金额区间进行匹配,即可确定匹配的经营标签,根据匹配的经营标签和行业属性代码即可确定待画像企业的企业画像。
本发明实施方式使用SQOOP导出数据,通过ETL清洗后存入HIVE数据仓库中的分区表,便于后续分析能够快速抽取数据;使用Spark分布式处理框架,提高了计算效率;利用模型的思维方式将企业画像构建方法中的参数可配置化,实现了针对特定行业的企业画像的精准构建。
图2为根据本发明实施方式的基于行业属性和经营属性构建企业画像的系统200的结构示意图。如图2所示,本发明实施方式提供的基于行业属性和经营属性构建企业画像的系统200,包括:销项发票数据获取单元201、行业属性代码确定单元202、行业销项发票汇总数据获取单元203、销项开票金额区间确定单元204和企业画像单元205。
优选地,所述销项发票数据获取单元201,用于获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据。
优选地,其中所述销项发票处理数据获取单元201,获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
优选地,其中所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
优选地,所述行业属性代码确定单元202,用于确定待画像企业所属行业的行业属性代码。
优选地,所述行业销项发票汇总数据获取单元203,用于根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据。
20优选地,所述销项开票金额区间确定单元204,用于根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间。
优选地,其中所述销项开票金额区间确定单元204,根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
优选地,所述企业画像单元205,用于根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
优选地,其中所述系统还包括:
经营标签标准确定单元,用于根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
本发明的实施例的基于行业属性和经营属性构建企业画像的系统200与本发明的另一个实施例的基于行业属性和经营属性构建企业画像的方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于行业属性和经营属性构建企业画像的方法,其特征在于,所述方法包括:
获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
确定待画像企业所属行业的行业属性代码;
根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
4.根据权利要求1所述的方法,其特征在于,所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
6.一种基于行业属性和经营属性构建企业画像的系统,其特征在于,所述系统包括:
销项发票数据获取单元,用于获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据;
行业属性代码确定单元,用于确定待画像企业所属行业的行业属性代码;
行业销项发票汇总数据获取单元,用于根据所述行业属性代码,从获取的销项发票处理数据中选取与所述行业属性代码对应的销项发票处理数据,以获取行业销项发票汇总数据;
销项开票金额区间确定单元,用于根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准,确定每个经营标签对应的销项开票金额区间;
企业画像单元,用于根据所述待画像企业的销项发票数据确定所述待画像企业的销项开票金额,将所述待画像企业的销项开票金额与所述每个经营标签对应的销项开票金额区间进行匹配,以确定匹配的经营标签,并根据所述匹配的经营标签和行业属性代码确定所述待画像企业的企业画像。
7.根据权利要求6所述的系统,其特征在于,所述销项发票处理数据获取单元,获取预设时间段内的与纳税人购销相关的发票数据,并对所述与纳税人购销相关的发票数据进行预处理,以获取销项发票处理数据,包括:
利用SQOOP工具从原始的电子底账Oracle数据库中抽取营改增以后的预设时间段内的与纳税人购销相关的发票数据,并存储至HIVE发票信息表中;
利用Spark分布式处理框架对所述HIVE发票信息表中的与纳税人购销相关的发票数据进行ETL清洗、转换和加载处理,以获取销项发票处理数据。
8.根据权利要求6所述的系统,其特征在于,所述销项开票金额区间确定单元,根据所述行业销项发票汇总数据和预设的每个经营属性的经营标签标准确定每个经营标签对应的销项开票金额区间,包括:
根据所述行业销项发票汇总数据计算行业销项开票总额,并根据所述行业销项开票总额和预设的经营属性为“行业销售地位”的经营标签标准,计算经营属性为“行业销售地位”的每个经营标签对应的销项开票金额区间;
根据所述开票总金额和预设的经营属性为“销售业绩”的经营标签标准,计算经营属性为“销售业绩”的每个经营标签对应的销项开票金额区间。
9.根据权利要求6所述的系统,其特征在于,所述销项发票处理数据包括:企业信息数据和销项发票明细数据。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
经营标签标准确定单元,用于根据企业的行业性质确定不同企业对应的每个经营属性的经营标签标准。
CN202010574259.2A 2020-06-22 2020-06-22 一种基于行业属性和经营属性构建企业画像的方法及系统 Pending CN111930815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010574259.2A CN111930815A (zh) 2020-06-22 2020-06-22 一种基于行业属性和经营属性构建企业画像的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010574259.2A CN111930815A (zh) 2020-06-22 2020-06-22 一种基于行业属性和经营属性构建企业画像的方法及系统

Publications (1)

Publication Number Publication Date
CN111930815A true CN111930815A (zh) 2020-11-13

Family

ID=73316548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010574259.2A Pending CN111930815A (zh) 2020-06-22 2020-06-22 一种基于行业属性和经营属性构建企业画像的方法及系统

Country Status (1)

Country Link
CN (1) CN111930815A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613926A (zh) * 2020-12-11 2021-04-06 航天信息股份有限公司 一种基于开票活跃度构建企业画像的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934712A (zh) * 2017-03-16 2017-07-07 深圳微众税银信息服务有限公司 一种企业画像数据处理方法及系统
CN108182502A (zh) * 2016-12-08 2018-06-19 爱信诺征信有限公司 企业成长性评价指标的生成方法、企业成长值的统计方法
CN109636244A (zh) * 2019-01-07 2019-04-16 山东浪潮云信息技术有限公司 企业评分模型构建方法、企业评分方法和装置
CN109658478A (zh) * 2017-10-10 2019-04-19 爱信诺征信有限公司 一种提供企业画像的方法及系统
CN109800253A (zh) * 2018-12-04 2019-05-24 广东广业开元科技有限公司 一种企业绩效排名处理系统
CN109993644A (zh) * 2017-12-29 2019-07-09 航天信息股份有限公司 一种画像确定方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182502A (zh) * 2016-12-08 2018-06-19 爱信诺征信有限公司 企业成长性评价指标的生成方法、企业成长值的统计方法
CN106934712A (zh) * 2017-03-16 2017-07-07 深圳微众税银信息服务有限公司 一种企业画像数据处理方法及系统
CN109658478A (zh) * 2017-10-10 2019-04-19 爱信诺征信有限公司 一种提供企业画像的方法及系统
CN109993644A (zh) * 2017-12-29 2019-07-09 航天信息股份有限公司 一种画像确定方法、装置、电子设备及存储介质
CN109800253A (zh) * 2018-12-04 2019-05-24 广东广业开元科技有限公司 一种企业绩效排名处理系统
CN109636244A (zh) * 2019-01-07 2019-04-16 山东浪潮云信息技术有限公司 企业评分模型构建方法、企业评分方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613926A (zh) * 2020-12-11 2021-04-06 航天信息股份有限公司 一种基于开票活跃度构建企业画像的方法及系统

Similar Documents

Publication Publication Date Title
CN110292775B (zh) 获取差异数据的方法及装置
CN110851667B (zh) 一种多源头大量数据的整合分析方法及工具
CN110795524B (zh) 主数据映射处理方法、装置、计算机设备及存储介质
US11016758B2 (en) Analysis software managing system and analysis software managing method
CN113934868A (zh) 政务大数据治理方法及系统
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
CN110728422A (zh) 用于施工项目的建筑信息模型、方法、装置和结算系统
CN111489135A (zh) 一种稽核数据的分析管理系统及方法
CN106980639B (zh) 短文本数据聚合系统及方法
CN116485220A (zh) 一种员工绩效考核方法、装置、电子设备及存储介质
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
CN111930815A (zh) 一种基于行业属性和经营属性构建企业画像的方法及系统
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
WO2018205391A1 (zh) 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN110163722B (zh) 用于农产品精准销售的大数据分析系统及分析方法
CN112052310A (zh) 基于大数据的信息获取方法、装置、设备及存储介质
CN115599906A (zh) 基于知识图谱的工程机械产品软件人员推荐方法及系统
US20150081735A1 (en) System and method for fast identification of variable roles during initial data exploration
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Andriansyah et al. The Application of Power Business Intelligence in Analyzing the Availability of Rental Units
CN112613926A (zh) 一种基于开票活跃度构建企业画像的方法及系统
JP2003280901A (ja) 見積評価支援プログラムおよび見積評価支援システム
WO2016013099A1 (ja) 素性データ管理システム、および素性データ管理方法
CN116993296B (zh) 应用于工程设计交互平台的智能监理管理系统及方法
CN108595693A (zh) 一种枸杞数据整理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination