CN108710610A - 一种基于电子发票的数据挖掘方法 - Google Patents

一种基于电子发票的数据挖掘方法 Download PDF

Info

Publication number
CN108710610A
CN108710610A CN201810471651.7A CN201810471651A CN108710610A CN 108710610 A CN108710610 A CN 108710610A CN 201810471651 A CN201810471651 A CN 201810471651A CN 108710610 A CN108710610 A CN 108710610A
Authority
CN
China
Prior art keywords
data
invoice
electronic invoice
classification model
digging method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810471651.7A
Other languages
English (en)
Inventor
崔永生
钱刚
商占超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Donggang Rui Hong Technology Co Ltd
Original Assignee
Beijing Donggang Rui Hong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Donggang Rui Hong Technology Co Ltd filed Critical Beijing Donggang Rui Hong Technology Co Ltd
Priority to CN201810471651.7A priority Critical patent/CN108710610A/zh
Publication of CN108710610A publication Critical patent/CN108710610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于电子发票的数据挖掘方法,包括以下步骤:数据预处理,采集电子发票数据并提取发票中有价值的信息,定义数据分类模型;数据挖掘引擎,根据中文分词算法结合数据分类模型,将数据归类;数据后处理,对挖掘的数据进行清洗、转化和标准化。本发明通过对电子发票挖掘的数据,建立多维分析模型,可以分析商品消费规模、结构、速度等变化规律,预测消费趋势,区域购买力的实现程度,为相关部门制定促进消费政策、引导行业发展、进行市场宏观调控提供决策参考。

Description

一种基于电子发票的数据挖掘方法
技术领域
本发明涉及电子发票领域,具体是一种基于电子发票的数据挖掘方法。
背景技术
随着信息的高速发展,电子发票作为信息时代的产物,与普通发票一样,采用税务局统一发放的形式给商家使用。自2013年6月27日我国内地首张电子发票在北京诞生以来,电子发票在各地得到大力推广实施,呈现持续较快发展态势。仅2016年北京市电子发票服务平台的电子发票数据累计近2亿份。
电子发票数据是真实的消费原始数据,可是发票信息无法直观的体现出商品属性维度,同时没有很好的电子发票数据挖掘的方法,所以,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。因此,针对这一现状,迫切需要开发一种基于电子发票的数据挖掘方法,以克服当前实际应用中的不足。
发明内容
本发明的目的在于提供一种基于电子发票的数据挖掘方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于电子发票的数据挖掘方法,包括以下步骤:
S1,数据预处理,采集电子发票数据并提取发票中有价值的信息,定义数据分类模型;
S2,数据挖掘引擎,根据中文分词算法结合数据分类模型,将数据归类;
S3,数据后处理,对挖掘的数据进行清洗、转化和标准化。
进一步的,在步骤S1中,采集电子发票数据并提取发票中有价值的信息具体为:销售方信息、购买方信息、开票时间、开票项目、金额、数量和税率信息。
进一步的,在步骤S1中,定义数据分类模型即为根据数据特征定义数据分类约束,建立数据分类模型。
进一步的,根据数据特征定义数据分类约束的方法为:前期通过原始初始化约束数据的方式创建数据分类模型;数据挖掘过程中通过机器学习方式,不断完善数据分类模型。
进一步的,在步骤S2中,根据中文分词算法结合数据分类模型,将数据归类的步骤为:先对开票项目进行中文分词,然后根据关键词与数据分类模型规则匹配,最后得出开票项目的归类。
进一步的,对开票项目进行中文分词的方法为:通过TextRank算法提取关键词,PageRank的计算公式为:
进一步的,所述关键词与数据分类模型规则匹配可为:关键词与数据分类模型,通过中文相似度匹配算法得出相似度系来判断匹配;若相似度达到一定范围,则自动匹配数据的分类;否则将关键词数据打标签,存放至未匹配表中,通过数据训练,持续完善数据分类模型中的约束数据。
进一步的,在步骤S3中,对挖掘的数据进行清洗、转化、标准化的步骤为:对已有商品属性的电子发票数据,根据原数据属性,将数据清洗为不同维度的数据。
与现有技术相比,本发明的有益效果是:
该基于电子发票的数据挖掘方法,包含数据预处理、数据挖掘引擎和数据后处理,具体应用算法可自行自定义,满足了复杂的个性化需求;填补当前电子发票领域数据挖掘分析的空白,将海量的电子发票数据中存在的价值充分挖掘,同时本发明还适用于发票领域其他票种数据的挖掘。
通过对电子发票挖掘的数据,建立多维分析模型,可以分析商品消费规模、结构、速度等变化规律,预测消费趋势,区域购买力的实现程度,为相关部门制定促进消费政策、引导行业发展、进行市场宏观调控提供决策参考。
本发明所公开的数据挖掘方法能够将电子发票数据按照行业模型、商品模型、时间模型等进行主题分析,除电子发票外,其他票据的挖掘分析也可采用。
附图说明
图1为本发明的步骤流程图。
图2为本发明的机器学习方式流程图。
图3为本发明的发票样例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~3,本发明实施例中,一种基于电子发票的数据挖掘方法,包括以下步骤:
S1,数据预处理,采集电子发票数据并提取发票中有价值的信息,定义数据分类模型;
S2,数据挖掘引擎,根据中文分词算法结合数据分类模型,将数据归类;
S3,数据后处理,对挖掘的数据进行清洗、转化和标准化。
进一步的,在步骤S1中,采集电子发票数据并提取发票中有价值的信息具体为:销售方信息、购买方信息、开票时间、开票项目、金额、数量和税率信息等。
进一步的,在步骤S1中,定义数据分类模型即为根据数据特征定义数据分类约束,建立数据分类模型;
所述根据数据特征定义数据分类约束的方法为:前期通过原始初始化约束数据的方式创建数据分类模型;数据挖掘过程中通过机器学习方式(见图2所示),不断完善数据分类模型。
进一步的,在步骤S2中,根据中文分词算法结合数据分类模型,将数据归类的步骤为:先对开票项目进行中文分词,然后根据关键词与数据分类模型规则匹配,最后得出开票项目的归类;
所述对开票项目进行中文分词的方法为:通过TextRank算法提取关键词,PageRank的计算公式为:
所述关键词与数据分类模型规则匹配可为:关键词与数据分类模型,通过中文相似度匹配算法(编辑距离算法)得出相似度系来判断匹配;若相似度达到一定范围,则自动匹配数据的分类;否则将关键词数据打标签,存放至未匹配表中,通过数据训练,持续完善数据分类模型中的约束数据。
在实际应用中,所述中文分词算法具体可为:主要是针对发票信息中的开票项目进行分词,例如一张发票(见图3)的开票项目为“小米红米3S全网通2GB内存16GB ROM经典金色移动联通电信4G手机双卡双待”,进行中文分词后的信息为“手机,小米,金色,2GB,3S,ROM,经典,内存,移动,联通,电信”。
在实际应用中,所述数据归类可为:将开票项目的分词结果与数据分类模型匹配,挖掘出发票信息中消费商品的内在价值,如“销售时间:2017年1月2日;销售价格699元;商品分类:通信器材;商品名称:小米手机;品牌:小米;颜色:金色;支持运营商:移动,联通,电信;规格:2GB,3S;其他:经典,内存”。
进一步的,在步骤S3中,对挖掘的数据进行清洗、转化、标准化的步骤为:对已有商品属性的电子发票数据,根据原数据属性,将数据清洗为不同维度(行业、品牌、商品、时间等)的数据。
在实际应用中,所述挖掘的数据进行清洗、转化、标准化具体可为:首先检查数据一致性,处理无效值和缺失值等,发现并纠正数据中可识别的错误;其次将数据进行标准化转化。
该基于电子发票的数据挖掘方法,包含数据预处理、数据挖掘引擎和数据后处理,具体应用算法可自行自定义,满足了复杂的个性化需求;填补当前电子发票领域数据挖掘分析的空白,将海量的电子发票数据中存在的价值充分挖掘,同时本发明还适用于发票领域其他票种数据的挖掘。
通过对电子发票挖掘的数据,建立多维分析模型,可以分析商品消费规模、结构、速度等变化规律,预测消费趋势,区域购买力的实现程度,为相关部门制定促进消费政策、引导行业发展、进行市场宏观调控提供决策参考。
本发明所公开的数据挖掘方法能够将电子发票数据按照行业模型、商品模型、时间模型等进行主题分析,除电子发票外,其他票据的挖掘分析也可采用。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。

Claims (8)

1.一种基于电子发票的数据挖掘方法,其特征在于,包括以下步骤:
S1,数据预处理,采集电子发票数据并提取发票中有价值的信息,定义数据分类模型;
S2,数据挖掘引擎,根据中文分词算法结合数据分类模型,将数据归类;
S3,数据后处理,对挖掘的数据进行清洗、转化和标准化。
2.根据权利要求1所述的基于电子发票的数据挖掘方法,其特征在于,在步骤S1中,采集电子发票数据并提取发票中有价值的信息具体为:销售方信息、购买方信息、开票时间、开票项目、金额、数量和税率信息。
3.根据权利要求1所述的基于电子发票的数据挖掘方法,其特征在于,在步骤S1中,定义数据分类模型即为根据数据特征定义数据分类约束,建立数据分类模型。
4.根据权利要求3所述的基于电子发票的数据挖掘方法,其特征在于,根据数据特征定义数据分类约束的方法为:前期通过原始初始化约束数据的方式创建数据分类模型;数据挖掘过程中通过机器学习方式,不断完善数据分类模型。
5.根据权利要求1所述的基于电子发票的数据挖掘方法,其特征在于,在步骤S2中,根据中文分词算法结合数据分类模型,将数据归类的步骤为:先对开票项目进行中文分词,然后根据关键词与数据分类模型规则匹配,最后得出开票项目的归类。
6.根据权利要求5所述的基于电子发票的数据挖掘方法,其特征在于,对开票项目进行中文分词的方法为:通过TextRank算法提取关键词,PageRank的计算公式为:
7.根据权利要求6所述的基于电子发票的数据挖掘方法,其特征在于,所述关键词与数据分类模型规则匹配可为:关键词与数据分类模型,通过中文相似度匹配算法得出相似度系来判断匹配;若相似度达到一定范围,则自动匹配数据的分类;否则将关键词数据打标签,存放至未匹配表中,通过数据训练,持续完善数据分类模型中的约束数据。
8.根据权利要求1所述的基于电子发票的数据挖掘方法,其特征在于,在步骤S3中,对挖掘的数据进行清洗、转化、标准化的步骤为:对已有商品属性的电子发票数据,根据原数据属性,将数据清洗为不同维度的数据。
CN201810471651.7A 2018-05-17 2018-05-17 一种基于电子发票的数据挖掘方法 Pending CN108710610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810471651.7A CN108710610A (zh) 2018-05-17 2018-05-17 一种基于电子发票的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810471651.7A CN108710610A (zh) 2018-05-17 2018-05-17 一种基于电子发票的数据挖掘方法

Publications (1)

Publication Number Publication Date
CN108710610A true CN108710610A (zh) 2018-10-26

Family

ID=63868201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810471651.7A Pending CN108710610A (zh) 2018-05-17 2018-05-17 一种基于电子发票的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN108710610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091597A1 (en) * 2001-01-09 2002-07-11 Kuan-Min Teng Method and system of using invoice categorization in accounting management application
CN102609775A (zh) * 2011-04-28 2012-07-25 许晓飞 个人消费记录发票采集系统
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
US20170293951A1 (en) * 2016-04-11 2017-10-12 Ian Nolan System, Method and Apparatus for Automatic Categorization and Assessment of Billing Narratives
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
US20180053115A1 (en) * 2016-08-17 2018-02-22 Global Eprocure Spend Data Enrichment and Classification
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091597A1 (en) * 2001-01-09 2002-07-11 Kuan-Min Teng Method and system of using invoice categorization in accounting management application
CN102609775A (zh) * 2011-04-28 2012-07-25 许晓飞 个人消费记录发票采集系统
US20170293951A1 (en) * 2016-04-11 2017-10-12 Ian Nolan System, Method and Apparatus for Automatic Categorization and Assessment of Billing Narratives
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
US20180053115A1 (en) * 2016-08-17 2018-02-22 Global Eprocure Spend Data Enrichment and Classification
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置

Similar Documents

Publication Publication Date Title
CN104899304B (zh) 命名实体识别方法及装置
CN106127507A (zh) 一种基于用户评价信息的商品舆情分析方法及系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN106126502B (zh) 一种基于支持向量机的情感分类系统及方法
CN107894981A (zh) 一种案件语义要素的自动抽取方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN107180023A (zh) 一种文本分类方法及系统
CN106708966A (zh) 基于相似度计算的垃圾评论检测方法
CN108537240A (zh) 基于领域本体的商品图像语义标注方法
CN105630768A (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN103077164A (zh) 文本分析方法及文本分析器
CN106599041A (zh) 基于大数据平台的文本处理及检索系统
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107230123A (zh) 商品映射方法、装置及设备
CN107870984A (zh) 识别搜索词的意图的方法和装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109255027A (zh) 一种电商评论情感分析降噪的方法和装置
CN101539928A (zh) 在电脑屏幕上通过单击鼠标中键进行在线搜索的方法
CN106484698A (zh) 一种搜索关键词的推送方法和装置
CN101937432A (zh) 一种按照供需信息进行两方撮合的系统与方法
CN110309301A (zh) 企业类别的分类方法、装置及智能终端
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
CN116521560A (zh) 一种基于图神经网络的多特征融合上帝类检测方法
CN108710610A (zh) 一种基于电子发票的数据挖掘方法
CN110348647A (zh) 一种全球贸易大数据智能分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181026