CN115775094A - 一种用于构建进销项异常商品库的方法及装置 - Google Patents
一种用于构建进销项异常商品库的方法及装置 Download PDFInfo
- Publication number
- CN115775094A CN115775094A CN202211448707.XA CN202211448707A CN115775094A CN 115775094 A CN115775094 A CN 115775094A CN 202211448707 A CN202211448707 A CN 202211448707A CN 115775094 A CN115775094 A CN 115775094A
- Authority
- CN
- China
- Prior art keywords
- commodity
- items
- sale
- input
- sales
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000009825 accumulation Methods 0.000 claims description 9
- 230000008676 import Effects 0.000 abstract description 13
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于构建进销项异常商品库的方法及装置,包括:获取企业的进销项商品信息;根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。解决风险预判对业务人员强依赖、效率不高的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于构建进销项异常商品库的方法及装置。
背景技术
目前,绝大多数分析进销项商品差异进而识别异常企业的方法都只适用于商贸企业。对生产型企业而言,由于存在加工制造过程,进销项商品差异大,通过比对进销项商品分析其是否存在进销不一致的异常行为难度很大。此外,风险企业的进销项商品之间的关联关系以及共性挖掘不足,业务人员在进销不一致税收风险防控中积累的经验以及通过进销项异常分析得出的结论,也都无法作为可以共享的知识进行存储和被他人复用,使得税收风险防控对业务人员产生极大依赖,效率低下。
发明内容
针对上述问题,本发明提供一种用于构建进销项异常商品库的方法,包括:
获取企业的进销项商品信息;
根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
进一步的,获取企业的进销项商品信息,包括:
从所述企业的增值税发票和货物明细数据,提取所述企业的进销项商品信息。
进一步的,在获取企业进销项商品信息的步骤之后,还包括:
通过文本分类工具确定每个商品的商品编码。
进一步的,根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品,包括:
分别汇总企业的总销项金额和\或总进项金额;
针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
进一步的,根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合,包括:
若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
进一步的,进销项商品组合的置信度和支持度分别通过如下公式获得:
置信度=某进项商品编码出现的次数/组合总数
支持度=进项商品编码所在组合出现的次数/该进项商品编码出现的次数。
本发明同时提供一种用于构建进销项异常商品库的装置,包括:
商品信息获取单元,用于获取企业的进销项商品信息;
主销商品和主购商品确定单元,用于根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
异常进销项商品组合获得单元,用于通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
进一步的,还包括:
商品编码确定单元,用于通过文本分类工具确定每个商品的商品编码。
进一步的,主销商品和主购商品确定单元,包括:
金额汇总子单元,用于分别汇总企业的总销项金额和\或总进项金额;
排列子单元,用于针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
金额累加子单元,按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
主销商品和主购商品确定子单元,用于将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
进一步的,异常进销项商品组合获得单元,
第一状态确定子单元,用于若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
第二状态确定子单元,用于对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
通过本发明提供的一种用于构建进销项异常商品库的方法及装置,针对进销不一致企业的进、销项商品,进一步挖掘异常商品以及商品之间潜在的关联规则,构建进销项异常商品库,实现税收风险的快速预判,让知识可共享、可复用,解决风险预判对业务人员强依赖、效率不高的问题。
附图说明
图1是本发明提供的一种用于构建进销项异常商品库的方法的流程示意图;
图2是本发明提供的一种用于构建进销项异常商品库的装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
图1是本发明提供的一种用于构建进销项异常商品库的方法的流程示意图,下面结合图1对本发明提供的方法进行详细说明。
步骤S101,获取企业的进销项商品信息。
只有进项或者只有销项的企业可直接判定为异常企业,不在本发明研究的范围内。因此,首先对数据进行预处理,具体包括:
(1)锁定样本。筛选出既有销项发票又有进项发票的企业,剔除小规模纳税人。
(2)数据过滤。剔除作废发票、零税率发票,以及商品名称中带“租赁”、“不动产”、“租金”的数据。
然后,从所述企业的增值税发票和货物明细数据,提取所述企业的进销项商品信息。
商品名称描述的多样性导致同一个商品实体识别难度大,因此,基于商品编码来分析进销项是否一致更为科学。鉴于发票数据中的商品编码存在填写不规范、不准确的问题,帮通过开源的文本分类工具fastText确定每个商品的商品编码。
步骤S102,根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品。
每个企业销售或者购买的商品往往不止一种,为降低计算量,提升分析效率,只针对企业的主销商品和主购商品进行分析。剔除商品编码以“4”,“5”,“6”开头的数据后,基于企业的销项数据和进项数据,分别执行以下步骤:
分别汇总企业的总销项金额和\或总进项金额;
针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
步骤S103,通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
对企业的主销商品和主购商品的笛卡尔积,获得多个进销项商品组合。设定判别规则,
若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。本发明中的n是3。
进销项商品组合的置信度和支持度分别通过如下公式获得:
置信度=某进项商品编码出现的次数/组合总数
支持度=进项商品编码所在组合出现的次数/该进项商品编码出现的次数。
本发明中,置信度阈值为0.004,支持度阈值为0.1。
基于同一发明构思,本发明同时提供一种用于构建进销项异常
商品库的装置200,如图2所示,包括:
商品信息获取单元210,用于获取企业的进销项商品信息;
主销商品和主购商品确定单元220,用于根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
异常进销项商品组合获得单元230,用于通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;
进一步的,还包括:
商品编码确定单元,用于通过文本分类工具确定每个商品的商品编码。
进一步的,主销商品和主购商品确定单元,包括:
金额汇总子单元,用于分别汇总企业的总销项金额和\或总进项金额;
排列子单元,用于针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
金额累加子单元,按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
主销商品和主购商品确定子单元,用于将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
进一步的,异常进销项商品组合获得单元,
第一状态确定子单元,用于若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
第二状态确定子单元,用于对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
通过本发明提供的一种用于构建进销项异常商品库的方法及装置,针对进销不一致企业的进、销项商品,进一步挖掘异常商品以及商品之间潜在的关联规则,构建进销项异常商品库,实现税收风险的快速预判,让知识可共享、可复用,解决风险预判对业务人员强依赖、效率不高的问题。
最后应该说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种用于构建进销项异常商品库的方法,其特征在于,包括:
获取企业的进销项商品信息;
根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
2.根据权利要求1所述的方法,其特征在于,获取企业的进销项商品信息,包括:
从所述企业的增值税发票和货物明细数据,提取所述企业的进销项商品信息。
3.根据权利要求1所述的方法,其特征在于,在获取企业进销项商品信息的步骤之后,还包括:
通过文本分类工具确定每个商品的商品编码。
4.根据权利要求1所述的方法,其特征在于,根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品,包括:
分别汇总企业的总销项金额和\或总进项金额;
针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
5.根据权利要求1所述的方法,其特征在于,根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合,包括:
若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
6.根据权利要求5所述的方法,其特征在于,进销项商品组合的置信度和支持度分别通过如下公式获得:
置信度=某进项商品编码出现的次数/组合总数
支持度=进项商品编码所在组合出现的次数/该进项商品编码出现的次数。
7.一种用于构建进销项异常商品库的装置,其特征在于,包括:
商品信息获取单元,用于获取企业的进销项商品信息;
主销商品和主购商品确定单元,用于根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
异常进销项商品组合获得单元,用于通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商。
8.根据权利要求7所述的装置,其特征在于,还包括:
商品编码确定单元,用于通过文本分类工具确定每个商品的商品编码。
9.根据权利要求7所述的装置,其特征在于,主销商品和主购商品确定单元,包括:
金额汇总子单元,用于分别汇总企业的总销项金额和\或总进项金额;
排列子单元,用于针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
金额累加子单元,按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
主销商品和主购商品确定子单元,用于将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
10.根据权利要求7所述的装置,其特征在于,异常进销项商品组合获得单元,
第一状态确定子单元,用于若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
第二状态确定子单元,用于对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211448707.XA CN115775094A (zh) | 2022-11-18 | 2022-11-18 | 一种用于构建进销项异常商品库的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211448707.XA CN115775094A (zh) | 2022-11-18 | 2022-11-18 | 一种用于构建进销项异常商品库的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115775094A true CN115775094A (zh) | 2023-03-10 |
Family
ID=85389466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211448707.XA Pending CN115775094A (zh) | 2022-11-18 | 2022-11-18 | 一种用于构建进销项异常商品库的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115775094A (zh) |
-
2022
- 2022-11-18 CN CN202211448707.XA patent/CN115775094A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2002353396B2 (en) | Sales optimization | |
JP5337174B2 (ja) | 需要予測装置、及びそのプログラム | |
CN108090712B (zh) | 一种分析业务异常的方法及装置 | |
CN110019798B (zh) | 一种用于对进销项商品种类差异进行度量的方法及系统 | |
JP2016091214A (ja) | 商品販売データ処理装置及びプログラム | |
US20100153241A1 (en) | System and method for automated reconciliation of purchase orders | |
CN103903148A (zh) | C2c系统、b2c系统及其使用方法 | |
CN107368962B (zh) | 企业交易自动征信方法及系统 | |
CN112182207A (zh) | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 | |
CN114723492A (zh) | 一种企业画像的生成方法及设备 | |
US7805334B1 (en) | Method and system for processing retail data | |
CN113781106B (zh) | 商品运营数据分析方法、装置、设备及计算机可读介质 | |
CN116611796A (zh) | 一种店铺交易数据的异常检测方法及装置 | |
CN115775094A (zh) | 一种用于构建进销项异常商品库的方法及装置 | |
US7970711B2 (en) | Warranty management system and method | |
CN115775093A (zh) | 一种用于构建进销项敏感商品库的方法及装置 | |
CN114219547B (zh) | 一种门店订货量的确定方法、装置、设备及存储介质 | |
CN115170032A (zh) | 一种医药行业的储运管理系统 | |
CN111709227B (zh) | 对象权重确定方法、装置、电子设备及可读存储介质 | |
CN115062687A (zh) | 企业信用监控方法、装置、设备及存储介质 | |
CN113159727A (zh) | 商品检测方法和装置、电子设备及存储介质 | |
CN114723354A (zh) | 一种针对供应商的线上商机挖掘方法、设备及介质 | |
CN103020855A (zh) | 基于用户购买行为来识别不良商品的方法和系统 | |
JPH05114087A (ja) | 異価格バンドルの安値優先方式 | |
US20180240091A1 (en) | Tax-exempt processing apparatus and tax-exempt processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |