CN111783577B - 一种基于发票数据分析的疑似税务异常企业筛选方法 - Google Patents
一种基于发票数据分析的疑似税务异常企业筛选方法 Download PDFInfo
- Publication number
- CN111783577B CN111783577B CN202010566093.XA CN202010566093A CN111783577B CN 111783577 B CN111783577 B CN 111783577B CN 202010566093 A CN202010566093 A CN 202010566093A CN 111783577 B CN111783577 B CN 111783577B
- Authority
- CN
- China
- Prior art keywords
- tax
- suspected
- support vector
- vector machine
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012216 screening Methods 0.000 title claims abstract description 49
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 238000012706 support-vector machine Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000000926 separation method Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000012986 modification Methods 0.000 abstract description 5
- 230000004048 modification Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K17/00—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
- G06K17/0022—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisions for transferring data to distant stations, e.g. from a sensing device
- G06K17/0025—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisions for transferring data to distant stations, e.g. from a sensing device the arrangement consisting of a wireless interrogation device in combination with a device for optically marking the record carrier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于发票数据分析的疑似税务异常企业筛选方法,包括:对发票数据进行特征提取,得到特征向量;修改支持向量机模型,将最小间隔分离超平面设置为分类超平面;将特征向量作为一次修改支持向量机模型训练样本,得到包含正样本和负样本的一类训练样本;采用一类训练样本对一次修改支持向量机模型进行迭代训练,直至将负样本与正样本完全分离;将一次修改支持向量机模型修改为层次型支持向量机模型;采用带有标记的正样本和负样本对二次修改支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型;根据该模型对异常发票进行筛选,确定疑似税务异常企业。与现有基于机器学习的疑似税务异常企业筛选方法相比,本发明的准确率更高。
Description
技术领域
本发明属于企业发票数据分析技术领域,更具体地,涉及一种基于发票数据分析的疑似税务异常企业筛选方法。
背景技术
目前,税务机关通常基于大数据筛查的方式筛选异常发票。在筛选出异常发票后,税务机关先通过异常发票锁定疑似税务异常企业,再通过进一步调查该疑似税务异常企业的其他税务相关数据来最终判断企业是否存在违规行为。
这其中,税务机关的大数据筛查离不开机器学习的参与。通常来说,在机器学习的过程中,要求样本平衡,即正负样本比例差距小。只有在正负样本比例差距小的情况下,才能保证机器学习的数据分析结果的准确率,机器学习的数据分析结果才有意义。然而,一方面,对于发票领域来说,作为正样本的正常发票与作为负样本的异常发票的比例差距极大,异常发票在所有发票中的占比在千分之一以下。另一方面,通过对发票进行特征分析,发现存在大量的与异常发票特征相同的正常发票。
由此,以上两方面原因导致现有基于机器学习的疑似税务异常企业筛选方法的筛选结果的准确率较低,这使得税务机关不得不通过增加发票样本数量的方式来尽可能多地筛选出疑似税务异常企业。
发明内容
本发明的目的在于解决现有基于机器学习的疑似税务异常企业筛选方法的筛选结果的准确率低的问题,以在保证疑似税务异常企业查全率的基础上缩小筛选范围,减少筛选工作量。
为了实现上述目的,本发明提供一种基于发票数据分析的疑似税务异常企业筛选方法,该疑似税务异常企业筛选方法基于疑似税务异常企业筛选模型实现,具体包括以下步骤:
对发票数据进行特征提取,得到特征向量;
修改支持向量机模型,将最小间隔分离超平面设置为分类超平面,得到一次修改的支持向量机模型;
将所述特征向量作为所述一次修改的支持向量机模型的训练样本,得到包含正样本和负样本的一类训练样本;
采用所述一类训练样本对所述一次修改的支持向量机模型进行迭代训练,直至将所述负样本与所述正样本完全分离;
将所述一次修改的支持向量机模型修改为层次型支持向量机模型,得到二次修改的支持向量机模型;
采用带有标记的所述正样本和所述负样本对所述二次修改的支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型;
根据所述疑似税务异常企业筛选模型对异常发票进行筛选,进而确定疑似税务异常企业。
作为优选的是,在所述对发票数据进行特征提取,得到特征向量的步骤之前,还包括:
获取发票数据。
作为优选的是,所述发票数据包括购买方信息、销售方信息、品名和金额。
作为优选的是,在所述获取发票数据的步骤中,采用OCR识别算法获取所述发票数据。
作为优选的是,在所述获取发票数据的步骤中,采用扫描发票二维码的方式获取所述发票数据。
作为优选的是,在所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练的步骤之前,还包括:
对所述正样本和所述负样本进行标记。
作为优选的是,在所述对所述正样本和所述负样本进行标记的步骤中,采用独热编码方式对所述正样本和所述负样本进行标记。
作为优选的是,所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型的步骤具体为:
在对所述二次修改的支持向量机模型进行训练的过程中,不断优化该模型的参数以及调整该模型的过滤层数,直至该模型的分类准确率达到预定值。
作为优选的是,所述预定值为90%。
作为优选的是,所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。
本发明的有益效果在于:
本发明的基于发票数据分析的疑似异常企业筛选方法对现有支持向量机模型做出了修改,即将现有支持向量机模型的分类超平面自最大间隔分离超平面修改为最小间隔分离超平面。本发明的方法通过修改后的支持向量机模型对正负样本进行最佳分类,并通过对修改后的支持向量机模型进行迭代训练的方式不断过滤正样本,以减少正样本的数量,缩小正负样本比例差距,进而提升分类结果的准确性。
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的实施例的基于发票数据分析的疑似税务异常企业筛选方法的实现流程图。
图2示出了根据本发明的实施例的一次修改的支持向量机模型的分类示意图。
具体实施方式
下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
实施例:下面结合图1和图2详细地说明本实施例。
从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。
使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1loss(这是一种典型的均等代价的损失函数),那么优化目标就等价于错误率最小化(也就是accuracy最大化)。考虑极端情况:1000个训练样本中,正类样本999个,负类样本1个。训练过程中在某次迭代结束后,模型把所有的样本都分为正类,虽然分错了这个负类,但是所带来的损失实在微不足道,accuracy已经是99.9%,于是满足停机条件或者达到最大迭代次数之后自然没必要再优化下去,于是模型没有学习到如何去判别出少数类。
在分析数据时,一般分析的样本比例相差都不会很大,这样分析出来的结果才具有意义。当正负样本的比例相差很大的时候,会导致分析出的结果误差很大。在处理正负样本不均衡的问题时,常使用的方法有以下几种:
1.通过过采样和欠采样解决样本不均衡
过采样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法。
欠采样(也叫下采样、under-sampling)方法通过减少分类中多数类样本的样本数量来实现样本均衡,最直接的方法是随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。
2.通过正负样本的惩罚权重解决样本不均衡
在算法实现过程中,对于分类中不同样本数量的类别分别赋予不同的权重,一般思路分类中的小样本量类别权重高,大样本量类别权重低,然后进行计算和建模。
3.通过组合/集成方法解决样本不均衡
组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型。最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果。
4.通过特征选择解决样本不均衡
如果小类别样本量具有一定的规模,那么意味着其特征值的分布较为均匀,可通过选择具有显著型的特征配合参与解决样本不均衡问题,也能在一定程度上提高模型效果。
通过以上几种方法可以在一定程度上调整模型的准确率,但是当正负样本的比例相差太大的时候,模型的准确率会受到严重影响,达不到理想的分析结果。
支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:
当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;
当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;
当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机。
图1示出了根据本发明的实施例的基于发票数据分析的疑似税务异常企业筛选方法的实现流程图。参照图1,本实施例的基于发票数据分析的疑似税务异常企业筛选方法包括以下步骤:
S1、对发票数据进行特征提取,得到特征向量;
S2、修改支持向量机模型,将最小间隔分离超平面设置为分类超平面,得到一次修改的支持向量机模型;
S3、将所述特征向量作为所述一次修改的支持向量机模型的训练样本,得到包含正样本和负样本的一类训练样本;
图2示出了根据本发明的实施例的一次修改的支持向量机模型的分类示意图。参照图2,图中的斜线为分类超平面,分类超平面的上侧为只包含正样本的一类训练样本,分类超平面的下侧为既包含正样本又包含负样本的一类训练样本。
S4、采用所述一类训练样本对所述一次修改的支持向量机模型进行迭代训练,直至将所述负样本与所述正样本完全分离;
S5、将所述一次修改的支持向量机模型修改为层次型支持向量机模型,得到二次修改的支持向量机模型;
S6、采用带有标记的所述正样本和所述负样本对所述二次修改的支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型;
S7、根据所述疑似税务异常企业筛选模型对异常发票进行筛选,进而确定疑似税务异常企业。
本实施例中,在实施步骤S1之前,还包括:
获取发票数据。
本实施例中,所述发票数据包括购买方信息、销售方信息、品名和金额。
本实施例中,在所述获取发票数据的步骤中,采用OCR识别算法获取所述发票数据,或者,采用扫描发票二维码的方式获取所述发票数据。
本实施例中,在实施步骤S6之前,还包括:
对所述正样本和所述负样本进行标记。
本实施例中,在对所述正样本和所述负样本进行标记的步骤中,采用独热编码方式对所述正样本和所述负样本进行标记。
本实施例中,步骤S6具体为:在对所述二次修改的支持向量机模型进行训练的过程中,不断优化该模型的参数以及调整该模型的过滤层数,直至该模型的分类准确率达到预定值。
本实施例中,所述预定值为90%。
本实施例中,所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。
本实施例的基于发票数据分析的疑似税务异常企业筛选方法将疑似税务异常企业的分析问题转化为分类问题,并对通过机器学习解决分类问题所常用的支持向量机模型进行改进,使得改进后的支持向量机模型更加匹配当前业务模型,提高分析的准确率。
与现有的机器学习算法相比,本实施例提出的改进的支持向量机模型能够较好地处理对于发票分析这种样本及其不均衡,而且特征不明显的情况。
在仿真实验中,采用现有支持向量机模型和深度神经网络算法进行疑似税务异常企业筛选方法时,要求正负样本比例达到400:1左右,才能保证查全率在90%以上。而采用本实施例的基于发票数据分析的疑似税务异常企业筛选方法,要求正负样本比例达到5:1左右,即可保证查全率在90%以上。如此一来,将原先从1000个企业中筛选1个疑似税务异常企业的工作变成从6个企业中筛选1个疑似税务异常企业的工作,这极大地减少查税人员的工作,提高了工作效率。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
Claims (10)
1.一种基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,该疑似税务异常企业筛选方法基于疑似税务异常企业筛选模型实现;
所述疑似税务异常企业筛选方法包括以下步骤:
对发票数据进行特征提取,得到特征向量;
修改支持向量机模型,将最小间隔分离超平面设置为分类超平面,得到一次修改的支持向量机模型;
将所述特征向量作为所述一次修改的支持向量机模型的训练样本,得到包含正样本和负样本的一类训练样本;
采用所述一类训练样本对所述一次修改的支持向量机模型进行迭代训练,直至将所述负样本与所述正样本完全分离;
将所述一次修改的支持向量机模型修改为层次型支持向量机模型,得到二次修改的支持向量机模型;
采用带有标记的所述正样本和所述负样本对所述二次修改的支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型;
根据所述疑似税务异常企业筛选模型对异常发票进行筛选,进而确定疑似税务异常企业。
2.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,在所述对发票数据进行特征提取,得到特征向量的步骤之前,还包括:
获取发票数据。
3.根据权利要求2所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,所述发票数据包括购买方信息、销售方信息、品名和金额。
4.根据权利要求3所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,在所述获取发票数据的步骤中,采用OCR识别算法获取所述发票数据。
5.根据权利要求3所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,在所述获取发票数据的步骤中,采用扫描发票二维码的方式获取所述发票数据。
6.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,在所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练的步骤之前,还包括:
对所述正样本和所述负样本进行标记。
7.根据权利要求6所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,在所述对所述正样本和所述负样本进行标记的步骤中,采用独热编码方式对所述正样本和所述负样本进行标记。
8.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,所述采用带有标记的所述正样本和所述负样本对二次修改的支持向量机模型进行训练,得到所述疑似税务异常企业筛选模型的步骤具体为:
在对所述二次修改的支持向量机模型进行训练的过程中,不断优化该模型的参数以及调整该模型的过滤层数,直至该模型的分类准确率达到预定值。
9.根据权利要求8所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,所述预定值为90%。
10.根据权利要求1所述的基于发票数据分析的疑似税务异常企业筛选方法,其特征在于,所述正样本和所述负样本分别提取自正常发票的数据和异常发票的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566093.XA CN111783577B (zh) | 2020-06-19 | 2020-06-19 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566093.XA CN111783577B (zh) | 2020-06-19 | 2020-06-19 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783577A CN111783577A (zh) | 2020-10-16 |
CN111783577B true CN111783577B (zh) | 2023-11-10 |
Family
ID=72757608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010566093.XA Active CN111783577B (zh) | 2020-06-19 | 2020-06-19 | 一种基于发票数据分析的疑似税务异常企业筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783577B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398942A (zh) * | 2021-12-08 | 2022-04-26 | 河北航天信息技术有限公司 | 一种基于集成的个人所得税异常检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971136A (zh) * | 2014-05-04 | 2014-08-06 | 南京师范大学 | 一种面向大规模数据的并行结构化支持向量机分类方法 |
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN109409969A (zh) * | 2018-10-24 | 2019-03-01 | 仲恺农业工程学院 | 一种企业税务欺诈检测方法、电子设备及存储介质 |
CN110991777A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 虚开发票企业的查找方法及装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704103B (zh) * | 2014-11-26 | 2017-05-10 | 中国科学院沈阳自动化研究所 | 基于OCSVM双轮廓模型的Modbus TCP通信行为异常检测方法 |
-
2020
- 2020-06-19 CN CN202010566093.XA patent/CN111783577B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104700304A (zh) * | 2013-12-05 | 2015-06-10 | 航天信息股份有限公司 | 通过增值税普通发票的金额监控企业逃税的方法和系统 |
CN103971136A (zh) * | 2014-05-04 | 2014-08-06 | 南京师范大学 | 一种面向大规模数据的并行结构化支持向量机分类方法 |
CN110991777A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 虚开发票企业的查找方法及装置、存储介质及电子设备 |
CN109409969A (zh) * | 2018-10-24 | 2019-03-01 | 仲恺农业工程学院 | 一种企业税务欺诈检测方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于支持向量机和领域知识的纳税评估预警模型;叶艺勇;;数学的实践与认识(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783577A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Clausi et al. | Design-based texture feature fusion using Gabor filters and co-occurrence probabilities | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
Al-Azzawi et al. | AutoCryoPicker: an unsupervised learning approach for fully automated single particle picking in Cryo-EM images | |
CN108629373A (zh) | 一种图像分类方法、系统、设备及计算机可读存储介质 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN112270596A (zh) | 基于用户画像构建的风险控制系统及方法 | |
CN105975611A (zh) | 自适应组合降采样增强学习机 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
Orriols et al. | The class imbalance problem in learning classifier systems: a preliminary study | |
CN111783577B (zh) | 一种基于发票数据分析的疑似税务异常企业筛选方法 | |
Zhang et al. | Improving prediction accuracy for logistic regression on imbalanced datasets | |
CN114926299A (zh) | 一种基于大数据分析的预测车辆事故风险预测方法 | |
CN111966586A (zh) | 一种基于模块选择和权重更新的跨项目缺陷预测方法 | |
CN111612624A (zh) | 一种数据特征重要性的分析方法及系统 | |
CN115470834A (zh) | 基于标签传播矫正标签置信度的不准确标记的多标签学习算法 | |
CN115953584B (zh) | 一种具有可学习稀疏性的端到端目标检测方法及系统 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
CN116385778A (zh) | 基于深度学习的小样本不平衡晶圆数据的缺陷分类方法 | |
CN107943916B (zh) | 一种基于在线分类的网页异常检测方法 | |
CN116308380A (zh) | 一种基于bert文本分类技术的信用卡数据欺诈行为识别方法 | |
CN113792141B (zh) | 基于协方差度量因子的特征选择方法 | |
CN112784774B (zh) | 一种基于数据增强的小样本高光谱分类方法 | |
Monteiro et al. | Deep learning recognition of a large number of pollen grain types | |
CN111414819B (zh) | 基于非平衡数据分类框架的火点智能检测和分类方法 | |
Ferreira et al. | An experimental perspective on sampling methods for imbalanced learning from financial databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |