CN116579786A - 一种应用于大数据分析的数据清洗方法与系统 - Google Patents
一种应用于大数据分析的数据清洗方法与系统 Download PDFInfo
- Publication number
- CN116579786A CN116579786A CN202310499929.2A CN202310499929A CN116579786A CN 116579786 A CN116579786 A CN 116579786A CN 202310499929 A CN202310499929 A CN 202310499929A CN 116579786 A CN116579786 A CN 116579786A
- Authority
- CN
- China
- Prior art keywords
- commodity
- range
- main body
- target
- washed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004140 cleaning Methods 0.000 title claims abstract description 27
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005406 washing Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000013178 mathematical model Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种应用于大数据分析的数据清洗方法与系统,属于数据处理技术领域,具体包括:基于目标经营主体的经营范围与商品名称的匹配度对商品名称进行清洗得到清洗后的商品名称;利用目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及目标经营主体的经营范围确定目标经营主体的超范围经营风险值,并基于超范围经营风险值确定存在超范围经营风险时,将包含疑似超范围商品名称的经营主体作为类似经营主体,并基于类似经营主体的经营范围和目标经营主体的经营范围确定目标经营主体是否超范围经营,从而实现了对超范围经营的判断的效率。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种应用于大数据分析的数据清洗方法与系统。
背景技术
为了实现对企业经营范围的确定,在授权发明专利CN110032731B《企业经营范围判断方法、装置及计算机可读存储介质》通过获取非目标经营主体所经营商品的商品名称集合;并根据商品名称集合中存在商品名称词库中的商品名称,确定非目标经营主体所经营的商品超过经营范围,但是却存在以下技术问题:
忽视了对于不在商品名称词库的商品名称的二次识别,由于商品名称的迭代速度较快,种类繁多,因此若不能对商品名称进行二次识别,则同样无法准确实现对非目标经营主体的商品的经营范围的确定。
针对上述技术问题,本发明提供了一种应用于大数据分析的数据清洗方法与系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种应用于大数据分析的数据清洗方法。
一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
S11获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
S12利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入步骤S13;
S13基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
S14将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营。
通过基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,从而实现了从目标经营主体的经营范围的角度对商品名称的清洗,不仅进一步提升了超范围经营的判断的效率,同时也提升了判断的精度。
通过利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,从而实现了从多角度对目标经营主体的超范围经营风险的判断,不仅保证了判断的精度,同时也实现了对目标经营主体的超范围经营风险的全面评估,这也为进一步减少了超范围经营判断的数量奠定了基础。
通过基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称,从而实现了从参考经营主体的角度实现了对疑似超范围商品名称的再次提取,从而进一步减少了超范围评估的数量,提升了判断的效率。
通过基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营,从而实现了从类似经营主体的角度对超范围经营的确定,不仅仅考虑到单一的参考经营主体,同时也考虑考经营范围的影响,从而实现了从更加全面的角度对超范围经营的判断。
进一步的技术方案在于,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
进一步的技术方案在于,基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称。
进一步的技术方案在于,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
进一步的技术方案在于,所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中。
另一方面,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种应用于大数据分析的数据清洗方法。
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种应用于大数据分析的数据清洗方法。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种应用于大数据分析的数据清洗方法的流程图;
图2是根据实施例1的超范围评估值构建的具体步骤的流程图;
图3是根据实施例2的一种计算机系统的框架图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
S11获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
需要说明的是,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
具体的举例说明,基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称。
需要另外说明的是,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
通过基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,从而实现了从目标经营主体的经营范围的角度对商品名称的清洗,不仅进一步提升了超范围经营的判断的效率,同时也提升了判断的精度。
S12利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入步骤S13;
具体的举例说明,所述超范围经营风险值确定的具体步骤为:
S21获取所述目标经营主体的清洗后的商品名称的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S22;
S22获取所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度构建修正匹配度,并基于所述修正匹配度的最小值确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S23;
S23基于所述目标经营主体的清洗后的商品名称的修正匹配度小于设定修正量的数量确定所述目标经营主体是否存在超范围经营风险,若是,则进入步骤S24,若否,则进入步骤S25;
S24基于所述目标经营主体的经营范围的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S25;
S25至少基于所述目标经营主体的清洗后的商品名称的数量、修正匹配度、清洗后的商品名称的修正匹配度小于设定修正量的数量、目标经营主体的经营范围的数量确定所述目标经营主体的超范围经营风险值。
需要进一步说明的是,所述修正匹配度根据所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度进行确定,具体的基于所匹配的备选经营范围的匹配度基于层次分析法的数学模型进行确定,其中所述所匹配的备选经营范围的匹配度的权值根据所述目标经营主体的经营范围的数量和清洗后的商品名称所匹配的备选经营范围的数量进行确定。
在本实施例中,通过利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,从而实现了从多角度对目标经营主体的超范围经营风险的判断,不仅保证了判断的精度,同时也实现了对目标经营主体的超范围经营风险的全面评估,这也为进一步减少了超范围经营判断的数量奠定了基础。
S13基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
具体的,所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中。
具体的举例说明,如图2所示,所述超范围评估值构建的具体步骤为:
S31获取包含所述清洗后的商品名称的参考经营主体并将其作为备选参考经营主体,并基于所述备选参考经营主体的数量确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S32;
S32基于所述备选参考经营主体的相同的经营范围对所述参考经营主体进行二次筛选得到筛选参考经营主体,并基于所述参考经营主体在所述筛选参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S33;
S33获取所述清洗后的商品名称所匹配的经营范围对所述参考经营主体进行筛选得到清洗参考经营主体,并基于所述备选参考经营主体在所述清洗参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S34;
S34基于所述备选参考经营主体的数量、所述参考经营主体在所述筛选参考经营主体的比例、备选参考经营主体在所述清洗参考经营主体的比例得到所述清洗后的商品名称的超范围评估值。
需要说明的是,所述超范围评估值采用基于GRU算法的评估模型不进行确定,此外对于GRU算法的部分参数是需要人为预先设定的,这部分参数统称为超参数。神经网络超参数对结构和性能有重要影响,超参数合理设置能够有效减少神经网络的迭代次数,提高收敛速度、拟合精度和泛化能力,因此为了提升GRU算法的泛化能力,本发明采用GWO算法对其学习率、学习率衰减率等超参数进行寻优。
由于传统的GWO算法在算法的迭代后期控制因子是成线性衰减的,从而使得算法容易陷入局部最优,因此为了提升全局的搜索能力,提出了一种非线性控制因子,其中所述非线性控制因子的计算公式为:
其中t为当前迭代次数,tmax为最大迭代次数,rand(0,1)为在0到1之间的随机数。
可以理解的是,所述清洗参考经营主体为包含所述清洗后的商品名称所匹配的经营范围的参考经营主体,所述筛选参考经营主体为包含备选参考经营主体的相同的经营范围的参考经营主体。
通过基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称,从而实现了从参考经营主体的角度实现了对疑似超范围商品名称的再次提取,从而进一步减少了超范围评估的数量,提升了判断的效率。
S14将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营。
具体的,确定所述目标经营主体是否超范围经营的具体步骤为:
S41基于所述疑似超范围商品名称进行特征值的提取得到商品特征字符,并对所述商品特征字符进行扩展得到所述疑似超范围商品名称的扩展特征字符;
S42基于所述扩展特征字符进行相似商品的筛选,并将具有该相似商品的经营主体作为类似经营主体,并基于所述相似商品与所述扩展特征字符的匹配情况得到所述类似经营主体的经营匹配度;
S43判断所述类似经营主体的经营范围是否都在所述目标经营主体的经营范围中,若是,则将所述类似经营主体的范围匹配度设置为1,若否,则基于所述类似经营主体的经营范围在所述目标经营主体的经营范围中的数量与所述类似经营主体的经营范围的比值作为范围匹配度;
S44基于所述类似经营主体的范围匹配度和所述经营匹配度的乘积作为所述类似经营主体的匹配度,并基于所述类似经营主体的匹配度大于预设匹配度的数量、类似经营主体的数量、类似经营主体的匹配度小于设定匹配度的数量确定所述目标经营主体是否超范围经营。
需要说明的是,所述设定匹配度小于预设匹配度。
在本实施例中,通过基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营,从而实现了从类似经营主体的角度对超范围经营的确定,不仅仅考虑到单一的参考经营主体,同时也考虑考经营范围的影响,从而实现了从更加全面的角度对超范围经营的判断。
实施例2
另一方面,如图3所示,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种应用于大数据分析的数据清洗方法。
实施例3
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种应用于大数据分析的数据清洗方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (10)
1.一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入下一步骤;
基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营。
2.如权利要求1所述的数据清洗方法,其特征在于,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
3.如权利要求1所述的数据清洗方法,其特征在于,基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称。
4.如权利要求1所述的数据清洗方法,其特征在于,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
5.如权利要求1所述的数据清洗方法,其特征在于,所述超范围经营风险值确定的具体步骤为:
S21获取所述目标经营主体的清洗后的商品名称的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S22;
S22获取所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度构建修正匹配度,并基于所述修正匹配度的最小值确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S23;
S23基于所述目标经营主体的清洗后的商品名称的修正匹配度小于设定修正量的数量确定所述目标经营主体是否存在超范围经营风险,若是,则进入步骤S24,若否,则进入步骤S25;
S24基于所述目标经营主体的经营范围的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S25;
S25至少基于所述目标经营主体的清洗后的商品名称的数量、修正匹配度、清洗后的商品名称的修正匹配度小于设定修正量的数量、目标经营主体的经营范围的数量确定所述目标经营主体的超范围经营风险值。
6.如权利要求5所述的数据清洗方法,其特征在于,所述修正匹配度根据所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度进行确定,具体的基于所匹配的备选经营范围的匹配度基于层次分析法的数学模型进行确定,其中所述所匹配的备选经营范围的匹配度的权值根据所述目标经营主体的经营范围的数量和清洗后的商品名称所匹配的备选经营范围的数量进行确定。
7.如权利要求1所述的数据清洗方法,其特征在于,所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中。
8.如权利要求1所述的数据清洗方法,其特征在于,所述超范围评估值构建的具体步骤为:
获取包含所述清洗后的商品名称的参考经营主体并将其作为备选参考经营主体,并基于所述备选参考经营主体的数量确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
基于所述备选参考经营主体的相同的经营范围对所述参考经营主体进行二次筛选得到筛选参考经营主体,并基于所述参考经营主体在所述筛选参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
获取所述清洗后的商品名称所匹配的经营范围对所述参考经营主体进行筛选得到清洗参考经营主体,并基于所述备选参考经营主体在所述清洗参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
基于所述备选参考经营主体的数量、所述参考经营主体在所述筛选参考经营主体的比例、备选参考经营主体在所述清洗参考经营主体的比例得到所述清洗后的商品名称的超范围评估值。
9.一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行权利要求1-8任一项所述的一种应用于大数据分析的数据清洗方法。
10.一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8任一项所述的一种应用于大数据分析的数据清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310499929.2A CN116579786B (zh) | 2023-05-06 | 2023-05-06 | 一种应用于大数据分析的数据清洗方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310499929.2A CN116579786B (zh) | 2023-05-06 | 2023-05-06 | 一种应用于大数据分析的数据清洗方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579786A true CN116579786A (zh) | 2023-08-11 |
CN116579786B CN116579786B (zh) | 2023-11-14 |
Family
ID=87540578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310499929.2A Active CN116579786B (zh) | 2023-05-06 | 2023-05-06 | 一种应用于大数据分析的数据清洗方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579786B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717636A (zh) * | 2018-03-19 | 2018-10-30 | 杭州祐全科技发展有限公司 | 一种网络订餐智能监管方法 |
CN108830342A (zh) * | 2018-05-25 | 2018-11-16 | 赛飞特工程技术集团有限公司 | 基于区块链的危险化学品超范围超能力经营的监管方法 |
CN109710906A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市标准技术研究院 | 经营范围辅助填报方法、装置、终端设备及存储介质 |
CN109934596A (zh) * | 2019-01-23 | 2019-06-25 | 成都数之联科技有限公司 | 一种网络餐饮商家超范围经营判断方法 |
CN110032731A (zh) * | 2019-03-06 | 2019-07-19 | 平安国际智慧城市科技股份有限公司 | 企业经营范围判断方法、装置及计算机可读存储介质 |
CN110264379A (zh) * | 2019-06-18 | 2019-09-20 | 上海秒针网络科技有限公司 | 超范围经营的检查方法及装置 |
CN113569048A (zh) * | 2021-07-31 | 2021-10-29 | 长春市万易科技有限公司 | 一种基于企业经营范围自动划分所属行业的方法及系统 |
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
WO2022116418A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 商标侵权的自动化判定方法、装置、电子设备和存储介质 |
CN115809887A (zh) * | 2022-12-09 | 2023-03-17 | 蔷薇大树科技有限公司 | 一种基于发票数据确定企业主要经营范围的方法和装置 |
-
2023
- 2023-05-06 CN CN202310499929.2A patent/CN116579786B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717636A (zh) * | 2018-03-19 | 2018-10-30 | 杭州祐全科技发展有限公司 | 一种网络订餐智能监管方法 |
CN108830342A (zh) * | 2018-05-25 | 2018-11-16 | 赛飞特工程技术集团有限公司 | 基于区块链的危险化学品超范围超能力经营的监管方法 |
CN109710906A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市标准技术研究院 | 经营范围辅助填报方法、装置、终端设备及存储介质 |
CN109934596A (zh) * | 2019-01-23 | 2019-06-25 | 成都数之联科技有限公司 | 一种网络餐饮商家超范围经营判断方法 |
CN110032731A (zh) * | 2019-03-06 | 2019-07-19 | 平安国际智慧城市科技股份有限公司 | 企业经营范围判断方法、装置及计算机可读存储介质 |
CN110264379A (zh) * | 2019-06-18 | 2019-09-20 | 上海秒针网络科技有限公司 | 超范围经营的检查方法及装置 |
WO2022068297A1 (zh) * | 2020-09-30 | 2022-04-07 | 深圳前海微众银行股份有限公司 | 行业标签的确定方法、装置、设备及存储介质 |
WO2022116418A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 商标侵权的自动化判定方法、装置、电子设备和存储介质 |
CN113569048A (zh) * | 2021-07-31 | 2021-10-29 | 长春市万易科技有限公司 | 一种基于企业经营范围自动划分所属行业的方法及系统 |
CN115809887A (zh) * | 2022-12-09 | 2023-03-17 | 蔷薇大树科技有限公司 | 一种基于发票数据确定企业主要经营范围的方法和装置 |
Non-Patent Citations (1)
Title |
---|
韩雪;张业;朱聪慧;: "企业经营范围文本自动分类方法探究", 标准科学, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116579786B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852755B (zh) | 针对交易场景的用户身份识别方法和装置 | |
US20210117733A1 (en) | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium | |
CN116308762B (zh) | 一种基于人工智能的可信度评估及授信处理方法 | |
Amendola et al. | A model confidence set approach to the combination of multivariate volatility forecasts | |
CN110020593B (zh) | 信息处理方法及装置、介质及计算设备 | |
CN114255381B (zh) | 图像识别模型的训练方法、图像识别方法、装置及介质 | |
Vandewalle et al. | Clustering spatial functional data | |
CN106056577A (zh) | 基于mds‑srm混合级联的sar图像变化检测方法 | |
CN113780363B (zh) | 一种对抗样本防御方法、系统、计算机及介质 | |
CN116579786B (zh) | 一种应用于大数据分析的数据清洗方法与系统 | |
Falini et al. | Spline based Hermite quasi-interpolation for univariate time series | |
CN113407425A (zh) | 基于BiGAN与OTSU的内部用户行为检测方法 | |
CN115830351B (zh) | 图像处理方法、设备以及存储介质 | |
CN116361726A (zh) | 一种基于多维大数据分析的数据处理方法 | |
CN112200488B (zh) | 针对业务对象的风险识别模型训练方法及装置 | |
Dolatabadi et al. | COLLIDER: A robust training framework for backdoor data | |
Miwa et al. | Statistical Test for Anomaly Detections by Variational Auto-Encoders | |
Horvath et al. | Changepoint detection in random coefficient autoregressive models | |
Li et al. | A BYY scale-incremental EM algorithm for Gaussian mixture learning | |
CN113408579A (zh) | 一种基于用户画像的内部威胁预警方法 | |
CN107301564A (zh) | 基于聚类算法和回声状态网络的异常消费行为检测方法 | |
US20230297901A1 (en) | Entity relation strength identification using spatiotemporal data | |
CN114978616B (zh) | 风险评估系统的构建方法及装置、风险评估方法及装置 | |
Sug | Investigating better multi-layer perceptrons for the task of classification | |
Wang et al. | Robust variant target recognition based on structured sparse representation for radar HRRP data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |