CN116579786B - 一种应用于大数据分析的数据清洗方法与系统 - Google Patents

一种应用于大数据分析的数据清洗方法与系统 Download PDF

Info

Publication number
CN116579786B
CN116579786B CN202310499929.2A CN202310499929A CN116579786B CN 116579786 B CN116579786 B CN 116579786B CN 202310499929 A CN202310499929 A CN 202310499929A CN 116579786 B CN116579786 B CN 116579786B
Authority
CN
China
Prior art keywords
range
commodity
main body
target
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310499929.2A
Other languages
English (en)
Other versions
CN116579786A (zh
Inventor
崔永庆
何盛东
张秀伟
沈晨
房静
方瑜
王立江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantuo Technology Hangzhou Co ltd
Original Assignee
Quantuo Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantuo Technology Hangzhou Co ltd filed Critical Quantuo Technology Hangzhou Co ltd
Priority to CN202310499929.2A priority Critical patent/CN116579786B/zh
Publication of CN116579786A publication Critical patent/CN116579786A/zh
Application granted granted Critical
Publication of CN116579786B publication Critical patent/CN116579786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种应用于大数据分析的数据清洗方法与系统,属于数据处理技术领域,具体包括:基于目标经营主体的经营范围与商品名称的匹配度对商品名称进行清洗得到清洗后的商品名称;利用目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及目标经营主体的经营范围确定目标经营主体的超范围经营风险值,并基于超范围经营风险值确定存在超范围经营风险时,将包含疑似超范围商品名称的经营主体作为类似经营主体,并基于类似经营主体的经营范围和目标经营主体的经营范围确定目标经营主体是否超范围经营,从而实现了对超范围经营的判断的效率。

Description

一种应用于大数据分析的数据清洗方法与系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种应用于大数据分析的数据清洗方法与系统。
背景技术
为了实现对企业经营范围的确定,在授权发明专利CN110032731B《企业经营范围判断方法、装置及计算机可读存储介质》通过获取非目标经营主体所经营商品的商品名称集合;并根据商品名称集合中存在商品名称词库中的商品名称,确定非目标经营主体所经营的商品超过经营范围,但是却存在以下技术问题:
忽视了对于不在商品名称词库的商品名称的二次识别,由于商品名称的迭代速度较快,种类繁多,因此若不能对商品名称进行二次识别,则同样无法准确实现对非目标经营主体的商品的经营范围的确定。
针对上述技术问题,本发明提供了一种应用于大数据分析的数据清洗方法与系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种应用于大数据分析的数据清洗方法。
一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
S11获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
S12利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入步骤S13;
S13基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
S14将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营。
通过基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,从而实现了从目标经营主体的经营范围的角度对商品名称的清洗,不仅进一步提升了超范围经营的判断的效率,同时也提升了判断的精度。
通过利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,从而实现了从多角度对目标经营主体的超范围经营风险的判断,不仅保证了判断的精度,同时也实现了对目标经营主体的超范围经营风险的全面评估,这也为进一步减少了超范围经营判断的数量奠定了基础。
通过基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称,从而实现了从参考经营主体的角度实现了对疑似超范围商品名称的再次提取,从而进一步减少了超范围评估的数量,提升了判断的效率。
通过基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营,从而实现了从类似经营主体的角度对超范围经营的确定,不仅仅考虑到单一的参考经营主体,同时也考虑考经营范围的影响,从而实现了从更加全面的角度对超范围经营的判断。
进一步的技术方案在于,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
进一步的技术方案在于,基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称。
进一步的技术方案在于,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
进一步的技术方案在于,所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中。
另一方面,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种应用于大数据分析的数据清洗方法。
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种应用于大数据分析的数据清洗方法。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种应用于大数据分析的数据清洗方法的流程图;
图2是根据实施例1的超范围评估值构建的具体步骤的流程图;
图3是根据实施例2的一种计算机系统的框架图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
S11获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
需要说明的是,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
具体的举例说明,基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称。
需要另外说明的是,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
通过基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,从而实现了从目标经营主体的经营范围的角度对商品名称的清洗,不仅进一步提升了超范围经营的判断的效率,同时也提升了判断的精度。
S12利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入步骤S13;
具体的举例说明,所述超范围经营风险值确定的具体步骤为:
S21获取所述目标经营主体的清洗后的商品名称的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S22;
S22获取所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度构建修正匹配度,并基于所述修正匹配度的最小值确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S23;
S23基于所述目标经营主体的清洗后的商品名称的修正匹配度小于设定修正量的数量确定所述目标经营主体是否存在超范围经营风险,若是,则进入步骤S24,若否,则进入步骤S25;
S24基于所述目标经营主体的经营范围的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S25;
S25至少基于所述目标经营主体的清洗后的商品名称的数量、修正匹配度、清洗后的商品名称的修正匹配度小于设定修正量的数量、目标经营主体的经营范围的数量确定所述目标经营主体的超范围经营风险值。
需要进一步说明的是,所述修正匹配度根据所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度进行确定,具体的基于所匹配的备选经营范围的匹配度基于层次分析法的数学模型进行确定,其中所述所匹配的备选经营范围的匹配度的权值根据所述目标经营主体的经营范围的数量和清洗后的商品名称所匹配的备选经营范围的数量进行确定。
在本实施例中,通过利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,从而实现了从多角度对目标经营主体的超范围经营风险的判断,不仅保证了判断的精度,同时也实现了对目标经营主体的超范围经营风险的全面评估,这也为进一步减少了超范围经营判断的数量奠定了基础。
S13基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
具体的,所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中。
具体的举例说明,如图2所示,所述超范围评估值构建的具体步骤为:
S31获取包含所述清洗后的商品名称的参考经营主体并将其作为备选参考经营主体,并基于所述备选参考经营主体的数量确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S32;
S32基于所述备选参考经营主体的相同的经营范围对所述参考经营主体进行二次筛选得到筛选参考经营主体,并基于所述参考经营主体在所述筛选参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S33;
S33获取所述清洗后的商品名称所匹配的经营范围对所述参考经营主体进行筛选得到清洗参考经营主体,并基于所述备选参考经营主体在所述清洗参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入步骤S34;
S34基于所述备选参考经营主体的数量、所述参考经营主体在所述筛选参考经营主体的比例、备选参考经营主体在所述清洗参考经营主体的比例得到所述清洗后的商品名称的超范围评估值。
需要说明的是,所述超范围评估值采用基于GRU算法的评估模型不进行确定,此外对于GRU算法的部分参数是需要人为预先设定的,这部分参数统称为超参数。神经网络超参数对结构和性能有重要影响,超参数合理设置能够有效减少神经网络的迭代次数,提高收敛速度、拟合精度和泛化能力,因此为了提升GRU算法的泛化能力,本发明采用GWO算法对其学习率、学习率衰减率等超参数进行寻优。
由于传统的GWO算法在算法的迭代后期控制因子是成线性衰减的,从而使得算法容易陷入局部最优,因此为了提升全局的搜索能力,提出了一种非线性控制因子,其中所述非线性控制因子的计算公式为:
其中t为当前迭代次数,tmax为最大迭代次数,rand(0,1)为在0到1之间的随机数。
可以理解的是,所述清洗参考经营主体为包含所述清洗后的商品名称所匹配的经营范围的参考经营主体,所述筛选参考经营主体为包含备选参考经营主体的相同的经营范围的参考经营主体。
通过基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称,从而实现了从参考经营主体的角度实现了对疑似超范围商品名称的再次提取,从而进一步减少了超范围评估的数量,提升了判断的效率。
S14将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营。
具体的,确定所述目标经营主体是否超范围经营的具体步骤为:
S41基于所述疑似超范围商品名称进行特征值的提取得到商品特征字符,并对所述商品特征字符进行扩展得到所述疑似超范围商品名称的扩展特征字符;
S42基于所述扩展特征字符进行相似商品的筛选,并将具有该相似商品的经营主体作为类似经营主体,并基于所述相似商品与所述扩展特征字符的匹配情况得到所述类似经营主体的经营匹配度;
S43判断所述类似经营主体的经营范围是否都在所述目标经营主体的经营范围中,若是,则将所述类似经营主体的范围匹配度设置为1,若否,则基于所述类似经营主体的经营范围在所述目标经营主体的经营范围中的数量与所述类似经营主体的经营范围的比值作为范围匹配度;
S44基于所述类似经营主体的范围匹配度和所述经营匹配度的乘积作为所述类似经营主体的匹配度,并基于所述类似经营主体的匹配度大于预设匹配度的数量、类似经营主体的数量、类似经营主体的匹配度小于设定匹配度的数量确定所述目标经营主体是否超范围经营。
需要说明的是,所述设定匹配度小于预设匹配度。
在本实施例中,通过基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营,从而实现了从类似经营主体的角度对超范围经营的确定,不仅仅考虑到单一的参考经营主体,同时也考虑考经营范围的影响,从而实现了从更加全面的角度对超范围经营的判断。
实施例2
另一方面,如图3所示,本申请实施例中提供一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种应用于大数据分析的数据清洗方法。
实施例3
另一方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种应用于大数据分析的数据清洗方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (6)

1.一种应用于大数据分析的数据清洗方法,其特征在于,具体包括:
获取目标经营主体的商品名称,经营范围,并基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称;
基于所述经营范围与所述商品名称的匹配度对所述商品名称进行清洗得到清洗后的商品名称,具体包括:
基于所述商品名称进行特征值的提取确定所述商品的类型,基于所述商品的类型,基于分类模型,确定所述商品所对应的经营范围;
基于所述目标经营主体的经营范围对所述商品所对应的经营范围进行二次筛选,得到备选经营范围;
基于所述备选经营范围和所述商品的类型,基于预测模型确定所述商品属于所述备选经营范围的概率,并将所述商品属于所述备选经营范围的概率作为所述商品名称与所述备选经营范围的匹配度,并基于所述匹配度对所述商品名称进行清洗得到清洗后的商品名称;
利用所述目标经营主体的清洗后的商品名称的数量、清洗后的商品名称的匹配度以及所述目标经营主体的经营范围确定所述目标经营主体的超范围经营风险值,并基于所述超范围经营风险值确定存在超范围经营风险时,进入下一步骤;
所述超范围经营风险值确定的具体步骤为:
S21获取所述目标经营主体的清洗后的商品名称的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S22;
S22获取所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度构建修正匹配度,并基于所述修正匹配度的最小值确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S23;
S23基于所述目标经营主体的清洗后的商品名称的修正匹配度小于设定修正量的数量确定所述目标经营主体是否存在超范围经营风险,若是,则进入步骤S24,若否,则进入步骤S25;
S24基于所述目标经营主体的经营范围的数量确定所述目标经营主体是否存在超范围经营风险,若是,则确定存在超范围经营风险,若否,则进入步骤S25;
S25至少基于所述目标经营主体的清洗后的商品名称的数量、修正匹配度、清洗后的商品名称的修正匹配度小于设定修正量的数量、目标经营主体的经营范围的数量确定所述目标经营主体的超范围经营风险值;
基于目标经营主体的经营范围进行参考经营主体的确定,并基于包含所述清洗后的商品名称的参考经营主体的数量、经营范围、在所有的参考经营主体的比例得到所述清洗后的商品名称的超范围评估值,并基于所述超范围评估值对所述清洗后的商品名称进行二次清洗得到疑似超范围商品名称;
所述超范围评估值构建的具体步骤为:
获取包含所述清洗后的商品名称的参考经营主体并将其作为备选参考经营主体,并基于所述备选参考经营主体的数量确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
基于所述备选参考经营主体的相同的经营范围对所述参考经营主体进行二次筛选得到筛选参考经营主体,并基于所述筛选参考经营主体在所述参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
获取所述清洗后的商品名称所匹配的经营范围对所述参考经营主体进行筛选得到清洗参考经营主体,并基于所述清洗参考经营主体在所述备选参考经营主体的比例确定所述清洗后的商品名称是否为疑似超范围商品名称,若是,则将所述清洗后的商品名称作为疑似超范围商品名称,若否,则进入下一步骤;
基于所述备选参考经营主体的数量、所述参考经营主体在所述筛选参考经营主体的比例、备选参考经营主体在所述清洗参考经营主体的比例得到所述清洗后的商品名称的超范围评估值;
所述参考经营主体的经营范围必须在所述目标经营主体的经营范围中;
将包含所述疑似超范围商品名称的经营主体作为类似经营主体,并基于所述类似经营主体的经营范围和所述目标经营主体的经营范围确定所述目标经营主体是否超范围经营;
确定所述目标经营主体是否超范围经营的具体步骤为:
S41基于所述疑似超范围商品名称进行特征值的提取得到商品特征字符,并对所述商品特征字符进行扩展得到所述疑似超范围商品名称的扩展特征字符;
S42基于所述扩展特征字符进行相似商品的筛选,并将具有该相似商品的经营主体作为类似经营主体,并基于所述相似商品与所述扩展特征字符的匹配情况得到所述类似经营主体的经营匹配度;
S43判断所述类似经营主体的经营范围是否都在所述目标经营主体的经营范围中,若是,则将所述类似经营主体的范围匹配度设置为1,若否,则基于所述类似经营主体的经营范围在所述目标经营主体的经营范围中的数量与所述类似经营主体的经营范围的比值作为范围匹配度;
S44基于所述类似经营主体的范围匹配度和所述经营匹配度的乘积作为所述类似经营主体的匹配度,并基于所述类似经营主体的匹配度大于预设匹配度的数量、类似经营主体的数量、类似经营主体的匹配度小于设定匹配度的数量确定所述目标经营主体是否超范围经营。
2.如权利要求1所述的数据清洗方法,其特征在于,所述目标经营主体的经营范围根据所述目标经营主体的营业执照的注册的经营范围进行确定。
3.如权利要求1所述的数据清洗方法,其特征在于,当所述匹配度小于设定值时,则确定所述商品名称为清洗后的商品名称。
4.如权利要求1所述的数据清洗方法,其特征在于,所述修正匹配度根据所述目标经营主体的清洗后的商品名称所匹配的备选经营范围的数量以及所匹配的备选经营范围的匹配度进行确定,具体的基于所匹配的备选经营范围的匹配度基于层次分析法的数学模型进行确定,其中所述所匹配的备选经营范围的匹配度的权值根据所述目标经营主体的经营范围的数量和清洗后的商品名称所匹配的备选经营范围的数量进行确定。
5.一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行权利要求1-4任一项所述的一种应用于大数据分析的数据清洗方法。
6.一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-4任一项所述的一种应用于大数据分析的数据清洗方法。
CN202310499929.2A 2023-05-06 2023-05-06 一种应用于大数据分析的数据清洗方法与系统 Active CN116579786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310499929.2A CN116579786B (zh) 2023-05-06 2023-05-06 一种应用于大数据分析的数据清洗方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310499929.2A CN116579786B (zh) 2023-05-06 2023-05-06 一种应用于大数据分析的数据清洗方法与系统

Publications (2)

Publication Number Publication Date
CN116579786A CN116579786A (zh) 2023-08-11
CN116579786B true CN116579786B (zh) 2023-11-14

Family

ID=87540578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310499929.2A Active CN116579786B (zh) 2023-05-06 2023-05-06 一种应用于大数据分析的数据清洗方法与系统

Country Status (1)

Country Link
CN (1) CN116579786B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717636A (zh) * 2018-03-19 2018-10-30 杭州祐全科技发展有限公司 一种网络订餐智能监管方法
CN108830342A (zh) * 2018-05-25 2018-11-16 赛飞特工程技术集团有限公司 基于区块链的危险化学品超范围超能力经营的监管方法
CN109710906A (zh) * 2018-12-06 2019-05-03 深圳市标准技术研究院 经营范围辅助填报方法、装置、终端设备及存储介质
CN109934596A (zh) * 2019-01-23 2019-06-25 成都数之联科技有限公司 一种网络餐饮商家超范围经营判断方法
CN110032731A (zh) * 2019-03-06 2019-07-19 平安国际智慧城市科技股份有限公司 企业经营范围判断方法、装置及计算机可读存储介质
CN110264379A (zh) * 2019-06-18 2019-09-20 上海秒针网络科技有限公司 超范围经营的检查方法及装置
CN113569048A (zh) * 2021-07-31 2021-10-29 长春市万易科技有限公司 一种基于企业经营范围自动划分所属行业的方法及系统
WO2022068297A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
WO2022116418A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN115809887A (zh) * 2022-12-09 2023-03-17 蔷薇大树科技有限公司 一种基于发票数据确定企业主要经营范围的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717636A (zh) * 2018-03-19 2018-10-30 杭州祐全科技发展有限公司 一种网络订餐智能监管方法
CN108830342A (zh) * 2018-05-25 2018-11-16 赛飞特工程技术集团有限公司 基于区块链的危险化学品超范围超能力经营的监管方法
CN109710906A (zh) * 2018-12-06 2019-05-03 深圳市标准技术研究院 经营范围辅助填报方法、装置、终端设备及存储介质
CN109934596A (zh) * 2019-01-23 2019-06-25 成都数之联科技有限公司 一种网络餐饮商家超范围经营判断方法
CN110032731A (zh) * 2019-03-06 2019-07-19 平安国际智慧城市科技股份有限公司 企业经营范围判断方法、装置及计算机可读存储介质
CN110264379A (zh) * 2019-06-18 2019-09-20 上海秒针网络科技有限公司 超范围经营的检查方法及装置
WO2022068297A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
WO2022116418A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN113569048A (zh) * 2021-07-31 2021-10-29 长春市万易科技有限公司 一种基于企业经营范围自动划分所属行业的方法及系统
CN115809887A (zh) * 2022-12-09 2023-03-17 蔷薇大树科技有限公司 一种基于发票数据确定企业主要经营范围的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
企业经营范围文本自动分类方法探究;韩雪;张业;朱聪慧;;标准科学(第01期);全文 *

Also Published As

Publication number Publication date
CN116579786A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110852755B (zh) 针对交易场景的用户身份识别方法和装置
US20070206865A1 (en) Block-based Gaussian Mixture Model video motion detection
CN116308762B (zh) 一种基于人工智能的可信度评估及授信处理方法
Amendola et al. A model confidence set approach to the combination of multivariate volatility forecasts
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
Vandewalle et al. Clustering spatial functional data
CN113807452B (zh) 一种基于注意力机制的业务过程异常检测方法
CN116579786B (zh) 一种应用于大数据分析的数据清洗方法与系统
CN115830351B (zh) 图像处理方法、设备以及存储介质
Falini et al. Spline based Hermite quasi-interpolation for univariate time series
CN116361726A (zh) 一种基于多维大数据分析的数据处理方法
CN113407425B (zh) 基于BiGAN与OTSU的内部用户行为检测方法
Fan et al. Mining extremely skewed trading anomalies
CN112200488B (zh) 针对业务对象的风险识别模型训练方法及装置
Boutahar et al. A simple fractionally integrated model with a time-varying long memory parameter dt
CN112308294B (zh) 违约概率预测方法及装置
Horvath et al. Changepoint detection in random coefficient autoregressive models
Li et al. A BYY scale-incremental EM algorithm for Gaussian mixture learning
Miwa et al. Statistical Test for Anomaly Detections by Variational Auto-Encoders
Polupanov et al. Improving the neural network mathematical model of corporate bankruptcy
US20230297901A1 (en) Entity relation strength identification using spatiotemporal data
CN114978616B (zh) 风险评估系统的构建方法及装置、风险评估方法及装置
Wang et al. Robust variant target recognition based on structured sparse representation for radar HRRP data
Chitraa et al. Clustering of navigation patterns using Bolzwano_Weierstrass theorem
CN117726362A (zh) 预测营业收入增长率上下限的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant