CN113867785A - 一种数据筛选方法及相关装置 - Google Patents

一种数据筛选方法及相关装置 Download PDF

Info

Publication number
CN113867785A
CN113867785A CN202111163623.7A CN202111163623A CN113867785A CN 113867785 A CN113867785 A CN 113867785A CN 202111163623 A CN202111163623 A CN 202111163623A CN 113867785 A CN113867785 A CN 113867785A
Authority
CN
China
Prior art keywords
screening
data
code data
candidate
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111163623.7A
Other languages
English (en)
Inventor
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111163623.7A priority Critical patent/CN113867785A/zh
Publication of CN113867785A publication Critical patent/CN113867785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding
    • G06F8/751Code clone detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种代码数据筛选方法,包括:获取候选数据;根据筛选策略对候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。通过采用筛选策略对候选数据进行筛选,得到目标代码数据,且该筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合,而不仅仅是采用扩展名对候选数据进行筛选,避免因数据量过大导致的数据筛选错误的问题,提高数据筛选精度,提高数据筛选的效果。本申请还公开了一种代码数据筛选装置、服务器以及计算机可读存储介质,具有以上有益效果。

Description

一种数据筛选方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种代码数据筛选方法、代码数据筛选装置、服务器以及计算机可读存储介质。
背景技术
在数字资产管理中,需要提前挖掘代码泄露事件,并对受害主体进行告警。进一步,为了提高挖掘代码泄露事件的效率,需要对互联网中庞大的代码数据进行筛选,以便减少数据量,提高挖掘代码泄露的效率。
相关技术中,一般是通过扩展名的方式,对公开范围发布的代码数据进行筛查。但是,当要筛选数据针对的扩展名数量较多时,会产生过多的候选项目和误检问题,导致数据筛查的精度,降低数据筛查的效果。
因此,如何提高对代码数据进行筛选的效果是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种代码数据筛选方法、代码数据筛选装置、服务器以及计算机可读存储介质,以提高获取目标代码的效率,避免获取过多冗余的代码数据。
为解决上述技术问题,本申请提供一种代码数据筛选方法,包括:
获取候选数据;
根据筛选策略对所述候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
可选的,所述筛选策略包括数据类型筛选;
相应的,根据筛选策略对所述候选数据进行筛选,得到目标代码数据,包括:
根据数据类型特征对所述候选数据进行分类,得到代码数据和非代码数据;
将所述代码数据作为目标代码数据。
可选的,根据数据类型特征对所述候选数据进行分类,得到代码数据和非代码数据,包括:
采用数据分类模型对所述候选数据进行分类,得到所述代码数据和所述非代码数据;其中,所述数据分类模型为根据数据类型特征对应的训练数据进行训练得到的分类模型。
可选的,所述筛选策略包括归属地筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
获取所述候选数据中每个项目的归属地信息;
将所述候选数据中所述归属地信息属于目标归属地的项目对应的数据,作为所述目标代码数据。
可选的,获取所述候选数据中每个项目的归属地信息,包括:
对所述候选数据中每个项目进行作者地址识别和/或作者人种识别,得到作者归属地信息,并作为所述归属地信息。
可选的,所述筛选策略包括关键词筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
根据通用关键词和专有关键词对所述候选数据进行筛选,得到所述目标代码数据。
可选的,所述筛选策略包括项目信息筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
获取所述候选数据中每个项目的项目信息;
根据所述项目信息确定每个所述项目的关注度;
将所述候选数据中关注度小于预设值的项目对应的数据作为所述目标代码数据。
本申请还提供一种代码数据筛选装置,包括:
数据获取模块,用于获取候选数据;
数据筛选模块,用于根据筛选策略对所述候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的代码数据筛选方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的代码数据筛选方法的步骤。
本申请所提供的一种代码数据筛选方法,包括:获取候选数据;根据筛选策略对候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
通过采用筛选策略对候选数据进行筛选,得到目标代码数据,且该筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合,而不仅仅是采用扩展名对候选数据进行筛选,避免因数据量过大导致的数据筛选错误的问题,提高数据筛选精度,提高数据筛选的效果。
本申请还提供一种代码数据筛选装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的第一种代码数据筛选方法的流程图;
图2为本申请实施例所提供的第二种代码数据筛选方法的流程图;
图3为本申请实施例所提供的第三种代码数据筛选方法的流程图;
图4为本申请实施例所提供的第四种代码数据筛选方法的流程图;
图5为本申请实施例所提供的第五种代码数据筛选方法的流程图;
图6为本申请实施例所提供的一种代码数据筛选装置的结构示意图。
具体实施方式
本申请的核心是提供一种代码数据筛选方法、代码数据筛选装置、服务器以及计算机可读存储介质,以提高获取目标代码的效率,避免获取过多冗余的代码数据。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,一般是通过扩展名的方式,对公开范围发布的代码数据进行筛查。但是,当要筛选数据针对的扩展名数量较多时,会产生过多的候选项目和误检问题,导致数据筛查的精度,降低数据筛选的效果。
因此,本申请还提供一种代码数据筛选方法,通过采用筛选策略对候选数据进行筛选,得到目标代码数据,且该筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合,而不仅仅是采用扩展名对候选数据进行筛选,避免因数据量过大导致的数据筛选错误的问题,提高数据筛选精度,提高数据筛选的效果。
为了提高代码数据进行筛选的精度和效果,并且提高数据筛选的效率,避免仅仅采用扩展名的方式进行数据筛选。以下通过一个实施例,对本申请提供的一种代码数据筛选方法进行说明。
请参考图1,图1为本申请实施例所提供的第一种代码数据筛选方法的流程图。
本实施例中,该方法可以包括:
S101,获取候选数据;
也就是说,从公共代码数据库中进行代码数据泄露的筛选,得到有价值的候选数据。其中,公共代码数据库可以是代码托管网站数据库和/或代码缓存网站数据库。
S102,根据筛选策略对候选数据进行筛选,得到目标代码数据;其中,筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
可见,本实施例中主要是通过本步骤根据筛选策略对候选数据进行筛选,得到目标代码数据。并且,本实施例中的筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
其中,数据类型筛选是指通过候选数据的数据类型对候选数据进行筛选。例如,将候选数据分类为代码数据和非代码数据。其中,代码数据为筛选所需要的数据。
其中,归属地筛选是指通过候选数据中的项目的归属地对候选数据进行筛选。也就是说,获取到的候选数据中存在各个不同的归属地,将项目的归属地符合目标归属地的数据作为目标代码数据。
其中,关键词筛选是指根据候选数据中的关键词对候选数据进行筛选。其中,关键词可以是行业通用关键词,也可以是客户专业关键词。
其中,项目信息筛选是指根据候选数据中每个项目的项目信息对候选数据进行筛选。其中,项目信息可以是至该项目在公开发布网站中的信息。例如,项目关注度、项目评论数等。
本实施例中采用到的筛选策略至少包括上述各种筛选方式中的一种或多种的组合。可以是其中的一种,例如仅仅采用数据类型筛选或仅采用归属地筛选。也可以是采用所有的筛选方式进行筛选,包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选。
进一步的,当采用所有的筛选方式时,先进行关键词筛选,然后对上一步得到的数据进行数据类型筛选,再然后对上一步得到的数据进行项目信息筛选,最后对上一步得到的数据进行归属地筛选,得到最终的目标代码数据。
综上,本实施例通过采用筛选策略对候选数据进行筛选,得到目标代码数据,且该筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合,而不仅仅是采用扩展名对候选数据进行筛选,避免因数据量过大导致的数据筛选错误的问题,提高数据筛选精度,提高数据筛选的效果。
为了提高进行代码数据筛选的效率,避免因扩展名导致的数据漏筛等问题,提高数据筛选的效果。以下通过另一实施例,对本申请提供的一种代码数据筛选方法做进一步说明。
请参考图2,图2为本申请实施例所提供的第二种代码数据筛选方法的流程图。
本实施例中,筛选策略包括数据类型筛选,相应的该方法可以包括:
S201,根据数据类型特征对候选数据进行分类,得到代码数据和非代码数据;
S202,将代码数据作为目标代码数据。
可见,本可选方案中主要是对如何基于数据类型对候选数据进行筛选做说明。其中,数据类型可以是将获取到的候选数据分为代码数据和非代码数据。在实际的应用场景中该非代码数据可以包括词库数据。
主要是由于代码托管平台等代码公开的网站中,获取到的候选数据中每个项目存在各种不同数据类型的数据。例如,可以是代码数据,还可以是词库数据,也可以是其他类型的数据。其中,这些非代码数据的数据量较大,会严重影响后续对数据进行处理的效率。
因此,本可选方案中主要是通过数据类型对候选数据进行筛选,以便排除大量非代码数据的数据,减少候选数据的数据量。
并且,本实施例中只需要确定对应的数据类型即可进行筛选,且不需要通过大量不同的扩展名进行判断。同时依据数据类型对数据进行筛选,可以区分相同扩展名中的不同数据类型,避免了扩展名的方式无法进行筛选的问题,提高了数据筛选的效果。
进一步的,为了提高根据数据类型进行筛选的效果,提高筛选过程的效率,本实施例中的S201可以包括:
采用数据分类模型对候选数据进行分类,得到代码数据和非代码数据;其中,数据分类模型为根据数据类型特征对应的训练数据进行训练得到的分类模型。
可见,本可选方案中主要是采用分类模型对候选数据进行分类,而不是通过特定的数据类型特征进行分类,进一步的,提高数据类型分类的效率。此外,本可选方案中还可以根据每种数据类型对应的训练数据对该数据分类模型或初始分类模型进行训练,得到对应的分类模型。
其中,分类模型可以是采用机器学习分类模型。例如可以采用有监督分类器,包括但不限于逻辑回归、支持向量机等。
进一步的,为了提高数据筛选的效率,避免出现异常归属地的数据。以下通过另一实施例,对本申请提供的一种代码数据筛选方法做进一步说明。
请参考图3,图3为本申请实施例所提供的第三种代码数据筛选方法的流程图。
本实施例中,筛选策略包括归属地筛选,相应的该方法可以包括:
S301,获取候选数据中每个项目的归属地信息;
S302,将候选数据中归属地信息属于目标归属地的项目对应的数据,作为目标代码数据。
可见,本实施例中主要是通过归属地信息对项目进行筛选。在实际应用的情况下,需要筛选出的目标代码数据的归属地具有固定的范围。例如,仅仅需要归属地在亚洲的代码数据,或仅仅需要归属地在中国的代码数据。因此,就可以将候选数据中不属于该归属地的数据排除,以便通过归属地信息对候选数据进行筛选。
进一步的,为了获取到更加准确的归属地信息,提高归属地判断的准确性,该S301可以包括:
对候选数据中每个项目进行作者地址识别和/或作者人种识别,得到作者归属地信息,并作为归属地信息。
可见,本可选方案中主要是对每个项目进行作者地址识别和/或作者人种识别,确定到项目的作者归属地信息,并将该作者归属地信息作为进行判断的归属地信息。其中,作者地址识别可以是从项目相关信息或项目的数据中获取得到地址字段,将该地址字段识别为对应的作者归属地信息。其中,作者人种识别可以是采用人种识别模型,对项目作者的照片或头像进行识别,以便确定该项目作者的作者归属地信息。
并且,当作者地址识别得到的作者归属地信息与作者人种识别得到的作者归属地信息不相同时,将作者地址识别得到的作者归属地信息作为归属地信息。其中,作者人种识别可以采用人脸检测算法实现快速对图片中的人脸进行检测。然后,采用卷积神经网络确定该人脸的种族属性。
可见,本可选方案中通过人种信息对代码数据进行筛选,也就是利用了数据内容之外的,属性对该数据进行筛选,有效的筛除大量无关数据。
进一步的,为了提高数据筛选的效果。以下通过另一实施例,对本申请提供的一种代码数据筛选方法做进一步说明。
请参考图4,图4为本申请实施例所提供的第四种代码数据筛选方法的流程图。
本实施例中,筛选策略包括关键词筛选,相应的该方法可以包括:
S401,根据通用关键词和专有关键词对候选数据进行筛选,得到目标代码数据。
可见,本实施例中主要是对如何通过关键词进行筛选进行说明。本实施例中采用的关键词主要是通用关键词和专有关键词。其中,通用关键词可以是行业中的通用关键词,包括但不限于“水利”、“大学”和“医院”等中英文和拼音。其中,专有关键词可以是预设的专有关键词,如江苏银行“随e融”、“融联创”和“jsbank”等。其中,专有关键词可以根据实际的应用环境进行设定,以便适应特定的应用环境。
进一步的,还可以根据本实施例中的关键词通过爬虫从公开平台中爬取到对应的候选数据,然后再执行本申请中其他实施例执行的筛选方法。
可见,本可选方案中通过关键词对代码数据进行筛选,也就是利用了数据内容之外的,属性对该数据进行筛选,有效的筛除大量无关数据。
进一步的,为了提高代码数据筛选的效率,避免数据中加入高关注度的项目的数据。以下通过另一实施例,对本申请提供的一种代码数据筛选方法做进一步说明。
请参考图5,图5为本申请实施例所提供的第五种代码数据筛选方法的流程图。
本实施例中,筛选策略包括项目信息筛选,相应的该方法可以包括:
S501,获取候选数据中每个项目的项目信息;
S502,根据项目信息确定每个项目的关注度;
S503,将候选数据中关注度小于预设值的项目对应的数据作为目标代码数据。
可见,本实施例中主要是对如何通过项目信息对候选数据进行筛选做说明。本实施例中,首先获取到每个项目的项目信息,然后根据每个项目的项目确定每个项目的关注度。其中,获取到的项目信息可以是watch数量,star数量和fork数量。一般来说,在候选数据中存在目标代码数据的关注度较低,更容易存在对应的目标代码数据。其中,该目标代码数据就是更容易存在代码泄露的威胁的代码数据。其中,可以通过获取到的watch数量,star数量和fork数量加权计算得到该关注度。
可见,本可选方案中通过关注度对代码数据进行筛选,也就是利用了数据内容之外的,属性对该数据进行筛选,有效的筛除大量无关数据。
进一步的,为了提高代码数据筛选的效率和效果,从候选数据中筛选出冗余数据更少的目标代码数据。以下通过另一实施例,对本申请提供的一种代码数据筛选方法做进一步说明。
本实施例中,筛选策略包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选。
该方法可以包括:
步骤1,根据关键词通过爬虫对代码托管网站进行数据抓取,得到候选数据。
主要是由于代码托管网站(例如:Github)每天均会上传数以万计的新项目,需要从中筛选出包含关键字的项目源代码,以便降低抓取的候选数据的数据量。基于此,依据数据的分级分类原则,本实施例中可以采用两种类型的关键词,以便借助网络爬虫实现新增项目筛选。两类关键词分别定义为:行业通用关键词和客户专有关键词。其中,行业通用关键词例如“水利”、“大学”和“医院”等中英文和拼音,旨在抓取通用行业中所有单位的数据泄露事件。客户专有关键词则如江苏银行“随e融”、“融联创”和“jsbank”等,目的是针对特定客户定制的关键词。通过上述两类关键词和爬虫技术,可以每天定时从代码托管网站上检索项目,从中找出包含上述关键词的文件。此外,通过爬虫得到的候选数据将会与数据库中已有的历史记录相匹配。若历史记录中不存在候选数据中的项目,则说明该项目未被处理过,因此该项目对应的数据将用于后续的算法处理;否则,该数据被丢弃。
步骤2,根据分类模型对候选数据进行分类,得到代码数据和词库数据。
上一步骤中,通过爬虫检索到的部分文件并不属于代码数据,仅是命中了词库数据中的关键词,该词库数据以及对应的项目属于代码泄露情况的可能性很低。并且,词库数据和代码数据通常在中英文的分布模式上存在区别,即代码数据中包含大量的英文词汇,仅在文件开头才可能存在少量的中文注释。相反地,词库数据在任意位置均可能包含大量中文。因此,基于不同数据类型之间的数据分布特征,可以通过机器学习模型进行区分。
本实施例可以采用代码数据分类模型,通过机器学习方法实现对爬虫检索到的候选数据进行分类,筛选出其中潜在的代码数据。该模型分为训练集构建、特征提取和分类器设计三个模块,其中训练集模块通过从Github网站中搜集对应的正负样本集合,同时保证正负样本比例为1:1左右;特征提取模块对于给定文件,首先将其内容依据字符个数等比例划分为N份,然后分别统计其中每一份里英文字符的比例,形成N维特征;分类器模块则采用传统的有监督分类器,如逻辑回归、支持向量机等。
采用该代码数据分类模型,候选数据将被判定是否属于代码数据。若属于代码数据,则其所属项目将被用于后续的处理;否则,该数据将被丢弃。通过上述的代码数据分类模型,本实施例可以搜索到包含候选关键词的疑似代码泄露项目,也就是目标代码数据。
步骤3,根据代码数据中每个项目的项目信息进行关注度分类,低关注度代码数据。
在实际应用中发现,发生代码泄露的Github项目往往具有较低的关注度,即项目的watch,star和fork数量均较少。基于上述原因,本实施例可以判断候选数据的star,fork和watch数量任意一个超过阈值T时,则认定该项目并不存在代码泄露,由此丢弃该项目的数据;当候选数据中项目信息的三项数值均小于阈值T,则项目将被认定为潜在的代码泄露项目,该项目对应的数据可以为目标代码数据。进一步的,为了再进行筛选可以将获取到低关注度代码数据输入至下一步骤进行归属地筛选。
步骤4,对低关注度代码数据进行归属地筛选,得到目标代码数据。其中,归属地筛选包括项目作者地址识别和项目作者头像人种识别。
其中,项目作者地址识别可作为一种快速筛选方式,以降低后续流程需要处理的项目数量。具体地,当项目作者并非位于中国境内时,则选择丢弃项目;否则,该项目将被作为潜在的代码资产泄露项目,供后续处理。
其中,项目作者头像人种识别类似于项目作者地址识别,项目作者的头像信息同样可作为快速筛选的一个标准。基于上述原因,本实施例中采用人脸检测和人种识别算法,以测试项目作者中是否包含人脸,以及该人脸是否属于东亚人种进行筛选。
由于项目头像通常图像内容简单,仅包含较小的环境噪声。因此,在综合考虑效率和性能的基础上,本实施例采Adaboost人脸检测算法,实现项目头像中快速的人脸检测。接着,再使用一种基于卷积神经网络的人种识别方法,以确定人脸的种族属性。具体地,算法的训练集通过Github网站和UTKFace数据集搜集,共包含了三类人种数据:东亚人种、欧美人种和非洲人种,同时保证样本比例接近1:1:1;在CNN结构上,本发明采用MobileNet V3结构,以实现人脸图像种族的快速识别。
基于上述的人脸检测和人种识别算法,当判断项目头像包含人脸,同时该人脸并非东亚人种时,则选择丢弃该项目的数据;否则,该项目将作为潜在的代码资产泄露项目,供后续处理。
可见,本可选方案中为检测Github网站存在的代码资产泄露事件,本发明提出了一种基于AI的Github网站代码泄露项目快速筛选方法。该发明能从Github网站每日新增的海量代码中,快速过滤可能存在资产泄露的候选项目,为后续的项目详细分析提供数据。相比于业内其他方法仅通过关键字搜索的项目中存在大量误检的问题,本发明借助了多项AI技术,能够准确地从新增项目中过滤出存在代码资产泄露的项目,提高了后续项目分析的效率。
下面对本申请实施例提供的代码数据筛选装置进行介绍,下文描述的代码数据筛选装置与上文描述的代码数据筛选方法可相互对应参照。
请参考图6,图6为本申请实施例所提供的一种代码数据筛选装置的结构示意图。
本实施例中,该装置可以包括:
数据获取模块100,用于获取候选数据;
数据筛选模块200,用于根据筛选策略对候选数据进行筛选,得到目标代码数据;其中,筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
可选的,该数据筛选模块200,可以用于根据数据类型特征对候选数据进行分类,得到代码数据和非代码数据;将代码数据作为目标代码数据。
可选的,该数据筛选模块200,可以用于获取候选数据中每个项目的归属地信息;将候选数据中归属地信息属于目标归属地的项目对应的数据,作为目标代码数据。
可选的,该数据筛选模块200,可以用于对候选数据中每个项目进行作者地址识别和/或作者人种识别,得到作者归属地信息,并作为归属地信息。
可选的,该数据筛选模块200,可以用于根据通用关键词和专有关键词对候选数据进行筛选,得到目标代码数据。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的代码数据筛选方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的代码数据筛选方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种代码数据筛选方法、代码数据筛选装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种代码数据筛选方法,其特征在于,包括:
获取候选数据;
根据筛选策略对所述候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
2.根据权利要求1所述的代码数据筛选方法,其特征在于,所述筛选策略包括数据类型筛选;
相应的,根据筛选策略对所述候选数据进行筛选,得到目标代码数据,包括:
根据数据类型特征对所述候选数据进行分类,得到代码数据和非代码数据;
将所述代码数据作为目标代码数据。
3.根据权利要求3所述的代码数据筛选方法,其特征在于,根据数据类型特征对所述候选数据进行分类,得到代码数据和非代码数据,包括:
采用数据分类模型对所述候选数据进行分类,得到所述代码数据和所述非代码数据;其中,所述数据分类模型为根据数据类型特征对应的训练数据进行训练得到的分类模型。
4.根据权利要求1至3任一项所述的代码数据筛选方法,其特征在于,所述筛选策略包括归属地筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
获取所述候选数据中每个项目的归属地信息;
将所述候选数据中所述归属地信息属于目标归属地的项目对应的数据,作为所述目标代码数据。
5.根据权利要求4所述的代码数据筛选方法,其特征在于,获取所述候选数据中每个项目的归属地信息,包括:
对所述候选数据中每个项目进行作者地址识别和/或作者人种识别,得到作者归属地信息,并作为所述归属地信息。
6.根据权利要求5所述的代码数据筛选方法,其特征在于,所述筛选策略包括关键词筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
根据通用关键词和专有关键词对所述候选数据进行筛选,得到所述目标代码数据。
7.根据权利要求5所述的代码数据筛选方法,其特征在于,所述筛选策略包括项目信息筛选;
相应的,根据筛选策略对候选数据进行筛选,得到目标代码数据,包括:
获取所述候选数据中每个项目的项目信息;
根据所述项目信息确定每个所述项目的关注度;
将所述候选数据中关注度小于预设值的项目对应的数据作为所述目标代码数据。
8.一种代码数据筛选装置,其特征在于,包括:
数据获取模块,用于获取候选数据;
数据筛选模块,用于根据筛选策略对所述候选数据进行筛选,得到目标代码数据;其中,所述筛选策略至少包括数据类型筛选、归属地筛选、关键词筛选以及项目信息筛选中的一种或多种的组合。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的代码数据筛选方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的代码数据筛选方法的步骤。
CN202111163623.7A 2021-09-30 2021-09-30 一种数据筛选方法及相关装置 Pending CN113867785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111163623.7A CN113867785A (zh) 2021-09-30 2021-09-30 一种数据筛选方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111163623.7A CN113867785A (zh) 2021-09-30 2021-09-30 一种数据筛选方法及相关装置

Publications (1)

Publication Number Publication Date
CN113867785A true CN113867785A (zh) 2021-12-31

Family

ID=79001321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111163623.7A Pending CN113867785A (zh) 2021-09-30 2021-09-30 一种数据筛选方法及相关装置

Country Status (1)

Country Link
CN (1) CN113867785A (zh)

Similar Documents

Publication Publication Date Title
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
US9552511B2 (en) Identifying images using face recognition
CN110245132B (zh) 数据异常检测方法、装置、计算机可读存储介质和计算机设备
AU2013329525B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US10789225B2 (en) Column weight calculation for data deduplication
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN111612610A (zh) 风险预警方法及系统、电子设备及存储介质
CN113963303A (zh) 图像处理方法、视频识别方法、装置、设备及存储介质
US20220229854A1 (en) Constructing ground truth when classifying data
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN115631494A (zh) 财务数据处理方法、系统、电子设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN113867785A (zh) 一种数据筛选方法及相关装置
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
US11210605B1 (en) Dataset suitability check for machine learning
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
CN111783786A (zh) 图片的识别方法、系统、电子设备及存储介质
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
US20230297620A1 (en) Information search apparatus, information search method, and computer-readable recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination