CN116303406A - 废旧物数据的清洗方法、装置、电子设备及存储介质 - Google Patents
废旧物数据的清洗方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116303406A CN116303406A CN202310545301.1A CN202310545301A CN116303406A CN 116303406 A CN116303406 A CN 116303406A CN 202310545301 A CN202310545301 A CN 202310545301A CN 116303406 A CN116303406 A CN 116303406A
- Authority
- CN
- China
- Prior art keywords
- data
- junk data
- junk
- standard
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000002699 waste material Substances 0.000 claims description 116
- 238000012216 screening Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 20
- 239000000463 material Substances 0.000 claims description 12
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 16
- 229910000831 Steel Inorganic materials 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 239000010959 steel Substances 0.000 description 13
- 239000013598 vector Substances 0.000 description 9
- 229910052742 iron Inorganic materials 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004064 recycling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 235000013361 beverage Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000010819 recyclable waste Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W90/00—Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种废旧物数据的清洗方法、装置、电子设备及存储介质。该方法包括:获取多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度;其中,每个标准废旧物数据为对应的标准清洗规则对废旧物样本数据进行清洗得到;对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。本申请能够废旧物数据的清洗效率。
Description
技术领域
本申请涉及废旧物数据清洗技术领域,尤其涉及一种废旧物数据的清洗方法、装置、电子设备及存储介质。
背景技术
在网络信息化的今天,通过线上交易可以加快废旧物处理的公平化、合理化,缩短废旧物品处置的周期,促进废旧物的流通效率。其中,废旧物可以包括快递纸箱、旧衣物、饮料瓶、废钢筋、废铁等。
废旧物数据大多由用户上传或者由专业人员现场采集上传,存在录入失败、数值缺失、数据重复的可能,需要对废旧物数据进行数据清洗,以纠正废旧物数据中的错误。
现有大多使用标准的清洗规则直接对废旧物数据进行清洗,然而,由于废旧物数据种类繁多,直接使用标准的清洗规则进行清洗,无法保证废旧物数据的清洗准确性,影响后续废旧物线上交易的可靠性。
发明内容
本申请提供了一种废旧物数据的清洗方法、装置、电子设备及存储介质,以解决现有大多使用标准的清洗规则直接对废旧物数据进行清洗,无法保证废旧物数据的清洗准确性的问题。
第一方面,本申请提供了一种废旧物数据的清洗方法,包括:
获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;
获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;
根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:
计算每个废旧物数据与其他废旧物数据之间的第一相似度;
根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
在一种可能的实现方式中,计算每个废旧物数据与其他废旧物数据之间的第一相似度,包括:
将各个废旧物数据向量化;
计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将相似度作为第一相似度。
在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:
对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。
在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,可以包括:
对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;
若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;
具体的,匹配度计算公式包括第一公式和第二公式,
第一公式包括:
表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,/>表示第f类废旧物数据集的特征系数,/>表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一相似度,/>表示第f类废旧物数据集与第n个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n个标准废旧物数据之间的匹配度越高;
第二公式包括:
n 0表示与第f类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,表示第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度,/>表示第f类废旧物数据集与第n 0个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n 0个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度越高。
在一种可能的实现方式中,该方法还包括:
统计所有混合清洗规则中各个清洗规则的使用频率;
筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。
在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:
使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。
第二方面,本申请提供了一种废旧物数据的清洗装置,包括:
第一数据获取模块,用于获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;
第二数据获取模块,用于获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
第一计算模块,用于确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;
数据清洗模块,用于根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
第三方面,本申请提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。
本申请提供一种废旧物数据的清洗方法、装置、电子设备及存储介质,通过获取多个废旧物数据,并对多个废旧物数据进行分类,得到多类废旧物数据集;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度;对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。相较于采用标准的清洗规则对废旧物数据进行统一清洗,本申请实施例通过为废旧物数据匹配合适的数据清洗规则,提高了废旧物数据的数据清洗效率和清洗准确性,进而提高了废旧物线上交易的可靠性,提高废旧物资源循环利用的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的废旧物数据的清洗方法的实现流程图;
图2是本申请实施例提供的废旧物数据的清洗装置的结构示意图;
图3是本申请实施例提供的电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
随着社会经济的不断增长,人们的生活水平不断提高,产生的可循环利用的废旧物不断增多。例如快递纸箱、旧衣物、饮料瓶等。此外,随着企业的不断优化升级,产生的废钢筋、报废电缆、废铁等不断增多。以上废旧物均可回收再利用。
随着线上交易平台的普及,线上交易一方面可以减少买家用户的查询等待周期,另一方面也可以为卖家企业创造经济效益。同时,还可以加快废旧物资源的循环利用,减少资源浪费。
由于废旧物数据的特殊性,用户上传或者平台采集数据时存在录入失败、数值缺失、数据重复的可能,因此需要对废旧物数据进行数据清洗,便于后续进一步处理。
而当前大多采用标准的清洗规则进行清洗,无法精准匹配废旧物数据,存在清洗不全面的问题,影响废旧物数据清洗的准确性。因此,本申请实施例提供一种废旧物数据的清洗方法,以提高废旧物数据的数据清洗可靠性,下面进行具体说明。
参见图1,其示出了本申请实施例提供的废旧物数据的清洗方法的实现流程图。如图1所示,一种废旧物数据的清洗方法,可以包括S101至S104。
S101,获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集。
本申请实施例的执行主体为线上交易平台的数据处理单元或者云端的数据处理器。废旧物数据可以存储在线上交易平台的服务器或者存储单元中。
可选的,大多卖家用户会上传废旧物的图片以及相关的文字描述,买家用户会通过图片以及相关的文字描述了解废旧物。因此,线上交易平台需要对图片以及文本进行处理,也即废旧物数据可以包括图片数据或者文本数据。
例如,可以包括废钢图片、废铁图片、二手办公桌椅图片、二手起重机图片等。或者,可以包括废钢的文字描述、废铁的文字描述、办公桌椅的文字描述等。
在获取多个废旧物数据之后,可以对多个废旧物数据进行预处理,预处理可以包括分类。其中,每一类废旧物数据集可以包括相近的多个废旧物数据。
可选的,采用聚类的方法对多个废旧物数据进行分类,将相近的废旧物数据划分为同一类,可以得到多类废旧物数据集。或者,采用计算相似度的方式对多个废旧物数据进行分类,将相似度接近的废旧物数据划分为同一类。
示例性的,废旧物数据包括图片数据和文本数据。计算图片数据和图片数据之间的相似度,计算图片数据和文本数据之间的相似度,计算文本数据和文本数据之间相似度。通过相似度对多个废旧物数据进行分类,每一类废旧物数据集中可以包括相似的图片数据和/或文本数据。
通过将多个废旧物数据进行分类,将相近的废旧物数据划分到同一类,有利于后续有针对性地对每一类废旧物数据集进行处理,可以提高废旧物数据的处理效率。
S102,获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
可选的,可以采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到一个标准废旧物数据。或者采用多个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据。也即,一个标准废旧物数据可以对应至少一个标准清洗规则。
数据清洗规则可以包括补缺失值、去除已损图片、去除模糊图片、去停用词、处理无效值等。
废旧物样本数据可以包括废旧物图片样本数据或者废旧物文本样本数据。如,废钢样本图片、废铁样本图片、废钢样本文字描述、废铁样本文字描述。
在本申请的实施例中,可以采用神经网络训练,将数据清洗规则标准化,得到处理废旧物数据的标准数据清洗规则。对于每一个废旧物样本数据,可以建立处理该废旧物样本数据的至少一个标准数据清洗规则。
例如,通过设置关键字识别废钢样本文字描述,针对废钢样本文字描述,采用单位标准化的规则,将废钢样本文字描述中的“斤”、“kg”等标准化为“t”,也即将废钢样本文字描述中的数量单位标准化为“t”。或者采用处理无效值的规则,将废钢样本文字描述中的明显与废钢描述不符的无效值去除。然后,再通过神经网络的训练,可以得到针对废钢样本文字描述的至少一个标准数据清洗规则。其他废旧物样本数据的标准清洗规则建立过程类似。
通过针对不同的废旧物样本数据预先建立不同的标准清洗规则,有利于提高数据清洗的效率。
S103,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集。
对于每类废旧物数据集,可以计算该类废旧物数据集与各个标准废旧物数据之间的匹配度。匹配度用于指示一类废旧物数据集与废旧物样本数据的匹配程度。匹配度高,表明该类废旧物数据集与该废旧物样本数据相似度高,可以采用该废旧物样本数据对应的标准清洗规则对该类废旧物数据集进行清洗。匹配度低,表明该类废旧物数据集与该废旧物样本数据相似度低,不建议采用该废旧物样本数据对应的标准清洗规则对该类废旧物数据集进行清洗。
具体的,对于每个标准废旧物数据,可以计算该标准废旧物数据与目标类废旧物数据集中各个废旧物数据的相似度,并将所有的相似度求平均,作为该标准废旧物数据与目标废旧物数据集的匹配度。其中,目标废旧物数据集为任一类废旧物数据集。
对于每类废旧物数据集,筛选出与该类废旧物数据集的匹配度大于预设匹配度的所有标准废旧物数据,并将该所有标准废旧物数据对应的标准清洗规则进行组合,得到该类废旧物数据集的混合清洗规则集。
示例性的,预设匹配度为A0,对于V类废旧物数据集,计算得到V类废物数据集与标准废旧物数据a1的匹配度A1<A0、计算得到V类废物数据集与标准废旧物数据a2的匹配度A2>A0、计算得到V类废物数据集与标准废旧物数据a3的匹配度A3>A0。
选择标准废旧物数据a2对应的至少一个标准清洗规则,以及标准废旧物数据a3对应的至少一个标准清洗规则进行组合,得到V类废旧物数据集的混合清洗规则。
在本申请的实施例中,对于每类废旧物数据集,若无匹配度大于预设匹配度的标准废旧物数据,则选择与该类废旧物数据集匹配度最大的标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集,以保证每类废旧物数据集均进行数据清洗。
同时,对于每类废旧物数据集,若无匹配度大于预设匹配度的标准废旧物数据,则将该类废旧物数据集标记为待二次清洗的废旧物数据集。在经过一次清洗之后,可以有针对性地将该待二次清洗的废旧物数据集进行数据清洗,保证数据存储的可靠性。
S104,根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
对于每类废旧物数据集,在确定该类废旧物数据集对应的混合清洗规则集之后,利用该混合清洗规则集对该类废旧物数据集进行数据清洗,得到清洗后的废旧物数据集。
本申请实施例通过将多个废旧物数据进行分类,得到多类废旧物数据集,然后通过计算每类废旧物数据集和各个标准废旧物数据之间的匹配度,进而筛选确定每类废旧物数据集的混合清洗规则集,最终利用各个混合清洗规则集对相应的废旧物数据集进行清洗,可以保证废旧物数据的清洗可靠性。
在本申请的实施例中,上述S101中的“对多个废旧物数据进行分类,得到多类废旧物数据集”,可以包括:
将各个废旧物数据向量化;
计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将相似度作为第一相似度;
根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
废旧物数据包括图片数据和文本数据,通过将废旧物数据向量化,利用向量之间的相似度可以比较废旧物数据之间的第一相似度。
可以将各个废旧物数据向量化,计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将该相似度作为第一相似度。
其中,计算相似度的方式可以包括余弦距离计算、直方图计算、哈希值计算、汉明距离计算等中的至少一种。可以采用多种方式计算各个废旧物数据之间的相似度,然后将相似度的平均值作为各个废旧物数据之间的第一相似度,以提高废旧物数据之间相似度计算的可靠性。
具体的,对于每个废旧物数据,将该废旧物数据向量化。
对于每个向量化后的废旧物数据,计算该废旧物数据与其他废旧物数据的余弦距离,作为该废旧物数据与其他废旧物数据的余弦相似度。计算该废旧物数据与其他废旧物数据的汉明距离,作为该废旧物数据与其他废旧物数据的汉明相似度。计算余弦相似度和汉明相似度的平均值,作为该废旧物数据与其他废旧物数据的第一相似度。
可选的,对于图片数据,可以提取图片数据的图片特征向量,用该图片特征向量指示该图片数据。
对于两个图片数据,可以通过计算两个特征向量之间的相似度表征该两个图片数据的第一相似度。
对于文本数据,可以将文本数据向量化,计算两个文本数据的向量相似度,作为该两个文本数据之间的第一相似度。其中,可以提取文本数据的主题词的语义向量作为该文本数据的文本特征向量。
对于图片数据和文本数据,可以计算图片特征向量和文本特征向量的相似度,作为图片数据和文本数据的第一相似度。
在本申请的实施例中,可以将第一相似度归一化至(0,1)区间。两个废旧物数据之间的第一相似度越大,表示两个废旧物数据之间的相似度越大,类别越接近。
对于每个废旧物数据,将与该废旧物数据的第一相似度大于预设相似度的废旧物数据划分为同一类,每个被划分的废旧物数据不再重新划分,也即每个废旧物数据仅划分一次,避免废旧物数据被重复划分。其中,预设相似度可以根据实际情况进行设置。
对于同一个废旧物数据,若该废旧物数据与某一废旧物数据之间的第一相似度大于预设相似度,且同时与另一废旧物数据之间的第一相似度大于预设相似度,则将该废旧物数据划分到第一相似度大的废旧物数据类别。
示例性的,预设相似度为B0。
若:废旧物数据A1和废旧物数据A2的第一相似度为B1>B0,废旧物数据A1和废旧物数据A3的第一相似度B2>B0,废旧物数据A2和废旧物数据A3的第一相似度B3<B0,则:
若B1<B2,则将废旧物数据A1和废旧物数据A3划分为同一类。
若B1>B2,则将废旧物数据A1和废旧物数据A2划分为同一类。
若B1=B2,则可以将废旧物数据A1划分为任一类,需要保证废旧物数据A1不被重复划分。
若:废旧物数据A1和废旧物数据A2的第一相似度为B1>B0,废旧物数据A1和废旧物数据A3的第一相似度B2>B0,废旧物数据A2和废旧物数据A3的第一相似度B3≥B0,则:将废旧物数据A1、废旧物数据A2、废旧物数据A3划分为同一类。
通过根据各个废旧物数据之间的第一相似度,可以将多个废旧物数据划分为不同的类别,得到多类废旧物数据集,有助于后续有针对性地进行数据清洗。
在本申请的一些实施例中,上述S102中的“确定每类废旧物数据集与各个标准废旧物数据之间的匹配度”,可以包括:
对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。
在得到多类废旧物数据集之后,需要计算每类废旧物数据集和各个标准废旧物数据之间的第二相似度,并根据第二相似度确定每类废旧物数据集与各个标准废旧物数据之间的匹配度。
示例性的,对于V类废旧物数据集,该V类废旧物数据集包括相近的废旧物数据A1、废旧物数据A2、废旧物数据A3。标准废旧物数据包括标准废旧物数据C1、标准废旧物数据C2、标准废旧物数据C3。
对于V类废旧物数据集,计算废旧物数据A1和标准废旧物数据C1之间的第二相似度D1、计算废旧物数据A2和标准废旧物数据C1之间的第二相似度D2以及计算废旧物数据A3和标准废旧物数据C1之间的第二相似度D3。
将D1、D2、D3的均值作为V类废旧物数据集和标准废旧物数据C1之间的匹配度。
采用相同的计算方式,可以计算得到V类废旧物数据集和标准废旧物数据C2之间的匹配度以及V类废旧物数据集和标准废旧物数据C3之间的匹配度。
在本申请的一些实施例中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:
对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度。
若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度。
具体的,匹配度计算公式包括第一公式和第二公式,
具体的,第一公式包括:
表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,/>表示第f类废旧物数据集的特征系数,/>表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一相似度,/>表示第f类废旧物数据集与第n个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n个标准废旧物数据之间的匹配度越高;
第二公式包括:
n 0表示与第f类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,表示第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度,/>表示第f类废旧物数据集与第n 0个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n 0个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度越高。
表示特征系数,在一定程度上可以认为是第f类废旧物数据集中所有第一相似度的平均值,用该平均值可以表征第f类废旧物数据集的特征,/>。/>表示相关度,在一定程度上可以认为是第f类废旧物数据集中各个废旧物数据与第n个标准废旧物数据之间的第二相似度的平均值,/>。由于/>、/>,因此,/>。
对于每类废旧物数据集:
若该类废旧物数据集中废旧物数据的数量不超过预设数量,则表明该类废旧物数据集中废旧物数据的数量较少,可以计算与所有标准废旧物数据之间的匹配度,也即采用第一公式作为匹配度计算公式。
若该类废旧物数据集中废旧物数据的数量超过预设数量,则表明该类废旧物数据集中废旧物数据的数量多,可以先去除与该废旧物数据集中所有废旧物数据的第二相似度不大于预设阈值的标准废旧物数据,计算与剩余标准废旧物数据的匹配度,也即采用第二公式作为匹配度计算公式。
通过根据废旧物数据集中废旧物数据的数量选择不同的匹配度计算公式,可以在保证匹配度计算可靠性的基础上降低匹配度计算的数据量,有利于提高废旧物数据的数据清洗效率。
在本申请的实施例中,在利用上述方式进行多次废旧物数据的清洗之后,该方法还包括:
统计所有混合清洗规则中各个清洗规则的使用频率。
筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。
废旧物数据属于一类特定的数据,线上交易平台可以评估清洗规则的使用频次,选择使用频率较多的标准清洗规则组成通用清洗规则集,可以建立针对废旧物数据的通用清洗规则集,便于提高数据清洗效率。
示例性的,经过统计,废钢文本数据的单位标准化规则、废铁图片数据的去重规则、废铁文本数据的无效值处理规则的频率使用较高。
也即,线上交易平台中废钢文本数据、废铁图片数据、废铁文本数据较多,可以将上述三个规则组成通用清洗规则集。在得到待处理的多个废旧物数据之后,可采用通用清洗规则集先对多个废旧物数据进行一次数据清洗,将已经经过清洗且规则的废旧物数据进行存储,剩余未发生变化的废旧物数据可以继续进行相似度计算、匹配以及精准清洗。
示例性的,在建立针对废旧物的通用清洗规则集之后,再次进行废旧物数据清洗时,对多个废旧物数据进行分类,得到多类废旧物数据集,可以包括:
使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。
本申请实施例通过建立针对废旧物数据的通用规则清洗集,可以提高废旧物数据的数据清洗效率。
本申请实施例通过对废旧物数据进行分类和匹配,可以极大提升废旧物数据的清洗效率、清洗准确率以及清洗可靠性,保证了线上交易平台中废旧物数据的准确性,有利于促进用户利用线上交易平台对废旧物进行交易,在提高企业效益的同时提高了废旧物的循环效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以下为本申请的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图2示出了本申请实施例提供的废旧物数据的清洗装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,详述如下:
如图2所示,废旧物数据的清洗装置20可以包括:
第一数据获取模块201,用于获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;
第二数据获取模块202,用于获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
第一计算模块203,用于确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;
数据清洗模块204,用于根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
在本申请的一些实施例中,第一数据获取模块,包括:
第一计算单元,用于将各个废旧物数据向量化;
第二计算单元,用于计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将相似度作为第一相似度;
分类单元,用于根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
在本申请的一些实施例中,分类单元,还用于对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。
在本申请的一些实施例中,第一计算模块203具体用于:
对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;
若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;
具体的,匹配度计算公式包括第一公式和第二公式;
第一公式包括:
表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,/>表示第f类废旧物数据集的特征系数,/>表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一相似度,/>表示第f类废旧物数据集与第n个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n个标准废旧物数据之间的匹配度越高;
第二公式包括:
n 0表示与第f类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,表示第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度,/>表示第f类废旧物数据集与第n 0个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n 0个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n 0个标准废旧物数据之间的匹配度越高。
在本申请的一些实施例中,该装置20还可以包括:
统计模块,用于统计所有混合清洗规则中各个清洗规则的使用频率;
筛选模块,用于筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。
在本申请的一些实施例中,数据获取模块201,还用于使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。
图3是本申请实施例提供的电子设备的示意图。如图3所示,该实施例的电子设备30包括:处理器300和存储器301,存储器301中存储有可在处理器300上运行的计算机程序302。处理器300执行计算机程序302时实现上述各个废旧物数据的清洗方法实施例中的步骤,例如图1所示的S101至S104。或者,处理器300执行计算机程序302时实现上述各装置实施例中各模块/单元的功能,例如图2所示模块201至204的功能。
示例性的,计算机程序302可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器301中,并由处理器300执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序302在电子设备30中的执行过程。例如,计算机程序302可以被分割成图2所示的模块201至204。
电子设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备30可包括,但不仅限于,处理器300、存储器301。本领域技术人员可以理解,图3仅仅是电子设备30的示例,并不构成对电子设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器300可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器301可以是电子设备30的内部存储单元,例如电子设备30的硬盘或内存。存储器301也可以是电子设备30的外部存储设备,例如电子设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器301还可以既包括电子设备30的内部存储单元也包括外部存储设备。存储器301用于存储计算机程序以及电子设备所需的其他程序和数据。存储器301还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个废旧物数据的清洗方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种废旧物数据的清洗方法,其特征在于,包括:
获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;
获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;
根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
2.根据权利要求1所述的废旧物数据的清洗方法,其特征在于,对多个废旧物数据进行预处理,得到多类废旧物数据集,包括:
将各个废旧物数据向量化;
计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将所述相似度作为第一相似度;
根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
3.根据权利要求2所述的废旧物数据的清洗方法,其特征在于,所述确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:
对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。
4.根据权利要求3所述的废旧物数据的清洗方法,其特征在于,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:
对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;
若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;
具体的,匹配度计算公式包括第一公式和第二公式;
第一公式包括:
表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,/>表示第f类废旧物数据集的特征系数,/>表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一相似度,/>表示第f类废旧物数据集与第n个标准废旧物数据之间的相关度,/>表示第f类废旧物数据集中第j个废旧物数据与第n个标准废旧物数据之间的第二相似度;其中,/>,/>越大,第f类废旧物数据集与第n个标准废旧物数据之间的匹配度越高;
第二公式包括:
5.根据权利要求1至4任一项所述的废旧物数据的清洗方法,其特征在于,所述方法还包括:
统计所有混合清洗规则中各个清洗规则的使用频率;
筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。
6.根据权利要求5所述的废旧物数据的清洗方法,其特征在于,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:
使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。
7.一种废旧物数据的清洗装置,其特征在于,包括:
第一数据获取模块,用于获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;
第二数据获取模块,用于获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;
第一计算模块,用于确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;
数据清洗模块,用于根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
8.根据权利要求7所述的废旧物数据的清洗装置,其特征在于,第一数据获取模块,包括:
第一计算单元,用于将各个废旧物数据向量化;
第二计算单元,用于计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将所述相似度作为第一相似度;
分类单元,用于根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
9.一种电子设备,包括存储器和处理器,存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至6中任一项所述废旧物数据的清洗方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至6中任一项所述废旧物数据的清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310545301.1A CN116303406B (zh) | 2023-05-16 | 2023-05-16 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310545301.1A CN116303406B (zh) | 2023-05-16 | 2023-05-16 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116303406A true CN116303406A (zh) | 2023-06-23 |
CN116303406B CN116303406B (zh) | 2023-08-04 |
Family
ID=86790933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310545301.1A Active CN116303406B (zh) | 2023-05-16 | 2023-05-16 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303406B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109226203A (zh) * | 2018-10-22 | 2019-01-18 | 湖南机电职业技术学院 | 一种机械制造废弃粉料处理系统及处理方法 |
CN110196848A (zh) * | 2019-04-09 | 2019-09-03 | 广联达科技股份有限公司 | 一种面向公共资源交易数据的清洗去重方法及其系统 |
CN110472053A (zh) * | 2019-08-05 | 2019-11-19 | 广联达科技股份有限公司 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
CN111241258A (zh) * | 2020-01-08 | 2020-06-05 | 泰康保险集团股份有限公司 | 数据清洗方法、装置、计算机设备及可读存储介质 |
CN113379227A (zh) * | 2021-06-08 | 2021-09-10 | 软通智慧信息技术有限公司 | 产业园区数据处理方法、装置、计算机设备及存储介质 |
US20220274823A1 (en) * | 2020-05-18 | 2022-09-01 | Binary Beer Pty Ltd | Non-invasive attachable smart device housing and smart device methods and systems for beverage containers |
-
2023
- 2023-05-16 CN CN202310545301.1A patent/CN116303406B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109226203A (zh) * | 2018-10-22 | 2019-01-18 | 湖南机电职业技术学院 | 一种机械制造废弃粉料处理系统及处理方法 |
CN110196848A (zh) * | 2019-04-09 | 2019-09-03 | 广联达科技股份有限公司 | 一种面向公共资源交易数据的清洗去重方法及其系统 |
CN110472053A (zh) * | 2019-08-05 | 2019-11-19 | 广联达科技股份有限公司 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
CN111241258A (zh) * | 2020-01-08 | 2020-06-05 | 泰康保险集团股份有限公司 | 数据清洗方法、装置、计算机设备及可读存储介质 |
US20220274823A1 (en) * | 2020-05-18 | 2022-09-01 | Binary Beer Pty Ltd | Non-invasive attachable smart device housing and smart device methods and systems for beverage containers |
CN113379227A (zh) * | 2021-06-08 | 2021-09-10 | 软通智慧信息技术有限公司 | 产业园区数据处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116303406B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359175B (zh) | 电子装置、诉讼数据处理的方法及存储介质 | |
WO2021012570A1 (zh) | 数据录入方法、装置、设备及存储介质 | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
CN110874530B (zh) | 关键词提取方法、装置、终端设备及存储介质 | |
CN107807962B (zh) | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110321466A (zh) | 一种基于语义分析的证券资讯查重方法及系统 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN116719997A (zh) | 政策信息推送方法、装置及电子设备 | |
CN116303406B (zh) | 废旧物数据的清洗方法、装置、电子设备及存储介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
WO2018205460A1 (zh) | 获取目标用户的方法、装置、电子设备及介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN110909538B (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN113888265A (zh) | 产品推荐方法、装置、设备及计算机可读存储介质 | |
CN112990713A (zh) | 一种全过程工程咨询服务评估方法、系统及存储介质 | |
CN113486145B (zh) | 基于网络节点的用户咨询回复方法、装置、设备及介质 | |
CN112328787B (zh) | 文本分类模型训练方法、装置、终端设备及存储介质 | |
CN112445910B (zh) | 一种信息分类方法及系统 | |
CN113064597B (zh) | 一种冗余代码的识别方法、装置和设备 | |
CN114238634B (zh) | 正则表达式的生成方法及应用、装置、设备和存储介质 | |
CN116304772A (zh) | 企业画像的构建方法和装置 | |
CN117251732A (zh) | 一种组合规则生成方法、装置、电子设备及存储介质 | |
CN113704468A (zh) | 文本数据清洗方法、装置、终端及存储介质 | |
CN117745482A (zh) | 合同条款的确定方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |