CN111639253B - 一种数据判重方法、装置、设备及存储介质 - Google Patents
一种数据判重方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111639253B CN111639253B CN202010444205.4A CN202010444205A CN111639253B CN 111639253 B CN111639253 B CN 111639253B CN 202010444205 A CN202010444205 A CN 202010444205A CN 111639253 B CN111639253 B CN 111639253B
- Authority
- CN
- China
- Prior art keywords
- attribute data
- target object
- information
- matching degree
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015654 memory Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 241001122767 Theaceae Species 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据判重方法、装置、设备及存储介质,涉及智能搜索技术领域。具体实现方式为:获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;根据所述匹配度,确定所述目标对象和所述基准对象是否重复。本申请实施例提高了数据判重效率和判重便捷度,同时在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。
Description
技术领域
本申请实施例涉及数据处理技术,尤其涉及智能搜索技术,特别涉及一种数据判重方法、装置、设备及存储介质。
背景技术
随着信息时代的不断发展,通过数据共享平台所展示的共享数据给用户带来了极大的便利。然而,由于共享数据的来源不同,不同来源的共享数据之间的数据格式差异也较大,导致数据共享平台中同时展示的共享数据中,存在着部分重复数据。
现有技术中,通常借助于用户对共享数据的行为反馈,进行数据判重,使得共享数据判重便捷度较差、判重效率较低。因此,如何提高商户数据判重便捷度和判重效率,成为亟待解决的技术问题。
发明内容
本申请实施例提供了一种数据判重方法、装置、设备及存储介质,以提高商户数据判重便捷度和判重效率。
根据第一方面,本申请实施例提供了一种数据判重方法,包括:
获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
根据所述匹配度,确定所述目标对象和所述基准对象是否重复。
根据第二方面,本申请实施例还提供了一种数据判重装置,包括:
属性数据获取模块,用于获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
匹配度确定模块,用于确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
判重模块,用于根据所述匹配度,确定所述目标对象和所述基准对象是否重复。
根据第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例提供的一种数据判重方法。
根据第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例提供的一种数据判重方法。
本申请实施例通过获取基准对象的属性数据和目标对象的属性数据;其中,属性数据包括至少一种属性元素;确定基准对象的属性数据和目标对象的属性数据之间的匹配度;根据匹配度确定目标对象和基准对象是否重复,提高了数据判重效率和判重便捷度,同时在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种数据判重方法的流程图;
图2是本申请实施例提供的另一种据判重方法的流程图;
图3是本申请实施例提供的另一种数据判重方法的流程图;
图4是本申请实施例提供的一种数据判重装置的结构图;
图5是用来实现本申请实施例的数据判重方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供的各数据判重方法,适用于对共享数据平台中的共享数据的重复数据进行识别的情况,该方法由数据判重装置执行,该装置采用软件和/或硬件实现,并具体配置于电子设备中。
图1是本申请实施例提供的一种数据判重方法的流程图,该方法包括:
S101、获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素。
其中,属性数据用于通过至少一种属性元素,定性或定量的描述对象的自身特性。例如,若对象为景点,则属性数据可以包括景点的地址、类别、门票价格和营业时间等属性元素中的至少一种;若对象为商户,则属性数据可以包括商户的名称、地址、联系方式、类型和营业时间等属性元素中的至少一种。
示例性地,属性数据可以预先存储在电子设备本地或与电子设备关联的其他存储设备,并在需要时进行基准对象和目标对象的属性数据的查询获取。
S102、确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。
其中,匹配度至少为1个。示例性地,可以确定包括至少一个属性元素的基准对象的属性数据和目标对象的属性数据,确定一个综合匹配度;还可以分别针对每一属性元素,分别确定各属性元素下,基准对象的属性数据和目标对象的属性数据之间的匹配度。
在本申请实施例的一种可选实施方式中,确定基准对象的属性数据和目标对象的属性数据之间的匹配度,可以将基准对象的属性数据和目标对象的属性数据,输入至预先训练好的网络模型中,根据模型输出结果,确定基准对象的属性数据和目标对象的属性数据之间的匹配度。其中,网络模型可以采用以下方式进行训练得到:将大量的样本基准对象的属性数据和样本目标对象的属性数据,作为训练样本输入至预先构建的网络模型中,得到匹配度预测结果;根据匹配度预测结果与实际匹配度结果之间的差异,对网络模型的模型参数进行优化。其中,网络模型可以是机器学习模型或深度学习模型。可选的,网络模型可以是孪生神经网络(Siamese Network)。
在本申请实施例的另一可选实施方式中,可以针对各属性元素,分别确定各属性元素对应的基准对象的属性数据和目标对象的属性数据之间的匹配度。
可选的,在分别确定各属性元素对应的基准对象的属性数据和目标对象的属性数据之间的匹配度,可以是:采用各属性元素所关联的网络模型,确定该属性元素下,基准对象的属性数据和目标对象的属性数据之间的匹配度。其中,不同属性元素所采用的网络模型的结构相同或不同。可以理解的是,由于不同属性元素之间的差异较大,为了提高基于网络模型进行匹配度确定的准确度,需要针对不同的属性元素分别进行模型训练。
由于采用网络模型进行不同属性元素的匹配度确定,需要预先根据大量的训练样本进行模型训练,将会投入大量的时间成本和人力成本。为了提高匹配度确定效率,还可以直接通过非人工智能的数据处理方式,进行匹配度的确定。
在本申请实施例的又一可选实施方式中,可以获取其中一个属性元素作为当前属性元素;获取当前属性元素对应的基准对象的属性数据作为第一当前属性数据,以及获取当前属性元素对应的目标对象的属性数据作为第二当前属性数据;确定第一当前属性数据对应的字符串和第二当前属性数据的字符串的匹配度,并将确定结果作为当前属性元素对应的匹配度。
其中,匹配度确定方式可以采用下述算法中的至少一种加以实现:KMP(TheKnuth-Morris-Pratt,克努特-莫里斯-普拉特)算法,BM(Boyer-Moore,博伊尔-摩尔)算法、BF(Brute Force,暴力匹配)算法、或RK(Rabin-Karp,滚动哈希)算法等中的至少一种。
S103、根据所述匹配度,确定所述目标对象和所述基准对象是否重复。
示例性地,若匹配度数量为一个,则直接将该匹配度与设定匹配度阈值进行比较,若该匹配度大于设定匹配度阈值,则确定目标对象和基准对象重复;若该匹配度不大于设定匹配度阈值,则确定目标对象和基准对象不重复。其中,设定匹配度阈值由技术人员根据需要或经验值进行设定,或通过大量实现反复确定。
示例性地,若匹配度数量为至少两个,则根据预先确定的各属性元素的权重,确定各属性元素的匹配度的加权和,并将和值作为综合匹配度;直接将综合匹配度与设定匹配度阈值进行比较,若该综合匹配度大于设定匹配度阈值,则确定目标对象和基准对象重复;若该综合匹配度不大于设定匹配度阈值,则确定目标对象和基准对象不重复。其中,设定匹配度阈值和各属性元素的权重,分别由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
本申请实施例通过获取基准对象的属性数据和目标对象的属性数据;其中属性数据包括至少一种属性元素;确定基准对象的属性数据和目标对象的属性数据之间的匹配度;根据匹配度确定目标对象和基准对象是否重复。本申请实施例通过基准对象和目标对象的属性数据进行匹配度确定,进而基于匹配度进行数据判重,无需借助用户行为数据,提高了数据判重便捷度和有效性。同时,所获取的属性数据包括至少一种属性元素,因此在对目标对象和基准对象进行数据判重时,能够基于多维度信息进行匹配度确定,从而在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。
在上述各技术方案的基础上,为了减少进行匹配度确定时的数据运算量,所选取的目标对象和基准对象位于同一判重地理区域,从而避免了对不同区域的基准对象的属性数据和目标对象的属性数据之间的匹配度确定。其中,同一判重地理区域可以是相同市区,相应的,可以通过唯一的市区标识进行判重地理区域的确定。
在上述各技术方案的基础上,当基准对象的属性数据和目标对象的属性数据分别包括至少两种属性元素,相应的,确定的匹配度为至少两个时,确定基准对象的属性数据和目标对象的属性数据之间的属性度,可以是采用并行执行的方式,针对每种匹配元素,确定基准对象的属性数据和目标对象的属性数据之间的匹配度。可以理解的是,通过并行计算的方式,能够显著减少串行计算的等待时间,进一步提高了匹配度确定效率。
可以理解的是,由于属性数据中的连接符、括号等无效字符会对匹配度确定结果带来一定的影响,降低匹配度确定结果的准确度。同时,不同属性元素对应的属性数据中的重复数据会增加匹配度确定过程的数据运算量,同时也会影响单一属性元素对应的属性数据之间的匹配度确定结果。为了避免上述情况的发生,在本申请实施例的一种可选实施方式中,在确定基准对象的属性数据和目标对象的属性数据之间的匹配度之前,还可以包括:分别滤除基准对象的属性数据和目标对象的属性数据中的干扰信息。
示例性地,对属性数据中的无效字符进行识别,并将识别出的无效字符从属性数据中对应剔除。
示例性地,根据预设剔除策略中包括的保留方和剔除方,将至少两个属性元素对应的属性数据中的重复数据剔除。例如,当属性元素包括地址信息和对象名称,当地址信息中包括对象名称时,将地址信息中的对象名称剔除。其中,预设剔除策略中的保留方和剔除方可以由技术人员根据需要或经验值进行设定,还可以通过大量试验反复确定。
图2是本申请实施例提供的另一种数据判重方法的流程图,该方法在上述各技术方案的基础上,进行了优化改进。
进一步地,将“基准对象”细化为“基准商户”,将“目标对象”细化为“目标商户”,将“属性数据”细化为“属性数据包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种”,从而将数据判重应用至商户数据判重的场景中。
如图2所示的一种数据判重方法,包括:
S201、获取基准商户的属性数据和目标商户的属性数据;其中,所述属性数据包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种。
其中,品牌信息可以是商户对应的品牌名称或品牌类别。
其中,坐标信息可以是商户的地理位置坐标,例如经纬度坐标。
其中,分店名称信息可以表征商户的商圈属性或分区属性。例如,若XX奶茶店在A商场中,该奶茶店的属性数据包括“XX奶茶A店”则品牌信息可以是“XX”,分店名称可以是“A店”。又如,若YY奶茶店在B区,该奶茶店的属性数据包括“XX奶茶B店”,则品牌信息可以是“YY”,分店名称可以是“B店”。
其中,联系方式信息可以是能够与商户进行沟通的电话号码、手机号码和邮箱地址中的至少一种,还可以是能够进行商户关联信息访问的网址等。
其中,地址描述信息可以是通过省、市、区和街道等行政区划信息中的至少一种,对商户地址进行描述的数据。
在本申请实施例的一种可选实施方式中,若所述属性数据包括所述品牌信息,则获取基准商户的属性数据和目标商户的属性数据,可以是:获取基准商户的属性数据;从各候选商户中,选择与所述基准商户的品牌信息相关联的目标商户,并获取所述目标商户的属性数据。
其中,与基准商户的匹配信息相关联的目标商户,可以是基准商户与目标商户为的品牌信息相同;或者,两者的品牌信息为父子关系,也即,其中一个品牌为另一品牌旗下的子品牌;或者两者品牌信息为姊妹关系,也即,两个品牌为同一品牌旗下的不同子品牌。
可以理解的是,由于品牌信息不存在关联的基准商户和目标商户,必然不可能为重复数据,因此,当基准商户和目标商户的品牌信息无关联时,再针对两者的属性数据进行匹配度确定,将会带来计算资源的浪费,同时降低了数据判重效率,所以,通过品牌信息的关联情况对基准商户和目标商户进行初筛,能够避免上述情况的发生,将会减少数据判重的数据运算量,同时提高数据判重效率。
S202、确定所述基准商户的属性数据和所述目标商户的属性数据之间的匹配度。
其中,匹配度包括距离匹配度、分店名称匹配度、联系方式匹配度和地址描述匹配度中的至少一种。
在本申请实施例的一种可选实施方式中,若所述属性数据包括分店名称信息,则确定所述基准商户的属性数据和所述目标商户的属性数据之间的匹配度,可以是:确定所述基准商户的分店名称信息和所述目标商户的分店名称信息之间的匹配名称,并根据所述基准商户的分店名称信息的长度和/或所述目标商户的分店名称信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的分店名称匹配度。
可以理解的是,通过引入不同商户的分店名称信息之间的匹配名称,并将匹配名称的长度和各商户的分店名称信息的长度作为参照依据,进行分店名称匹配度的确定,能够减少进行分店名称匹配度确定时的数据运算量,提高了匹配度的确定效率。
可选的,根据所述基准商户的分店名称信息的长度和/或所述目标商户的分店名称信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的分店名称匹配度,可以是:将基准商户的分店名称信息的长度作为基准分店名长度;将该匹配名称的长度与基准分店名长度的比值,作为分店名称匹配度。
或者,可选的,根据所述基准商户的分店名称信息的长度和/或所述目标商户的分店名称信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的分店名称匹配度,可以是:将目标商户的分店名称信息的长度作为目标分店名长度;将该匹配名称的长度与目标分店名长度的比值,作为分店名称匹配度。
或者,可选的,根据所述基准商户的分店名称信息的长度和/或所述目标商户的分店名称信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的分店名称匹配度,可以是:将基准商户的分店名称信息的长度作为基准分店名长度,以及将目标商户的分店名称信息的长度作为目标分店名长度;确定基准分店名长度和目标分店名长度的均值;将该匹配名称的长度与所确定均值的比值,作为分店名称匹配度。
在本申请实施例的另一可选实施方式中,若所述属性数据包括地址描述信息,则确定所述基准商户的属性数据和所述目标商户的属性数据之间的匹配度,可以是:确定所述基准商户的地址描述信息和所述目标商户的地址描述信息之间的匹配名称,并根据所述基准商户的地址描述信息的长度和/或所述目标商户的地址描述信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的地址描述匹配度。
可以理解的是,通过引入不同商户的地址描述信息之间的匹配名称,并将匹配名称的长度和各商户的地址描述信息的长度作为参照依据,进行地址描述匹配度的确定,能够减少进行地址描述匹配度确定时的数据运算量,提高了匹配度的确定效率。
可选的,根据所述基准商户的地址描述信息的长度和/或所述目标商户的地址描述信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的地址描述匹配度,可以是:将基准商户的地址描述信息的长度作为基准地址描述长度;将该匹配名称的长度与基准地址描述长度的比值,作为地址描述匹配度。
或者,可选的,根据所述基准商户的地址描述信息的长度和/或所述目标商户的地址描述信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的地址描述匹配度,可以是:将目标商户的地址描述信息的长度作为目标地址描述长度;将该匹配名称的长度与目标地址描述长度的比值,作为地址描述匹配度。
或者,可选的,根据所述基准商户的地址描述信息的长度和/或所述目标商户的地址描述信息的长度,以及该匹配名称的长度,确定所述基准商户和所述目标商户之间的地址描述匹配度,可以是:将基准商户的地址描述信息的长度作为基准地址描述长度,以及将目标商户的地址描述信息的长度作为目标地址描述长度;确定基准地址描述长度和目标地址描述长度的均值;将该匹配名称的长度与所确定均值的比值,作为地址描述匹配度。
在本申请实施例的又一可选实施方式中,若所述属性数据包括坐标信息,则确定所述基准商户的属性数据和所述目标商户的属性数据之间的匹配度,可以是:根据所述基准商户的坐标信息和所述目标商户的坐标信息,确定空间距离;根据所述空间距离,确定所述基准商户和所述目标商户之间的距离匹配度。
可以理解的是,通过引入不同商户之间的空间距离,进行距离匹配度的确定,能够减少距离匹配度确定时的数据运算量,提高了匹配度的确定效率。
示例性地,根据所述空间距离,确定所述基准商户和所述目标商户之间的距离匹配度,可以是:采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;其中,所述距离转化公式为空间距离的递减函数。
需要说明的是,通过预先设定空间距离与距离匹配度之间的对应关系,根据该对应关系,对空间上的位置差异所到来的商户之间的差异进行数值转化,能够提高距离匹配度确定过程的便捷度,进一步减少距离匹配度确定过程的数据运算量。
在本申请实施例的再一可选实施方式中,若所述属性数据包括联系方式信息,则确定所述基准商户的属性数据和所述目标商户的属性数据之间的匹配度,可以是:确定所述基准商户的各条联系方式信息和所述目标商户的各条联系方式信息是否存在重合;根据确定结果,确定所述基准商户和所述目标商户之间的联系方式匹配度。
可以理解的是,通过引入基准商户和目标商户的联系方式信息的重合情况,也即通过联系方式逐一匹配的方式,进行联系方式匹配度的确定,减少了联系方式匹配度确定时的数据运算量,提高了匹配度的确定效率。
具体的,若基准商户的各条联系方式信息与目标商户的各条联系方式信息中,存在至少一条联系方式信息重合,则确定基准商户和目标商户可以采用同一联系方式进行沟通或访问,因此可以确定联系方式匹配度为设定非零数值;若基准商户的各条联系方式信息与目标商户的各条联系方式信息均不相同,则确定基准商户和目标商户的联系方式匹配度为0。其中,设定非零数值由技术人员根据需要或经验值进行确定,例如可以是1。
S203、根据所述匹配度,确定所述目标商户和所述基准商户是否重复。
示例性地,根据预先设定各匹配度的权重,确定各匹配度的加权和,并将该和值作为目标商户和基准商户是否重复的判定依据。具体的,若该和值大于设定匹配度阈值,则确定目标商户和基准商户为相同商户,也即数据重复;若该和值不大于设定匹配度阈值,则确定目标商户和基准商户不是相同商户,也即数据不重复。其中,设定匹配度阈值和各匹配度的权重也可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
本申请实施例通过将基准对象细化为基准商户,将目标对象细化为目标商户,将属性数据细化为包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种,从而将本申请中的数据判重方式,应用至对不同商户的商户数据判重这一具体应用场景中,能够避免在不同数据共享平台针对多家商户进行优惠宣传时,所共享的商户数据中存在商户数据重复带来的宣传流量的增加,同时避免了数据重复给用户带来较差的阅读体验。
图3是本申请实施例提供的另一种数据判重方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,提供了一种优选实施方式,用于对商户数据进行判重。
如图3所示的一种数据判重方法,包括:
S310、数据预处理阶段;以及,
S320、数据判重阶段。
其中,数据预处理阶段,包括:
S311、获取优惠支付方式对应的至少两个候选商户的商户数据。其中,商户数据包括所在市区、品牌名、分店名、坐标位置、联系方式和地址描述。
其中,通过查找预先设定的优惠支付商户列表,确定与优惠支付方式对应的各候选商户的商户数据。其中,各优惠支付商户列表可以由不同商圈对应机构提供。其中,支付方式可以是银行卡支付或第三方支付平台支付。其中,银行卡支付可以是储蓄卡或信用卡等。
S312、根据预先构建的品牌库,分别查找各候选商户对应的全部品牌名称,形成品牌列表。
其中,在形成品牌列表是,可以根据品牌名称字符长度由低到高或由高到低顺序排列。
S313、针对各候选商户,通过查找与该候选商户对应的品牌列表,去除该候选商户中重复的品牌信息,仅保留单一且完整的品牌名称。
S314、通过字符串匹配,清洗分店名中的市区名称和干扰字符。
其中,干扰字符包括“_”、“(”和“)”等无实际意义的字符中的至少一个。
S315、通过字符串匹配,清洗地址描述中的省市区信息及干扰字符。
其中,S313~S315可以先后执行,也可以并行执行,本申请实施例的对三者的执行顺序不做任何限定。
其中,数据判重阶段,包括:
S321、筛选处于相同市区编码的各候选商户,并将其中一个筛选结果作为基准商户,另一个筛选结果作为目标商户。
S322、根据基准商户和目标商户的坐标位置,确定基准商户和目标商户的空间距离,并采用预先设定的距离转化公式,根据空间距离,确定基准商户和目标商户之间的距离匹配度。
其中,坐标位置可以是经纬度坐标。
具体的,根据以下公式,确定基准商户和目标商户之间的距离匹配度:
其中,d为空间距离,md为距离匹配度。其中,A、d1和d2为常数,由技术人员根据需要和经验值进行确定。例如,A=1,d1=100,d2=1000。
S323、判定基准商户和目标商户是否存在至少一条联系方式相同,并根据判定结果,确定基准商户和目标商户之间的联系方式匹配度。
具体的,根据以下公式,确定基准商户和目标商户之间的联系方式匹配度。
其中,mt为联系方式匹配度。
S324、确定基准商户的分店名和目标商户的分店名的匹配名称,并根据匹配名称长度与较短分店名的名称长度比值,确定基准商户和目标商户之间的分店名称匹配度。
具体的,根据以下公式,确定基准商户和目标商户之间的分店名称匹配度:
其中,mn为分店名称匹配度,s1和s2分别为基准商户的分店名和目标商户的分店名;match()为相同子字符串确定函数,catch()为字符串拼接函数,length()为长度确定函数,min()为最小值确定函数。
为了提高分店名称匹配度的准确度,match()所确定的相同子字符串的长度不小于3。
S325、确定基准商户的地址描述和目标商户的地址描述的匹配名称,并根据匹配名称长度与较短地址描述的名称长度比值,确定基准商户和目标商户之间的地址描述匹配度。
其中,ma为地址描述匹配度,s3和s4分别为基准商户的地址描述和目标商户的地址描述;match()为相同子字符串确定函数,catch()为字符串拼接函数,length()为长度确定函数,min()为最小值确定函数。
其中,S322~S325可以先后执行,也可以并行执行,本申请实施例的对四者的执行顺序不做任何限定。
S326、根据预先分配的权重,对各匹配度加权,得到综合匹配度。
具体的,采用如下公式,进行综合匹配度确定:
M=ω1×md+ω2×mt+ω3×mn+ω4×ma;
其中,ω1~ω4为权重,M为综合匹配度。其中,ω1、ω2、ω3和ω4C分别由技术人员根据需要或经验值进行确定。例如,ω1=10,ω2=10,ω3=50,ω4=30。
S327、判断综合匹配度是否大于设定匹配度阈值;若是,则执行S328;否则执行S329。
S328、确定目标商户和基准商户重复,删除目标商户。继续执行S329。
其中,设定匹配度阈值根据各权重的和值(ω1+ω2+ω3+ω4)的设定百分比确定。其中,设定百分比可以由技术人员根据需要或经验值进行确定,例如可以是70%。
S329、获取相同市区编码的另一候选商户作为新的目标商户;返回执行S322。
参照上述步骤,以两个具体商户为例进行说明。
其中,基准商户和目标商户的商户数据如下表所示:
其中,进行数据预处理后的商户数据如下表所示:
属性元素 | 基准商户 | 目标商户 |
分店名 | D店 | M山D店 |
所在市区 | 北京市北京市朝阳区 | 北京市北京市朝阳区 |
位置坐标 | (116.4845610,39.8996541) | (116.4845510,39.8986541) |
联系方式 | 010-11111111 | 010-11111119,010-11111111 |
地址描述 | B路C号D广场一层L1-17 | B路C号M山D一层L1-17 |
品牌名 | AAAA | AAAA |
其中,进行数据判重操作后的匹配度如下表所示:
图4是本申请实施例提供的一种数据判重装置的结构图,该数据判重装置400,包括:属性数据获取模块401、匹配度确定模块402和判重模块403。其中,
属性数据获取模块401,用于获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
匹配度确定模块402,用于确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
判重模块403,用于根据所述匹配度,确定所述目标对象和所述基准对象是否重复。
本申请实施例通过属性数据获取模块获取基准对象的属性数据和目标对象的属性数据;其中属性数据包括至少一种属性元素;通过匹配度确定模块确定基准对象的属性数据和目标对象的属性数据之间的匹配度;通过判重模块根据匹配度确定目标对象和基准对象是否重复。本申请实施例通过基准对象和目标对象的属性数据进行匹配度确定,进而基于匹配度进行数据判重,无需借助用户行为数据,提高了数据判重便捷度和有效性。同时,所获取的属性数据包括至少一种属性元素,因此在对目标对象和基准对象进行数据判重时,能够基于多维度信息进行匹配度确定,从而在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。
所述基准对象为基准商户;所述目标对象为目标商户;所述属性数据包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种。
进一步地,若所述属性数据包括分店名称信息和/或地址描述信息,则所述匹配度确定模块402,包括:
分店名称匹配度确定单元,用于确定所述基准对象的分店名称信息和所述目标对象的分店名称信息之间的匹配名称,并根据所述基准对象的分店名称信息的长度和/或所述目标对象的分店名称信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的分店名称匹配度;
地址描述匹配度确定单元,用于确定所述基准对象的地址描述信息和所述目标对象的地址描述信息之间的匹配名称,并根据所述基准对象的地址描述信息的长度和/或所述目标对象的地址描述信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的地址描述匹配度。
进一步地,若所述属性数据包括坐标信息,则所述匹配度确定模块402,包括:
空间距离确定单元,用于根据所述基准对象的坐标信息和所述目标对象的坐标信息,确定空间距离;
距离匹配度确定单元,用于根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度。
进一步地,所述距离匹配度确定单元402,包括:
距离匹配度确定子单元,用于采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;
其中,所述距离转化公式为空间距离的递减函数。
进一步地,若所述属性数据包括联系方式信息,则所述匹配度确定模块402,包括:
联系方式重合确定单元,用于确定所述基准对象的各条联系方式信息和所述目标对象的各条联系方式信息是否存在重合;
联系方式匹配度确定单元,用于根据确定结果,确定所述基准对象和所述目标对象之间的联系方式匹配度。
进一步地,若所述属性数据包括所述品牌信息,则所述属性数据获取模块401,包括:
基准属性数据获取单元,用于获取基准对象的属性数据;
目标属性数据获取单元,用于从各候选对象中,选择与所述基准对象的品牌信息相关联的目标对象,并获取所述目标对象的属性数据。
进一步地,所述目标对象和所述基准对象位于同一判重地理区域。
进一步地,若所述基准对象的属性数据和所述目标对象的属性数据分别包括至少两种属性元素,相应的确定的匹配度为至少两个时,所述匹配度确定模块402,包括:
并行执行单元,用于采用并行执行的方式,针对每种匹配元素,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。
进一步地,所述装置还包括:
干扰信息滤除模块,用于在确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度之前,分别滤除所述基准对象的属性数据和所述目标对象的属性数据中的干扰信息。
上述数据判重装置可执行本申请任一数据判重方法,具备执行数据判重方法的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是实现本申请实施例的数据判重方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据判重方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据判重方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据判重方法对应的程序指令/模块(例如,附图4所示的属性数据获取模块401、匹配度确定模块402和判重模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据判重方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现数据判重方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现数据判重方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现数据判重方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现数据判重方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过获取基准对象的属性数据和目标对象的属性数据;其中属性数据包括至少一种属性元素;确定基准对象的属性数据和目标对象的属性数据之间的匹配度;根据匹配度确定目标对象和基准对象是否重复。本申请实施例通过基准对象和目标对象的属性数据进行匹配度确定,进而基于匹配度进行数据判重,无需借助用户行为数据,提高了数据判重便捷度和有效性。同时,所获取的属性数据包括至少一种属性元素,因此在对目标对象和基准对象进行数据判重时,能够基于多维度信息进行匹配度确定,从而在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种数据判重方法,包括:
获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
根据所述匹配度,确定所述目标对象和所述基准对象是否重复;
其中,所述基准对象为基准商户;所述目标对象为目标商户;所述属性数据包括分店名称信息和地址描述信息中的至少一种;
其中,若所述属性数据包括分店名称信息和/或地址描述信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的分店名称信息和所述目标对象的分店名称信息之间的匹配名称,并根据所述基准对象的分店名称信息的长度和/或所述目标对象的分店名称信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的分店名称匹配度;和/或,
确定所述基准对象的地址描述信息和所述目标对象的地址描述信息之间的匹配名称,并根据所述基准对象的地址描述信息的长度和/或所述目标对象的地址描述信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的地址描述匹配度。
2.根据权利要求1所述的方法,其中,所述属性数据还包括品牌信息、坐标信息和联系方式信息中的至少一种。
3.根据权利要求2所述的方法,其中,若所述属性数据包括坐标信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
根据所述基准对象的坐标信息和所述目标对象的坐标信息,确定空间距离;
根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度。
4.根据权利要求3所述的方法,其中,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度,包括:
采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;
其中,所述距离转化公式为空间距离的递减函数。
5.根据权利要求2所述的方法,其中,若所述属性数据包括联系方式信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的各条联系方式信息和所述目标对象的各条联系方式信息是否存在重合;
根据确定结果,确定所述基准对象和所述目标对象之间的联系方式匹配度。
6.根据权利要求2所述的方法,其中,若所述属性数据包括所述品牌信息,则获取基准对象的属性数据和目标对象的属性数据,包括:
获取基准对象的属性数据;
从各候选对象中,选择与所述基准对象的品牌信息相关联的目标对象,并获取所述目标对象的属性数据。
7.根据权利要求1所述的方法,其中,所述目标对象和所述基准对象位于同一判重地理区域。
8.根据权利要求1-7任一项所述的方法,其中,若所述基准对象的属性数据和所述目标对象的属性数据分别包括至少两种属性元素,相应的确定的匹配度为至少两个时,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
采用并行执行的方式,针对每种匹配元素,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。
9.根据权利要求1-7任一项所述的方法,其中,在确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度之前,所述方法还包括:
分别滤除所述基准对象的属性数据和所述目标对象的属性数据中的干扰信息。
10.一种数据判重装置,包括:
属性数据获取模块,用于获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
匹配度确定模块,用于确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
判重模块,用于根据所述匹配度,确定所述目标对象和所述基准对象是否重复;
其中,所述基准对象为基准商户;所述目标对象为目标商户;所述属性数据包括分店名称信息和地址描述信息中的至少一种;
若所述属性数据包括分店名称信息和/或地址描述信息,则所述匹配度确定模块,包括:
分店名称匹配度确定单元,用于确定所述基准对象的分店名称信息和所述目标对象的分店名称信息之间的匹配名称,并根据所述基准对象的分店名称信息的长度和/或所述目标对象的分店名称信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的分店名称匹配度;
地址描述匹配度确定单元,用于确定所述基准对象的地址描述信息和所述目标对象的地址描述信息之间的匹配名称,并根据所述基准对象的地址描述信息的长度和/或所述目标对象的地址描述信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的地址描述匹配度。
11.根据权利要求10所述的装置,其中,所述属性数据还包括品牌信息、坐标信息和联系方式信息中的至少一种。
12.根据权利要求11所述的装置,其中,若所述属性数据包括坐标信息,则所述匹配度确定模块,包括:
空间距离确定单元,用于根据所述基准对象的坐标信息和所述目标对象的坐标信息,确定空间距离;
距离匹配度确定单元,用于根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度。
13.根据权利要求12所述的装置,其中,所述距离匹配度确定单元,包括:
距离匹配度确定子单元,用于采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;
其中,所述距离转化公式为空间距离的递减函数。
14.根据权利要求11所述的装置,其中,若所述属性数据包括联系方式信息,则所述匹配度确定模块,包括:
联系方式重合确定单元,用于确定所述基准对象的各条联系方式信息和所述目标对象的各条联系方式信息是否存在重合;
联系方式匹配度确定单元,用于根据确定结果,确定所述基准对象和所述目标对象之间的联系方式匹配度。
15.根据权利要求11所述的装置,其中,若所述属性数据包括所述品牌信息,则所述属性数据获取模块,包括:
基准属性数据获取单元,用于获取基准对象的属性数据;
目标属性数据获取单元,用于从各候选对象中,选择与所述基准对象的品牌信息相关联的目标对象,并获取所述目标对象的属性数据。
16.根据权利要求10所述的装置,其中,所述目标对象和所述基准对象位于同一判重地理区域。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种数据判重方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的一种数据判重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444205.4A CN111639253B (zh) | 2020-05-22 | 2020-05-22 | 一种数据判重方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444205.4A CN111639253B (zh) | 2020-05-22 | 2020-05-22 | 一种数据判重方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639253A CN111639253A (zh) | 2020-09-08 |
CN111639253B true CN111639253B (zh) | 2023-08-01 |
Family
ID=72329860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010444205.4A Active CN111639253B (zh) | 2020-05-22 | 2020-05-22 | 一种数据判重方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639253B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507223B (zh) * | 2020-12-10 | 2023-06-23 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN112540904B (zh) * | 2020-12-15 | 2023-06-23 | 北京百度网讯科技有限公司 | 机器操作行为识别方法、装置、电子设备以及计算机介质 |
CN113452713B (zh) * | 2021-06-29 | 2022-04-19 | 成都九洲电子信息系统股份有限公司 | 一种基于双重采样的专线环境下网络数据载体判重方法 |
CN113592432B (zh) * | 2021-07-02 | 2023-12-22 | 软通智慧信息技术有限公司 | 工单判重方法、装置、电子设备及存储介质 |
CN114691699B (zh) * | 2022-06-02 | 2022-09-16 | 上海金仕达软件科技有限公司 | 一种智能结算方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704586A (zh) * | 2017-10-09 | 2018-02-16 | 陈包容 | 一种基于用户活动地址的用户画像的方法、装置和系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383782A (zh) * | 2008-10-16 | 2009-03-11 | 深圳市迅雷网络技术有限公司 | 一种获取网络资源标识的方法及系统 |
CN102023984B (zh) * | 2009-09-10 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 甄别重复实体数据的方法和装置 |
CN101854420A (zh) * | 2010-05-18 | 2010-10-06 | 深圳桑菲消费通信有限公司 | 一种手机来电显示号码的匹配方法 |
CN102567397B (zh) * | 2010-12-30 | 2014-08-06 | 高德软件有限公司 | 兴趣点、连锁店分店兴趣点关联标记的方法与装置 |
US10719251B2 (en) * | 2018-01-31 | 2020-07-21 | Nutanix, Inc. | System and method for recursive de-duplication |
CN109495475B (zh) * | 2018-11-19 | 2022-03-18 | 中国联合网络通信集团有限公司 | 域名检测方法及装置 |
CN109685573A (zh) * | 2018-12-25 | 2019-04-26 | 拉扎斯网络科技(上海)有限公司 | 一种商圈数据的处理方法、装置、电子设备和存储介质 |
CN110263022B (zh) * | 2019-05-08 | 2023-03-14 | 深圳丝路天地电子商务有限公司 | 酒店数据匹配方法及装置 |
-
2020
- 2020-05-22 CN CN202010444205.4A patent/CN111639253B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704586A (zh) * | 2017-10-09 | 2018-02-16 | 陈包容 | 一种基于用户活动地址的用户画像的方法、装置和系统 |
Non-Patent Citations (1)
Title |
---|
基于模糊综合评判和长度过滤的SNM改进算法;郭文龙;董建怀;;武汉工程大学学报(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639253A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639253B (zh) | 一种数据判重方法、装置、设备及存储介质 | |
US20210141839A1 (en) | Information search method, apparatus, and system | |
CN111931067B (zh) | 兴趣点推荐方法、装置、设备和介质 | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、系统和存储介质 | |
CN103778548B (zh) | 商品信息与关键词匹配方法、商品信息投放方法及装置 | |
CN109906451A (zh) | 使用多义码的相似性搜索 | |
CN107480158A (zh) | 基于相似性得分评估内容项目与图像的匹配的方法和系统 | |
CN105677780A (zh) | 可拓展的用户意图挖掘方法及其系统 | |
CN107003877A (zh) | 应用的上下文深层链接 | |
CN105320724A (zh) | 用于优化用于学习排序的非凸函数的新探索 | |
KR20170124581A (ko) | 특정 컨텍스트에 대한 사용자 요구의 예측 | |
CN111400504A (zh) | 企业关键人的识别方法和装置 | |
JP2022018087A (ja) | 地図情報表示方法、装置、電子デバイス及び記憶媒体 | |
CN110162637B (zh) | 信息图谱构建方法、装置及设备 | |
CN111553279B (zh) | 兴趣点的表征学习、识别方法、装置、设备及存储介质 | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
CN113609345B (zh) | 目标对象关联方法和装置、计算设备以及存储介质 | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN110191183A (zh) | 精准智能推送方法、系统、装置及计算机可读存储介质 | |
CN112000763A (zh) | 兴趣点竞争关系确定方法、装置、设备和介质 | |
CN106357835A (zh) | 一种用于确定目标ip地址所属地域的方法与设备 | |
CN109034199B (zh) | 数据处理方法及装置、存储介质和电子设备 | |
CN111563198B (zh) | 一种物料召回方法、装置、设备及存储介质 | |
CN112288483A (zh) | 用于训练模型的方法和装置、用于生成信息的方法和装置 | |
CN110427574B (zh) | 路线相似度确定方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |