CN114638305A - 数据的处理方法、装置、计算机设备和存储介质 - Google Patents
数据的处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114638305A CN114638305A CN202210270605.7A CN202210270605A CN114638305A CN 114638305 A CN114638305 A CN 114638305A CN 202210270605 A CN202210270605 A CN 202210270605A CN 114638305 A CN114638305 A CN 114638305A
- Authority
- CN
- China
- Prior art keywords
- data
- cells
- cell
- field information
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 96
- 238000007635 classification algorithm Methods 0.000 claims abstract description 76
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims description 103
- 238000000034 method Methods 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000007910 cell fusion Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种数据的处理方法、装置、计算机设备和存储介质。通过获取小区数据的字段信息,并且根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度,然后将小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,能够针对多来源的数据进行融合,实现数据标准化和统一化,并且可以定位可疑结果,降低人工判断的工作量。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及数据的处理方法、装置、计算机设备和存储介质。
背景技术
当前存在大量的楼盘交易网站信息,不同网站来源的楼盘数据会存在一定的重复性和差异性。关于楼盘融合匹配的方法,常见的是通过建立一套楼盘名、别名、区域、经纬度、路名、路号、物业类型、建筑年代、户数、绿化率等数据的信息库;然后根据楼盘信息建立相似度模型,不同的字段拥有不同的权重用于计算楼盘相似度得分;最后当达到一定的相似度得分后,就判定为相同楼盘,否则就继续用别名进行匹配,利用楼盘信息的相似度模型,通过关键字进行有权重的匹配。但是这种方法需要大量的人工判断和验证,并且算法本身缺乏迭代优化,相似度算法比较固定,无法定位有问题的判断结果,不能针对多来源的数据样本的特征进行迭代优化。在数据标准化和统一输出的需求下,如何实现多来源的同一楼盘的数据融合,成为一个亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种可以实现多来源的楼盘数据融合的数据处理的方法、装置、计算机设备和存储介质。
第一方面,本公开提供了一种数据的处理方法。所述方法包括:
获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;
根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;
将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,所述预测结果包括小区为相同类别的小区或唯一小区。
在其中一个实施例中,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
在其中一个实施例中,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述方法还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
在其中一个实施例中,所述方法还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;
所述将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果包括:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
在其中一个实施例中,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度包括:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
在其中一个实施例中,所述方法还包括:
当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述方法还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
第二方面,本公开还提供了一种数据的处理装置。所述装置包括:
字段信息获取模块,用于获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;
相似度确定模块,用于根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;
预测结果确定模块,用于将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,所述预测结果包括小区为相同类别的小区或唯一小区。
在其中一个实施例中,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
在其中一个实施例中,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述装置还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
在其中一个实施例中,所述装置还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;
所述预测结果确定模块具体用于:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
在其中一个实施例中,所述相似度确定模块具体用于:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
在其中一个实施例中,所述装置还包括:
当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述装置还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开任一项实施例所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开任一项实施例所述的方法。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一项实施例所述的方法。
本公开提供的实施方案,通过获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息,然后根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度。再将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果。本公开提供的实施方案通过在小区融合的过程中增加了机器学习二分类的判断,并且在小区或者是楼盘融合的最终结果中再次加入机器学习二分类的样本训练,可以使得只有当相似度的判断结果和机器学习二分类的判断结果不一致的情况下,才需要人工的接入,从而定位可疑结果,并且降低人工判断的工作量;将最终的验证结果数据作为训练样本进行相似度算法的迭代优化,同时补充了相似度算法的词库,使得能够针对多来源的楼盘数据或者是小区数据可以进行数据的融合,提高了楼盘融合或者是小区融合的匹配率和可靠性,并且可以调整相似度得分的阈值进行算法的迭代优化,实现数据标准化和统一化的输出。
附图说明
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中数据的处理方法的应用环境图;
图2为一个实施例中数据的处理方法的流程示意图;
图3为一个实施例中数据的处理方法的流程示意图;
图4为一个实施例中数据的处理方法的流程示意图;
图5为一个实施例中数据的处理方法的流程示意图;
图6为一个实施例中数据的处理方法的流程示意图;
图7为一个实施例中数据的处理方法中相似度模型建立的流程示意图;
图8为一个实施例中数据的处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
本公开实施例提供的数据的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息。服务器104根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度。将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据的处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202,获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息。
其中,字段信息可以包括小区所在的区域,也可以包括小区名,还可以包括小区所在的路名等。
具体地,可以获取用于表征小区特征的信息的小区数据的字段信息。在一些实施方式中,小区数据的字段信息可以如表1小区数据表所示。
S204,根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度。
其中,相似度可以包括用在机器学习中的相似度算法所得到的相似度,其中,用在机器学习中的相似度算法可以包括欧几里得距离、皮尔逊相关系数、余弦相似度等。
具体地,可以根据小区数据的字段信息的权重和字段信息的计算规则计算得到小区数据的相似度。在一些实施方式中,小区数据的字段信息的权重和字段信息的计算规则可以如表1所示,根据表1中的数据,可以计算得到小区数据的相似度,示例性地,小区数据的相似度计算方法可以通过以下方式得到:如果两个小区的小区名称关键字相同,则这两个小区相似度得分计算公式为:X1+X2+X6+X8+X9+X10+X11-X4-X5。如果两个小区的小区名称关键字不同,则这两个小区相似度得分计算公式为:X1+X6+X8+X9+X10+X11。其中,X2、X6取最大值。
表1小区数据表
S206,将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果。
其中,所述预测结果包括小区为相同类别的小区或唯一小区。机器学习二分类算法模型可以包括Logistic回归,在Logistic回归中,可以定义代价函数使用梯度下降法进行参数的优化。
具体地,可以通过将小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果。在一些实施方式中,可以将小区数据的字段信息输入至机器学习Logistic回归算法模型,经所述机器学习Logistic回归算法模型,输出得到预测结果。上述数据的处理方法中,通过获取小区数据的字段信息,并且根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度,然后将小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,能够针对多来源的数据进行融合,实现数据标准化和统一化,并且可以定位可疑结果,降低人工判断的工作量。
在一个实施例中,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
其中,分类因子可以包括用于表征小区特征的字段。具体地,可以根据样本小区数据的分类因子与所述预测结果的对应关系训练得到机器学习二分类算法模型。在一些实施方式中,分类因子的选择可以包括小区数据中字段的选择,如表2分类因子选择表所示,可以根据表2进行分类因子的选择。
表2分类因子选择表
示例性地,根据表2,机器学习二分类算法的步骤可以如下所示:首先对各个数据指标做标准差标准化处理,对原始数据的线性变换,将数据值映射到[0,1]之间,然后通过随机森林分类器,训练二分类算法模型,最后通过二分类算法模型预测至少两个小区是否为相同小区。
本实施例中,通过根据样本小区数据的分类因子与所述预测结果的对应关系训练得到机器学习二分类算法模型,可以使得在小区融合的过程中增加了机器学习二分类的判断,并且在小区或者是楼盘融合的最终结果中再次加入机器学习二分类的样本训练,可以使得只有当相似度的判断结果和机器学习二分类的判断结果不一致的情况下,才需要人工的接入,从而定位可疑结果,并且降低人工判断的工作量。
在一个实施例中,步骤S204根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
其中,预设阈值可以包括用来衡量相似度数值大小以进行预测结果判定的数值,可以为符合实际要求的自定义数值,例如可以为6分。
具体地,可以当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。在一些实施方式中,当两个小区的相似度得分均为8分时,并且经过机器学习二分类算法模型后得到的预测结果是相同的,例如得分均为0.7时,就可以判断所述两个小区为相同类别的小区,也可以判断所述两个小区为同一个小区。
本实施例中,通过当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区,能够针对多来源的数据进行融合,实现数据标准化和统一化,并且可以定位可疑结果,降低人工判断的工作量。
在一个实施例中,如图3所示,步骤S204根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
S302,当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据。
其中,人工核验可以包括对预测结果进行分析和标注,得到验证结果数据。
具体地,可以当当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行分析和标注,从而得到验证结果数据。
S304,若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
具体地,如果验证结果数据为相同小区,那么则将所述至少两个小区数据融合为相同类别的小区。在一些实施方式中,如果验证结果数据为相同小区,那么则将所述至少两个小区的名称归为同一个小区名称。例如,进行验证的两个小区分别为A小区和B小区,最后得到的验证结果数据均为B小区,那么则将A小区和B小区进行融合,统一定为B小区。
本实施例中,通过当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区,可以使得只有当相似度的判断结果和机器学习二分类的判断结果不一致的情况下,才需要人工的接入,从而定位可疑结果,并且降低人工判断的工作量。
在一个实施例中,所述方法还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
具体地,可以通过将验证结果数据作为训练样本,对机器学习二分类算法模型进行训练。
本实施例中,通过将验证结果数据作为训练样本,对机器学习二分类算法模型进行训练,可以使得对机器学习二分类算法进行优化迭代,使得能够针对多来源的楼盘数据或者是小区数据可以进行数据的融合,实现数据标准化和统一化的输出。
在一个实施例中,所述方法还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型。
具体地,可以通过对机器学习二分类算法模型利用训练样本进行训练以得到经过样本训练后的机器学习二分类算法模型。
步骤S206将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果包括:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
具体地,可以将小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
本实施例中,通过将小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果,使得能够针对多来源的楼盘数据或者是小区数据可以进行数据的融合,实现数据标准化和统一化的输出。
在一个实施例中,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度包括:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
具体地,可以根据字段信息的权重、字段信息的计算规则和所述验证结果数据以确定所述小区数据的相似度。
本实施例中,通过根据字段信息的权重、字段信息的计算规则和所述验证结果数据以确定所述小区数据的相似度,可以对相似度算法进行优化迭代,使得能够针对多来源的小区数据进行数据的融合。
在一个实施例中,如图4所示,所述方法还包括:
S402,当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据。
具体地,可以通过当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,可以利用人工核验的方法对所述预测结果进行分析和标注,得到验证结果数据。
S404,若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
具体地,可以通过若验证结果数据为相同小区,那么则将所述至少两个小区数据融合为相同类别的小区。在一些实施方式中,若验证结果数据为相同小区,那么则将两个小区数据融合为同一个小区数据。
本实施例中,通过当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据,若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区,能够针对多来源的楼盘数据或者是小区数据可以进行数据的融合,实现数据标准化和统一化的输出。
在一个实施例中,所述方法还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
具体地,如果验证结果数据为相同小区,那么则将所述小区确定为唯一小区。
本实施例中,通过验证结果数据为相同小区,那么则将所述小区确定为唯一小区,能够针对多来源的楼盘数据或者是小区数据可以进行数据的融合。
在一个实施例中,如图5所示,提供了一种数据的处理方法,所述方法包括以下步骤:
S502,获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息。
S504,根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度。
S506,当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
S508,当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据。
S510,若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
S512,将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
S514,利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型。
S516,将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
S518,当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据。
S520,若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
S522,当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
在一些实施方式中,所述数据的处理方法的流程图可以如图6所示,可以通过将多数据源输入至小区相似度算法后(步骤1),当小区相似度的得分≥6分(步骤2)时,则判断为相同小区,若小区相似度得分<6分(步骤3)时,则判断为相似小区,判断为相似小区后经过二次识别(步骤5)后,将结果输入至机器学习二分类,输出的结果可以为相同小区(步骤10)后可以利用人工核验提取标识(步骤12)也可以为不同小区(步骤11),若为不同小区则经过人工确认(步骤13)后,可以确定为唯一小区输出。若根据小区的相似度得分判断为相同小区后,可以经过自动核验(步骤4)后将结果输入至机器学习二分类后,可以有两种输出结果,一种为相同小区(步骤6),另一种为不同小区(步骤7),确定为相同小区可以进行小区融合(步骤8),确定为不同小区的可以利用人工核验提取标识(步骤9),如果经过人工核验提取标识后确定为不同小区,则可以将上述确定过程中的数据组成为数据问题分析集(步骤14),为机器学习二分类的训练样本(步骤15),数据问题分析集也可以作为小区相似度算法的训练集对小区相似度算法进行优化(步骤16),其中相似度模型的建立过程可以如图7所示,通过提取楼盘名称关键词,建立楼盘名称关键词库,然后进行楼盘基础信息的提取,最后得到楼盘相似度建模的计算结果。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的数据的处理方法的数据的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据的处理装置实施例中的具体限定可以参见上文中对于数据的处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种数据的处理装置800,包括:字段信息获取模块802、相似度确定模块804和预测结果确定模块806,其中:
字段信息获取模块802,用于获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;
相似度确定模块804,用于根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;
预测结果确定模块806,用于将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果。
在其中一个实施例中,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
在其中一个实施例中,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述装置还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
在其中一个实施例中,所述装置还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;
所述预测结果确定模块具体用于:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
在其中一个实施例中,所述相似度确定模块具体用于:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
在其中一个实施例中,所述装置还包括:
当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
在其中一个实施例中,所述装置还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
上述数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种客户端,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。其中,客户端可以为各种终端,例如可以为手机等。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。
Claims (21)
1.一种数据的处理方法,其特征在于,包括:
获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;
根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;
将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,所述预测结果包括小区为相同类别的小区或唯一小区。
2.根据权利要求1所述的方法,其特征在于,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
3.根据权利要求1所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
4.根据权利要求1所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度之后,所述方法还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;
所述将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果包括:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
7.根据权利要求4所述的方法,其特征在于,所述根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度包括:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
10.一种数据的处理装置,其特征在于,所述装置包括:
字段信息获取模块,用于获取小区数据的字段信息,所述字段信息包括用于表征小区特征的信息;
相似度确定模块,用于根据字段信息的权重和字段信息的计算规则,确定所述小区数据的相似度;
预测结果确定模块,用于将所述小区数据的字段信息输入至机器学习二分类算法模型,经所述机器学习二分类算法模型,输出得到预测结果,所述预测结果包括小区为相同类别的小区或唯一小区。
11.根据权利要求10所述的装置,其特征在于,所述机器学习二分类算法模型被设置为根据样本小区数据的分类因子与所述预测结果的对应关系训练得到。
12.根据权利要求10所述的装置,其特征在于,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,则将所述至少两个小区数据融合为相同类别的小区。
13.根据权利要求10所述的装置,其特征在于,所述相似度确定模块之后,所述装置还包括:
当小区的所述相似度大于预设阈值时,且至少两个所述小区数据的预测结果为不同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
将所述验证结果数据作为所述机器学习二分类算法模型的训练样本。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
利用所述训练样本训练所述机器学习二分类算法模型,得到经过样本训练后的机器学习二分类算法模型;
所述预测结果确定模块具体用于:
将所述小区数据的字段信息输入至所述经过样本训练后的机器学习二分类算法模型,经所述经过样本训练后的机器学习二分类算法模型,输出得到预测结果。
16.根据权利要求13所述的装置,其特征在于,所述相似度确定模块具体用于:
根据字段信息的权重、字段信息的计算规则和所述验证结果数据,确定所述小区数据的相似度。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:
当小区的所述相似度小于预设阈值时,且至少两个所述小区数据的预测结果为相同小区时,利用人工核验的方法对所述预测结果进行双重验证,得到验证结果数据;
若所述验证结果数据为相同小区,则将所述至少两个小区数据融合为相同类别的小区。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
当所述验证结果数据为相同小区,则将所述小区确定为唯一小区。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
21.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210270605.7A CN114638305A (zh) | 2022-03-18 | 2022-03-18 | 数据的处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210270605.7A CN114638305A (zh) | 2022-03-18 | 2022-03-18 | 数据的处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638305A true CN114638305A (zh) | 2022-06-17 |
Family
ID=81950272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210270605.7A Pending CN114638305A (zh) | 2022-03-18 | 2022-03-18 | 数据的处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638305A (zh) |
-
2022
- 2022-03-18 CN CN202210270605.7A patent/CN114638305A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492772B (zh) | 生成信息的方法和装置 | |
WO2021120677A1 (zh) | 一种仓储模型训练方法、装置、计算机设备及存储介质 | |
CN110825956A (zh) | 一种信息流推荐方法、装置、计算机设备及存储介质 | |
CN112418292A (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN114359582A (zh) | 一种基于神经网络的小样本特征提取方法及相关设备 | |
CN110866637B (zh) | 评分预测方法、装置、计算机设备和存储介质 | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
CN112199374B (zh) | 针对数据缺失的数据特征挖掘方法及其相关设备 | |
CN116894721A (zh) | 一种指标预测方法、装置、计算机设备 | |
CN116681470A (zh) | 门店选址方法、装置、计算机设备、存储介质和产品 | |
CN114625971B (zh) | 一种基于用户签到的兴趣点推荐方法及设备 | |
CN116796729A (zh) | 基于特征强化的文本推荐方法、装置、设备及存储介质 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN114638305A (zh) | 数据的处理方法、装置、计算机设备和存储介质 | |
CN115018608A (zh) | 风险预测方法、装置、计算机设备 | |
CN115392361A (zh) | 一种智能排序方法、装置、计算机设备及存储介质 | |
CN115129804A (zh) | 地址联想方法及其装置、设备、介质、产品 | |
CN114168787A (zh) | 音乐推荐方法、装置、计算机设备和存储介质 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
CN114490996B (zh) | 意图识别方法、装置、计算机设备和存储介质 | |
CN114048392B (zh) | 多媒体资源推送方法、装置、电子设备及存储介质 | |
CN116910095A (zh) | 埋点处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |