CN104636489A - 描述属性数据的处理方法和装置 - Google Patents

描述属性数据的处理方法和装置 Download PDF

Info

Publication number
CN104636489A
CN104636489A CN201510090191.XA CN201510090191A CN104636489A CN 104636489 A CN104636489 A CN 104636489A CN 201510090191 A CN201510090191 A CN 201510090191A CN 104636489 A CN104636489 A CN 104636489A
Authority
CN
China
Prior art keywords
house
type
attribute
attribute index
vector set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510090191.XA
Other languages
English (en)
Other versions
CN104636489B (zh
Inventor
祝恒书
沈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510090191.XA priority Critical patent/CN104636489B/zh
Publication of CN104636489A publication Critical patent/CN104636489A/zh
Application granted granted Critical
Publication of CN104636489B publication Critical patent/CN104636489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Abstract

本发明实施例公开了一种描述属性数据的处理方法和装置。所述方法包括:将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对;将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集;根据所述属性指标向量集,对所述目标物进行类型划分。本发明建立了可以表达目标物的描述属性与第一指标值对应关系的属性指标向量集,并基于该属性指标向量,实现了目标物类型的精确划分,满足人们日益增长的个性化、精准化的目标物的类型划分需求。

Description

描述属性数据的处理方法和装置
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种描述属性数据的处理方法和装置。
背景技术
近年来随着互联网技术的蓬勃发展,出现了许多的在线房屋交易网站,在这些网站上,客户可以发布自己的房源销售信息以及寻找自己希望的房源。对于这些在线房屋网站以及房源信息发布者来说,一个极为重要的需求就是提前估计相关房屋的售卖时间(即:发布的房源多久后会被成交),这个售卖时间在经济学中被称为上市天数(Days on Market,DOM),这个参数是一个用来衡量房屋活跃程度的重要指标,同时也是一个具有重要经济价值的参考指标。
针对上述指标,现有技术的研究方向主要在于:通过各种统计学方法来对房屋的售卖时间进行分析,从而评估一个地区房屋市场的经济活跃度;或者通过数据挖掘方法自动评估一个房屋的保值程度(也称收益率)等。但是,上述研究均不涉及房屋售卖时间预测。
发明人通过研究发现,通过对所有的历史房屋成交记录进行回归模型训练(Regression Model)后,可以基于回归模型完成对房屋的售卖时间的预测。然而,通过对大量真实的历史数据进行分析后发现,两个包含非常相似训练特征的房屋可能在售卖时间上存在较大的区别。例如,同样是位于塔楼10层的南北通透三室两厅价格在300万左右的房屋,位于北京海淀区的房屋不到1周就会被售出,而位于北京昌平区的房屋则可能要数月才能售出。因此,如何对已售出房屋进行精准归类,进而训练出准确的回归模型对房屋售卖时间进行预测,是在预测房屋售卖时间时所遇到的一个非常重要的问题。
发明内容
有鉴于此,本发明实施例提供一种描述属性数据的处理方法和装置,以实现对目标物的类型进行精确划分,满足人们日益增长的个性化、精准化的目标物的类型划分需求。
在第一方面,本发明实施例提供了一种描述属性数据的处理方法,包括:将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对;
将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集;
根据所述属性指标向量集,对所述目标物进行类型划分。
在第二方面,本发明实施例提供了一种描述属性数据的处理装置,包括:
属性指标参数对生成模块,用于将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对;
属性指标向量集生成模块,用于将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集;
类型划分模块,用于根据所述属性指标向量集,对所述目标物进行类型划分。
本发明实施例通过将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对,根据与每个属性指标参数对相匹配的第二指标统计数据,生成属性指标向量集,根据所述属性指标向量集,对所述目标物类型进行划分的技术手段,建立了可以表达目标物的描述属性与第一指标值对应关系的属性指标向量集,并基于该属性指标向量,实现了目标物类型的精确划分,满足人们日益增长的个性化、精准化的目标物的类型划分需求。
附图说明
图1是本发明第一实施例的一种描述属性数据的处理方法的流程图;
图2是本发明第二实施例的一种描述属性数据的处理方法的流程图;
图3是本发明第二实施例的一种采用异构二部图的形式生成属性指标参数对的示意图;
图4是本发明第三实施例的一种描述属性数据的处理方法的流程图;
图5是本发明第四实施例的一种描述属性数据的处理方法的流程图;
图6是本发明第五实施例的一种描述属性数据的处理方法的流程图;
图7是本发明第五实施例的一种房屋售卖时间的整体预测流程的示意图;
图8是本发明第六实施例的一种描述属性数据的处理装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
第一实施例
图1为本发明第一实施例提供的一种描述属性数据的处理方法的流程图,本实施例的方法可以由描述属性数据的处理装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可以集成于用于提供描述属性数据的处理服务的服务器中。
本实施例的方法具体包括:
110、将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对。
所述目标物为可满足相同或相近功能的,具有相同或部分相同描述属性的属性值的物体,也即本实施例中需要进行类型划分的物体。例如,房屋、手机、家电、服饰、以及车辆等物体。其中,所述目标物的描述属性可以为一个或者多个,本实施例对此并不进行限制。
所述目标物的描述属性是指目标物所具有的特征或者性质的统称,描述属性的属性值用于区分同类目标物的不同特征或者性质。例如,如果目标物为房屋,对应的描述属性可以包括:房屋类型(对应的属性值可以包括:塔楼以及板房等)、房屋所在行政区(对应的属性值可以包括:海淀区以及丰台区等)以及房屋建筑面积(对应的属性值可以包括:50m2以下以及50~90m2等);再例如,如果目标物为手机,对应的描述属性可以包括:支持的网络(对应的属性值可以包括:4G以及3G等)、内存大小(对应的属性值可以包括:16M以及32M等)以及屏幕尺寸(对应的属性值可以包括:4.6寸以及5.0寸等)。
第一指标是指将目标物应用于设定领域后,用于衡量目标物与设定领域相关的属性参数,所述第一指标值为第一指标对应的不同取值。其中,可以通过经验选取至少两个第一指标值,也可以通过基于coefficient of variation(变异系数)的划分方法选取至少两个第一指标值,对此并不进行限制。
例如,如果将目标物应用于售卖市场,所述第一指标可以包括:售卖时间(对应的第一指标值可以包括:一周之内、两周之内或者三周之内等)、售卖价格(对应的第一指标值可以包括:500元以下,500-1000元等)以及售卖对象(对应的第一指标值可以包括:学生、在职人员或者老年人)。
在本实施例的一个优选的实施方式中,在完成对目标物的类型划分后,可以基于该类型划分结果对与所述目标物的待估计参数进行预测。优选的,所述第一指标与该待估计参数相符合。例如,如果需要对目标物的实际售卖时间进行预测,可以将所述第一指标设置为售卖时间;如果需要对目标物的实际售卖价格进行预测,可以将所述第一指标设置为售卖价格等。
所述属性指标参数对是指由目标物的描述属性的属性值以及至少两个第一指标值联合确定的参数对。举例而言,设定目标物为房屋,目标物的描述属性为房屋所在行政区以及房屋建筑面积,第一指标为售卖时间(例如,选取一周之内和二周之内作为两个第一指标值),针对一个房屋所在行政区为海淀区,房屋类型为塔楼的具体房屋,所生成的属性指标参数对可以包括:(海淀区,一周之内)、(海淀区,两周之内)、(塔楼,一周之内)以及(塔楼,两周之内)。
更一般的,针对M个描述属性,以及N个第一指标值的目标物,共可以生成M*N个属性指标参数对,其中,M≥1;N≥2。
120、将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集。
所述第二指标是指与属性指标参数对相匹配的,与一个已发生状态对应的参数。例如,售卖数量或者售卖均价等。所述第二指标统计数据是指与该已发生状态对应的统计数据。
续前例,如果目标物为房屋,属性指标参数对为(海淀区,一周之内),第二指标为售卖数量,则所述第二指标统计数据具体是指海淀区在一周之内实际售卖出去的全部房屋的总数目。
在本实施例中,通过获取每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,可以生成属性指标向量集。
其中,在获取每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值之后,可以根据不同描述属性,生成所述属性指标向量集,也可以直接生成所述属性指标向量集,对此并不进行限制。相应的,所述属性指标向量集中包括至少一个属性指标向量。
举例而言,(海淀区,一周之内)的权值为8、(海淀区,两周之内)的权值为15、(塔楼,一周之内)的权值为3、(塔楼,两周之内)的权值为5。
可以根据不同的描述属性,生成不同的属性指标向量,即:针对房屋所在行政区这个描述属性,可以获取与海淀区对应的属性指标向量(8,15);针对房屋类型这个描述属性,可以获取与塔楼对应的属性指标向量(3,5),进而可以生成与对应的属性指标向量集 8 , 15 3 , 5 ; 另外,也可以直接根据上述属性指标参数对的权值,生成属性指标量集(8,15,3,5)。
130、根据所述属性指标向量集,对所述目标物进行类型划分。
在本实施例中,基于与同类的不同目标物对应的属性指标向量集,可以使用多种已有算法,对所述目标物进行分类。
其中,可以使用各种经典的聚类算法,例如,K-Means(K均值)聚类算法或者CLARANS(A Clustering Algorithm based on Randomized Search,基于随机选择的聚类算法)等,对所述目标物进行分类,也可以通过计算各种经典相似度指标(例如,相关系数、余弦相似度或者欧几里得距离等)的方式,对所述目标物进行分类,本实施例对此并不进行限制。
本实施例的方法,在需要对同类不同目标物进行分类时,通过目标物的描述属性,以及设定的第一指标和第二指标,生成同类不同目标物的属性指标向量集,进而基于属性指标向量集对目标物进行分类。此时,当需要对一个同类新的目标物进行分类时,通过将该目标物的属性指标向量集与已分类的各类型目标物的属性指标向量集进行比对,即可实现对新的目标物的类型划分。
本发明实施例通过将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对,根据与每个属性指标参数对相匹配的第二指标统计数据,生成属性指标向量集,根据所述属性指标向量集,对所述目标物类型进行划分的技术手段,建立了可以表达目标物的描述属性与第一指标值对应关系的属性指标向量集,并基于该属性指标向量,实现了目标物类型的精确划分,满足人们日益增长的个性化、精准化的目标物的类型划分需求。
第二实施例
图2是本发明第二实施例的一种描述属性数据的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对优化为:采集所述目标物的至少两种描述属性的属性值,形成第一节点的点集;设定至少两个第一指标值,形成第二节点的点集;采用异构二部图的形式,基于所述第一节点和第二节点的点集生成所述属性指标参数对;
进一步的,根据所述属性指标向量集,对所述目标物进行类型划分优化为:基于各属性指标向量集,计算各目标物之间的相似度,将相似度满足设定阈值条件的目标物划分为相同类型。
相应的,本实施例的方法包括:
210、采集所述目标物的至少两种描述属性的属性值,形成第一节点的点集。
在本实施例中,为了进一步实现对目标物类型的精确划分,选取目标物的至少两种描述属性以形成第一节点。其中,选取的描述属性的种类越多,最终的类型划分结果越精确。
举例而言,选取三个描述属性,目标物与上述三个描述属性对应的属性值分别为f1、f2和f3,则所形成的第一节点的点集为: f 1 f 2 f 3 .
220、设定至少两个第一指标值,形成第二节点的点集。
举例而言,设定四个第一指标值,分别为d1、d2、d3和d4,则所形成的第二节点的点集为: d 1 d 2 d 3 d 4 .
230、采用异构二部图的形式,基于所述第一节点和第二节点的点集生成所述属性指标参数对。
在图3中示出了一种采用异构二部图的形式生成属性指标参数对的示意图。如图3所示,分别将第一节点的点集 f 1 f 2 f 3 与第二节点的点集 d 1 d 2 d 3 d 4 作为异构二部图的两个子集,之分别将第一节点的点集中各节点与第二节点的点集中的各节点之间进行连线,将与各连线对应的节点对作为所述属性指标参数对,即:(f1,d1)、(f1,d2)、……、(f3、d4)共12个。
240、将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集。
在本实施例中,将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,示例如图3中各连线上标识的wij所示。其中,i∈[1,3];j∈[1,4]。
优选的,可以根据与f1对应的(w11,w12,w13,w14),与f2对应的(w21,w22,w23,w24)以及与f3对应的(w31,w32,w33,w34),生成属性指标向量集 w 11 , w 12 , w 31 , w 14 w 21 , w 22 , w 23 , w 24 w 31 , w 32 , w 33 , w 34 .
250、基于各属性指标向量集,计算各目标物之间的相似度,将相似度满足设定阈值条件的目标物划分为相同类型。
在本实施例中,在获取同类不同目标物的属性指标向量集后,通过对不同的属性指标向量集两两进行相关运算,可以得到任意两个目标物之间的相似度。进而可以将相似度满足设定阈值条件的目标物划分为相同类型。
优选的,在进行相关运算之前,首先对属性指标向量集中的各个属性指标向量进行归一化处理。
本发明实施例通过根据目标物的至少两个描述属性构造异构二部图的方式生成属性指标参数对,并根据所述属性指标参数生成各属性指标向量集对目标物进行分类的技术手段,在简化属性指标参数对生成过程的同时,进一步提高了目标物类型划分结果的精确性。
第三实施例
图4是本发明第三实施例的一种描述属性数据的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的将所述第一指标优化为售卖时间,所述第二指标优化为售卖数量;
同时,将所述目标物优化为房屋,所述描述属性优化为包括下述至少一项:房屋所在行政区划、房屋售价、房屋所在小区、房屋所在楼层、房屋建筑面积以及房屋建成时间。
相应的,本实施例的方法包括:
410、将房屋的描述属性作为第一节点,将至少两个第一售卖时间作为第二节点,生成属性指标参数对。
在本实施例中,所述房屋的描述属性优化为包括下述至少一项:房屋所在行政区划、房屋售价、房屋所在小区、房屋所在楼层、房屋建筑面积以及房屋建成时间等。
当然,可以理解的是,除了上述描述属性之外,所述房屋的描述属性还可以包括:房屋门牌号、房屋邮寄地址、房屋所在小区均价、房屋是否靠近学校、房屋是否免税、房屋顶高、房屋装修度、房屋所在经度以及房屋所在维度等信息,对此并不进行限制。
420、将与每个属性指标参数对相匹配的售卖数量作为所述属性指标参数对的权值,以生成属性指标向量集。
430、根据所述属性指标向量集,对所述目标物进行类型划分。
本实施例的方法实现了对房屋类型的精准划分。满足人们日益增长的个性化、精准化的房屋类型的划分需求。此外,基于对已售出房屋类型的精确划分结果,可以进一步精准的建立与房屋相关参数的预测模型,进而实现对房屋相关参数的精准预测。
第四实施例
图5是本发明第四实施例的一种描述属性数据的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,还优选包括:根据相同类型房屋的属性指标向量集,建立与房屋类型对应的售卖时间预测模型。
相应的,本实施例的方法包括:
510、将房屋的描述属性作为第一节点,将至少两个第一售卖时间作为第二节点,生成属性指标参数对。
520、将与每个属性指标参数对相匹配的售卖数量作为所述属性指标参数对的权值,以生成属性指标向量集。
530、根据所述属性指标向量集,对所述目标物进行类型划分。
540、根据相同类型房屋的属性指标向量集,建立与房屋类型对应的售卖时间预测模型。
考虑到相同类型的房屋应该具有相同类型的预测模型,在本实施例中,获取相同类型房屋的属性指标向量集构造回归模型,以建立与房屋类型对应的售卖时间预测模型。
具体的,可以通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;Wt是需要预测的第t个房屋类型的售卖时间预测模型。
通过将上述公式取到最小值(minf),可以得到W1到Wm共m个房屋类型的售卖时间预测模型。
在上述公式中,代表向量的2-范数,即该向量的欧几里得距离,其中,||x||2=(|x1|2+|x2|2+...+|xn|2)1/2
本实施例的方法建立了房屋售卖时间的精准预测模型,进而可以实现对房屋售卖时间的精准预测。
第五实施例
图6是本发明第五实施例的一种描述属性数据的处理方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,还优选包括:根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型;
相应的,将操作根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型优化为:
通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2 + λ 2 Σ t 1 = 1 m Σ t 2 = 1 m S t 1 t 2 | | W t 1 - W t 2 | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;St1t2是第t1个房屋类型和第t2个房屋类型之间的相似度;Wt是需要预测的第t个房屋类型的售卖时间预测模型,λ是预设的模型参数,λ>0;minf表示上述公式要取到最小值。
相应的,还优选包括:根据待出售房屋的描述属性,获取所述待出售房屋所属的房屋类型;基于与所述待出售房屋所属的房屋类型对应的售卖时间预测模型,对所述待出售房屋的售卖时间进行预测。
相应的,本实施例的方法包括:
610、将房屋的描述属性作为第一节点,将至少两个第一售卖时间作为第二节点,生成属性指标参数对。
620、将与每个属性指标参数对相匹配的售卖数量作为所述属性指标参数对的权值,以生成属性指标向量集。
630、根据所述属性指标向量集,对所述目标物进行类型划分。
640、根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型。
考虑到相同类型的房屋应该具有相同类型的预测模型,类型相近的房屋应该具有相近的预测模式,在本实施例中,通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2 + λ 2 Σ t 1 = 1 m Σ t 2 = 1 m S t 1 t 2 | | W t 1 - W t 2 | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;St1t2是第t1个房屋类型和第t2个房屋类型之间的相似度;Wt是需要预测的第t个房屋类型的售卖时间预测模型,λ是预设的模型参数,λ>0。
通过将上述公式取到最小值(minf),可以得到W1到Wm共m个房屋类型的售卖时间预测模型。
650、根据待出售房屋的描述属性,获取所述待出售房屋所属的房屋类型。
在本实施例中,基于前述操作(610-620)相同的方法,根据待出售房屋的描述属性,可以构造与所述待出售房屋对应的属性指标向量集,通过将构造的所述属性指标向量集与不同的房屋类型进行相关度计算,即可获取所述待出售房屋所述的房屋类型。
660、基于与所述待出售房屋所属的房屋类型对应的售卖时间预测模型,对所述待出售房屋的售卖时间进行预测。
在本实施例中,通过将待出售房屋的属性指标向量集与对应的售卖时间预测模型进行相乘运算,即可得到所述待出售房屋的售卖时间预测值。
举例而言,待出售房屋的属性指标向量集为A,该待出售房屋所述的房屋类型对应的售卖时间预测模型为Wa,则所述待出售房屋的售卖时间预测值T=A*Wa T
其中,在图7中示出了一种房屋售卖时间的整体预测流程的示意图。
本实施例的方法在建立房屋售卖时间的精准预测模型基础上,实现对房屋售卖时间的精准预测。
第六实施例
在图8中示出了本发明第六实施例的一种描述属性数据的处理装置的结构图,如图8所示,所述装置包括:
属性指标参数对生成模块81,用于将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对。
属性指标向量集生成模块82,用于将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集。
类型划分模块83,用于根据所述属性指标向量集,对所述目标物进行类型划分。
本发明实施例通过将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对,根据与每个属性指标参数对相匹配的第二指标统计数据,生成属性指标向量集,根据所述属性指标向量集,对所述目标物类型进行划分的技术手段,建立了可以表达目标物的描述属性与第一指标值对应关系的属性指标向量集,并基于该属性指标向量,实现了目标物类型的精确划分,满足人们日益增长的个性化、精准化的目标物的类型划分需求。
在上述各实施例的基础上,所述属性指标参数对生成模块可以具体用于:
采集所述目标物的至少两种描述属性的属性值,形成第一节点的点集;
设定至少两个第一指标值,形成第二节点的点集;
采用异构二部图的形式,基于所述第一节点和第二节点的点集生成所述属性指标参数对。
在上述各实施例的基础上,所述类型划分模块具体可以用于:
基于各属性指标向量集,计算各目标物之间的相似度,将相似度满足设定阈值条件的目标物划分为相同类型。
在上述各实施例的基础上,所述第一指标可以为售卖时间;所述第二指标可以为售卖数量。
在上述各实施例的基础上,所述目标物可以为房屋;
所述描述属性可以包括下述至少一项:房屋所在行政区划、房屋售价、房屋所在小区、房屋所在楼层、房屋建筑面积以及房屋建成时间。
在上述各实施例的基础上,所述装置还可以包括,售卖时间预测模型建立模块:
用于根据相同类型房屋的属性指标向量集,或者
根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型。
在上述各实施例的基础上,所述售卖时间预测模型建立模块具体可以用于:
通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2 + λ 2 Σ t 1 = 1 m Σ t 2 = 1 m S t 1 t 2 | | W t 1 - W t 2 | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;St1t2是第t1个房屋类型和第t2个房屋类型之间的相似度;Wt是需要预测的第t个房屋类型的售卖时间预测模型,λ是预设的模型参数,λ>0;minf表示上述公式要取到最小值。
本发明实施例所提供的描述属性数据的处理装置可用于执行本发明任意实施例提供的描述属性数据的处理方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种描述属性数据的处理方法,其特征在于,包括:
将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对;
将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集;
根据所述属性指标向量集,对所述目标物进行类型划分。
2.根据权利要求1所述的方法,其特征在于,将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对包括:
采集所述目标物的至少两种描述属性的属性值,形成第一节点的点集;
设定至少两个第一指标值,形成第二节点的点集;
采用异构二部图的形式,基于所述第一节点和第二节点的点集生成所述属性指标参数对。
3.根据权利要求1所述的方法,其特征在于,根据所述属性指标向量集,对所述目标物进行类型划分包括:
基于各属性指标向量集,计算各目标物之间的相似度,将相似度满足设定阈值条件的目标物划分为相同类型。
4.根据权利要求1-3任一项所述的方法,其特征在于,
所述第一指标为售卖时间;所述第二指标为售卖数量。
5.根据权利要求4所述的方法,其特征在于:
所述目标物为房屋;
所述描述属性包括下述至少一项:房屋所在行政区划、房屋售价、房屋所在小区、房屋所在楼层、房屋建筑面积以及房屋建成时间。
6.根据权利要求5所述的方法,其特征在于,还包括:
根据相同类型房屋的属性指标向量集,或者
根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型。
7.根据权利要求6所述的方法,其特征在于,根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型包括:
通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2 + λ 2 Σ t 1 = 1 m Σ t 2 = 1 m S t 1 t 2 | | W t 1 - W t 2 | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;St1t2是第t1个房屋类型和第t2个房屋类型之间的相似度;Wt是需要预测的第t个房屋类型的售卖时间预测模型,λ是预设的模型参数,λ>0;minf表示上述公式要取到最小值。
8.根据权利要求6或7所述的方法,其特征在于,还包括:
根据待出售房屋的描述属性,获取所述待出售房屋所属的房屋类型;
基于与所述待出售房屋所属的房屋类型对应的售卖时间预测模型,对所述待出售房屋的售卖时间进行预测。
9.一种描述属性数据的处理装置,其特征在于,包括:
属性指标参数对生成模块,用于将目标物的描述属性作为第一节点,将至少两个第一指标值作为第二节点,生成属性指标参数对;
属性指标向量集生成模块,用于将与每个属性指标参数对相匹配的第二指标统计数据作为所述属性指标参数对的权值,以生成属性指标向量集;
类型划分模块,用于根据所述属性指标向量集,对所述目标物进行类型划分。
10.根据权利要求9所述的装置,其特征在于,所述属性指标参数对生成模块具体用于:
采集所述目标物的至少两种描述属性的属性值,形成第一节点的点集;
设定至少两个第一指标值,形成第二节点的点集;
采用异构二部图的形式,基于所述第一节点和第二节点的点集生成所述属性指标参数对。
11.根据权利要求9所述的装置,其特征在于,所述类型划分模块具体用于:
基于各属性指标向量集,计算各目标物之间的相似度,将相似度满足设定阈值条件的目标物划分为相同类型。
12.根据权利要求9-11任一项所述的装置,其特征在于,
所述第一指标为售卖时间;所述第二指标为售卖数量。
13.根据权利要求12所述的装置,其特征在于:
所述目标物为房屋;
所述描述属性包括下述至少一项:房屋所在行政区划、房屋售价、房屋所在小区、房屋所在楼层、房屋建筑面积以及房屋建成时间。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括,售卖时间预测模型建立模块:
用于根据相同类型房屋的属性指标向量集,或者
根据相同类型房屋的属性指标向量集以及不同类型房屋的相似度,建立与房屋类型对应的售卖时间预测模型。
15.根据权利要求14所述的装置,其特征在于,所述售卖时间预测模型建立模块具体用于:
通过如下公式建立与房屋类型对应的售卖时间预测模型:
min f = Σ t = 1 m | | Y t - X t W t T | | 2 2 + λ 2 Σ t 1 = 1 m Σ t 2 = 1 m S t 1 t 2 | | W t 1 - W t 2 | | 2 2
其中:m为划分的房屋类型的数目;Yt是第t个房屋类型中各房屋的真实售卖时间向量;Xt是第t个房屋类型中各房屋的属性指标向量集的集合;St1t2是第t1个房屋类型和第t2个房屋类型之间的相似度;Wt是需要预测的第t个房屋类型的售卖时间预测模型,λ是预设的模型参数,λ>0;minf表示上述公式要取到最小值。
CN201510090191.XA 2015-02-27 2015-02-27 描述属性数据的处理方法和装置 Active CN104636489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510090191.XA CN104636489B (zh) 2015-02-27 2015-02-27 描述属性数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510090191.XA CN104636489B (zh) 2015-02-27 2015-02-27 描述属性数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN104636489A true CN104636489A (zh) 2015-05-20
CN104636489B CN104636489B (zh) 2018-04-13

Family

ID=53215235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510090191.XA Active CN104636489B (zh) 2015-02-27 2015-02-27 描述属性数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN104636489B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276096A (zh) * 2019-05-08 2019-09-24 北京百度网讯科技有限公司 提高深度学习模型预测能力的方法、电子设备和存储介质
CN111176838A (zh) * 2019-12-18 2020-05-19 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125747A1 (en) * 2003-08-28 2011-05-26 Biz360, Inc. Data classification based on point-of-view dependency
CN104091117A (zh) * 2014-07-09 2014-10-08 北京智谷睿拓技术服务有限公司 基于安全风险的聚类方法及聚类装置
CN104091071A (zh) * 2014-07-09 2014-10-08 北京智谷睿拓技术服务有限公司 应用程序的风险确定方法及确定装置
CN104299044A (zh) * 2014-07-01 2015-01-21 沈阳工程学院 基于聚类分析的风功率短期预测系统及预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125747A1 (en) * 2003-08-28 2011-05-26 Biz360, Inc. Data classification based on point-of-view dependency
CN104299044A (zh) * 2014-07-01 2015-01-21 沈阳工程学院 基于聚类分析的风功率短期预测系统及预测方法
CN104091117A (zh) * 2014-07-09 2014-10-08 北京智谷睿拓技术服务有限公司 基于安全风险的聚类方法及聚类装置
CN104091071A (zh) * 2014-07-09 2014-10-08 北京智谷睿拓技术服务有限公司 应用程序的风险确定方法及确定装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276096A (zh) * 2019-05-08 2019-09-24 北京百度网讯科技有限公司 提高深度学习模型预测能力的方法、电子设备和存储介质
CN111176838A (zh) * 2019-12-18 2020-05-19 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置
CN111176838B (zh) * 2019-12-18 2023-12-22 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置

Also Published As

Publication number Publication date
CN104636489B (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
US9824156B1 (en) Targeting of digital content to geographic regions
Ligmann-Zielinska Spatially-explicit sensitivity analysis of an agent-based model of land use change
Fuchs et al. A knowledge destination framework for tourism sustainability: A business intelligence application from Sweden
Rapach et al. Bagging or combining (or both)? An analysis based on forecasting US employment growth
US20170017900A1 (en) System and method for feature generation over arbitrary objects
Avila et al. SUSSING MERGER TREES: the influence of the halo finder
CN106251174A (zh) 信息推荐方法及装置
Chronopoulou et al. Stochastic volatility and option pricing with long-memory in discrete and continuous time
CN102495864A (zh) 基于评分的协同过滤推荐方法及系统
CN105469263A (zh) 一种商品推荐方法及装置
Whitney et al. Probabilistic decision tools for determining impacts of agricultural development policy on household nutrition
CN106296257A (zh) 一种基于用户行为分析的固定广告位投放方法及系统
Alexopoulos et al. DESYMA: assessing flexibility for the lifecycle of manufacturing systems
CN108205775A (zh) 一种业务对象的推荐方法、装置和客户端
Sun et al. Spatial perspective on regional growth in China: Evidence from an extended neoclassic growth model
Kim Spatiotemporal scale dependency and other sensitivities in dynamic land-use change simulations
CN104636489A (zh) 描述属性数据的处理方法和装置
Aher Em&aa: An algorithm for predicting the course selection by student in e-learning using data mining techniques
Xu et al. Sensitivity of a stochastic land-cover change model to pixel versus polygonal land units
Borzemski et al. Client-perceived web performance knowledge discovery through turning bands method
Pekmezci et al. The comparison of performances of widely used cointegration tests
Guegan et al. Prediction in chaotic time series: methods and comparisons with an application to financial intra-day data
CN107066602A (zh) 一种新闻信息推送方法及系统
CN110347923B (zh) 一种可回溯的快速裂变式构建用户画像的方法
Ehlers et al. Bayesian estimation and prediction of stochastic volatility models via INLA

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant