CN109816004A - 房源图片分类方法、装置、设备及存储介质 - Google Patents

房源图片分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109816004A
CN109816004A CN201910047888.7A CN201910047888A CN109816004A CN 109816004 A CN109816004 A CN 109816004A CN 201910047888 A CN201910047888 A CN 201910047888A CN 109816004 A CN109816004 A CN 109816004A
Authority
CN
China
Prior art keywords
picture
source
houses
classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910047888.7A
Other languages
English (en)
Inventor
杨军
洪明伟
许成龙
乔大海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Urban Construction Technology Shenzhen Co Ltd
Original Assignee
Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Urban Construction Technology Shenzhen Co Ltd filed Critical Ping An Urban Construction Technology Shenzhen Co Ltd
Priority to CN201910047888.7A priority Critical patent/CN109816004A/zh
Publication of CN109816004A publication Critical patent/CN109816004A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及图像处理,公开一种房源图片分类方法、装置、设备及存储介质,该方法包括:在接收到图片分类请求时,获取请求中包含的图片序列;提取图片序列中包含的图片编码,根据图片编码在数据库中查找对应的待分类房源图片;统计待分类房源图片的图片数量并检测所述图片数量是否超过预设阈值;在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果,由于是先通过图片分类请求图片序列中包含的图片编码来获取待分类图片,然后利用预先训练好的图片分类模型来对获取到的待分类的房源图片进行自动分类,相比于现有的人工对图片进行分类的方式,省时省力且效率较高。

Description

房源图片分类方法、装置、设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种房源图片分类方法、装置、设备及存储介质。
背景技术
随着互联网技术的飞速发展,各类应用程序(Application,App)已经广泛应用于大众的日常生活中。以房地产领域为例,用户在需要租房或买房时并不需要一开始就亲身实地去房源所在地考察,而是可以先通过房产服务类的App来查询想要租赁或购买的房源,然后按需浏览挑选再决定是否去实地查看房源,这种线上看房的方式相比于传统的现场考察的方式省时省力,用户体验较高。
为能够更准确地展示各类待出租或待出售的房源对应的房源图片以便用户浏览,房产服务类的App的服务商需要对每处房产的房源图片(例如卧室、阳台、客厅等)进行分类展示,以便用户能够直观的查询图片,目前房源图片的分类大多是采用人工线下分类的方式,不仅费时费力,而且容易产生差错。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种房源图片分类方法、装置、设备及存储介质,旨在解决现有的人工图片分类方式费事费力,效率较低的技术问题。
为实现上述目的,本发明提供了一种房源图片分类方法,所述方法包括以下步骤:
在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
优选地,所述统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值的步骤之后,所述方法还包括:
在检测到所述图片数量超过所述预设阈值时,将所述待分类房源图片划分为若干个图片集;
采用多线程技术将所述图片集分别输入至预设图片分类模型进行图片分类,获取所述图片集中每张待分类房源图片的分类结果;
将获取的待分类房源图片的分类结果与待分类房源图片对应的图片编码关联后进行保存。
优选地,所述在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列的步骤之前,所述方法还包括:
按预设图片类型从图片库中选取对应的房源图片,并根据选取的房源图片构建模型验证图片集和预设数量的模型训练图片集;
将各模型训练图片集中的训练图片输入至初始图片分类模型进行模型训练,获取各模型训练图片集对应的待验证图片分类模型;
根据所述模型验证图片集中包含的验证图片分别对所述待验证图片分类模型进行验证,并根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型。
优选地,所述验证结果包括所述待验证图片分类模型对所述验证图片分类后的准确率和召回率;
所述根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型的步骤,包括:
根据所述准确率和所述召回率,通过预设公式对各待验证图片分类模型进行评分,获取评分结果;
根据所述评分结果从所述待验证图片分类模型中筛选出预设图片分类模型;
其中,所述预设公式为:
Fscore=(2*precision*recall)/(precision+recall)
式中,Fscore为评分结果,precision为准确率,recall为召回率。
优选地,所述按预设图片类型从图片库中选取对应的房源图片的步骤之前,所述方法还包括:
获取预设图片类型的范本图片,对所述范本图片进行特征点提取以获取各范本图片对应的基准特征点集;
通过预先编写的网络爬虫爬取预设数量的初始房源图片;
基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库。
优选地,所述基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配的步骤之前,所述方法还包括:
根据所述初始房源图片的图片属性获取对应的图片分辨率;
检测所述图片分辨率是否高于预设分辨率;
若是,则将所述初始房源图片作为有效房源图片,并执行基于各范本图片对应的基准特征点集对所述有效房源图片进行特征点匹配的步骤。
优选地,所述基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库的步骤,包括:
对所述初始房源图片进行特征点提取,获取初始特征点集;
基于各范本图片对应的基准特征点集分别对所述初始特征点集进行特征点匹配,并获取对应的特征点匹配度;
从所述特征点匹配度中选取匹配度最高的目标特征点匹配度,根据所述目标特征点匹配度确定目标基准特征点集;
根据所述目标基准特征点集确定所述初始房源图片对应的目标范本图片,并将所述初始房源图片保存至图片库中所述目标范本图片对应的存储区域。
此外,为实现上述目的,本发明还提出一种房源图片分类装置,所述装置包括:
序列提取模块,用于在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
图片获取模块,用于提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
阈值比较模块,用于统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
图片分类模块,用于在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
此外,为实现上述目的,本发明还提出一种房源图片分类设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的房源图片分类程序,所述房源图片分类程序配置为实现如上文所述的房源图片分类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有房源图片分类程序,所述房源图片分类程序被处理器执行时实现如上文所述的房源图片分类方法的步骤。
本发明通过在接收到图片分类请求时,获取请求中包含的图片序列;提取图片序列中包含的图片编码,根据图片编码在数据库中查找对应的待分类房源图片;统计待分类房源图片的图片数量并检测所述图片数量是否超过预设阈值;在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果,由于是通过图片分类请求携带的图片序列中包含的图片编码来获取待分类图片,然后利用预先训练好的图片分类模型来对待分类的房源图片进行分类,相比于现有的人工对图片进行分类的方式,省时省力且效率较高。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的房源图片分类设备的结构示意图;
图2为本发明房源图片分类方法第一实施例的流程示意图;
图3为本发明房源图片分类方法第二实施例的流程示意图;
图4为本发明房源图片分类方法第三实施例的流程示意图;
图5为本发明房源图片分类方法第四实施例的流程示意图;
图6为本发明房源图片分类装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的房源图片分类设备结构示意图。
如图1所示,该房源图片分类设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对房源图片分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及房源图片分类程序。
在图1所示的房源图片分类设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明房源图片分类设备中的处理器1001、存储器1005可以设置在房源图片分类设备中,所述房源图片分类设备通过处理器1001调用存储器1005中存储的房源图片分类程序,并执行本发明实施例提供的房源图片分类方法。
本发明实施例提供了一种房源图片分类方法,参照图2,图2为本发明房源图片分类方法第一实施例的流程示意图。
本实施例中,所述房源图片分类方法包括以下步骤:
步骤S10:在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
需要说明的是,本发明方法的执行主体可以是具有图像数据处理、程序运行以及网络通信功能的计算机或终端设备(以下简称分类终端)。所述图片序列可以是由图片编码组成的具有一定排列次序的数据信息,例如“01/02/03……099”等。其中,所述图片编码可以是能够将不同图片进行区分的标识码或标识符,如“01、02、03等”。
应理解的是,所述图片分类请求可以由工作人员通过分类终端的人机交互界面手动触发生成,也可以由分类终端根据预先设定的定时任务触发生成,本实施例对此不作限制。
在具体实现中,分类终端在接收到在图片分类请求时,对所述图片分类请求进行解析,获取所述图片分类请求中包含的图片序列。
步骤S20:提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
需要说明的是,在图片分类开始之前,工作人员可将待分类房源图片传输至分类终端,分类终端在接收到这些房源图片后可根据既定规则(例如,根据图片接收顺序)来对每一张待分类房源图片进行图片编码,然后将图片编码作为待分类房源图片的图片名称,并保存至数据库。所述待分类房源图片可以是不同类型的房屋图片,例如卧室,阳台,卫生间,户型图,客厅,厨房等图片。
在具体实现中,分类终端可从获取到的图片序列中提取对应的图片编码,然后根据该图片编码在数据库中查找对应的待分类房源图片,即查找图片名称为该图片编码的待分类房源图片。
步骤S30:统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
应理解的是,在实际应用中,每一次需要通过分类终端进行图片分类的房源图片数量可能有多有少,当数量较少时分类终端即便是采用单线程模式也能够在较短的时间内完成对这些房源图片的分类,但在某些特定场景下,单次需要分类的房源图片可能数量巨大,这种情况若分类终端仍采用单线程模式来进行图片分类,就会大大增加图片分类时间,进而影响图片分类效率。考虑到此种情况,本实施例通过设置一个预设阈值(具体数值不做限定)用来检测当前需要进行图片分类的房源图片的图片数量,然后根据检测结果来决定采用何种模式(单线程或多线程)来进行后续图片分类操作。
可理解的是,所谓单线程一般是指在程序执行时,所走的程序路径按照连续顺序排下来,前面的必须处理好,后面的才会执行,而多线程是指从软件或者硬件上实现多个线程并发执行的技术,该技术能够在同一时间执行多于一个线程,进而提升整体处理性能。
在具体实现中,分类终端在获取到需要分类的待分类房源图片后,还将统计待分类房源图片的图片数量,然后检测所述图片数量是否超过预设阈值。
步骤S40:在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
需要说明的是,所述预设图片分类模型可以是预先训练好的用于对房源图片进行分类的卷积神经网络(Convolutional Neural Network,CNN)模型。
当然,考虑到实际应用中,完全对一个新的CNN模型进行图片分类训练需要基于大型图像数据库(例如ImageNet)来实现,这种方式无疑将会耗费大量的人力物力。因此,本实施例中可直接基于改进的Inception模型来实现图像分类。当然,本实施例中改进的Inception模型可以是根据不同类型的房源图片的图像特征来对Inception模型(其本质为CNN模型)进行针对性训练后得出的模型(即所述预设图片分类模型)。
可理解的是,Inception模型最后一层的输出为softmax概率值的集合,通常情况下某一图片类型对应的softmax概率值越高就表明该图片越可能属于这一图片类型。例如将房源图片A输入至预设图片分类模型后,获得的图片分类结果为(图片类型“阳台”=60%,图片类型“卧室”=30%,图片类型“户型图”=10%),则表明房源图片A的图片类型大概率属于图片类型1。
在具体实现中,若分类终端检测到所述图片数量不超过所述预设阈值时,表明本次需要进行图片分类的待分类房源图片并不需要采用多线程模式进行处理,则可将待分类房源图片输入预设图片分类模型进行图片分类,然后获取图片分类结果。
本实施例通过在接收到图片分类请求时,获取请求中包含的图片序列;提取图片序列中包含的图片编码,根据图片编码在数据库中查找对应的待分类房源图片;统计待分类房源图片的图片数量并检测所述图片数量是否超过预设阈值;在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果,由于是通过预先训练好的图片分类模型来对待分类的房源图片进行分类,相比于现有的人工对图片进行分类的方式,省时省力且效率较高。
参考图3,图3为本发明房源图片分类方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例房源图片分类方法在所述步骤S30之后,还包括:
步骤S40':在检测到所述图片数量超过所述预设阈值时,将所述待分类房源图片划分为若干个图片集;
应理解的是,若分类终端在检测到所述图片数量超过所述预设阈值时,表明本次需要进行图片分类的待分类房源图片过大,需要采用多线程模式进行处理,此时分类终端可将所述待分类房源图片划分为若干个图片集。
进一步地,为最大化的提高图片分类的效率,分类终端在进行待分类房源图片划分时可采用等分的原则,即使得分类后的每一个图片集中的图片数量都相等或近似相等,且所述图片集的具体数量可以根据所述图片数量确定,例如将图片数量属于(500~1000)范围的图片集的具体数量(即集合划分数值)设置为4,将图片数量属于(1000~1500)范围的图片集的具体数量设置为5。
具体的,分类终端可根据预先设置的图片范围列表确定图片数量对应的目标图片范围,然后在预先构建的图片范围和集合划分数值之间的映射关系中查找所述目标图片范围对应的目标集合划分数值,再根据所述目标集合划分数值将所述待分类房源图片划分为若干个图片集。
步骤S41':采用多线程技术将所述图片集分别输入至预设图片分类模型进行图片分类,获取所述图片集中每张待分类房源图片的分类结果;
在具体实现中,分类终端在将待分类房源图片划分为若干个图片集后,将采用多线程技术分别将划分好的图片集输入至预设图片分类模型进行图片分类,然后获取每一线程的预设图片分类模型输出的图片集中每张待分类房源图片的分类结果。
步骤S42':将获取的待分类房源图片的分类结果与待分类房源图片对应的图片编码关联后进行保存。
应理解的是,所述分类结果即待分类房源图片对应各种图片类型的概率值,例如待分类房源图片A经预设图片分类模型分类后,对应的图片分类结果为:图片类型“阳台”=40%,图片类型“客厅”=30%,图片类型“卧室”=20%,图片类型“户型图”=10%,则可确定出房源图片A为“阳台”这一类型的图片。
在具体实现中,分类终端在获取到待分类房源图片的分类结果后,即可根据该分类结果确定待分类房源图片所属的目标图片类型,然后再将该目标图片类型与对应的图片编码关联后进行保存,从而实现对每一张房源图片的分类。
本实施例分类终端在检测到图片数量超过预设阈值时,将待分类房源图片划分为若干个图片集;采用多线程技术将图片集分别输入至预设图片分类模型进行图片分类,获取图片集中每张待分类房源图片的分类结果;将获取的待分类房源图片的分类结果与待分类房源图片对应的图片编码关联后进行保存,最大化的提高了图片的分类效率。
参考图4,图4为本发明房源图片分类方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S10之前,所述方法还包括:
步骤S01:按预设图片类型从图片库中选取对应的房源图片,并根据选取的房源图片构建模型验证图片集和预设数量的模型训练图片集;
应理解的是,所述图片库中预先存放有大量不同类型(卧室,阳台,卫生间,户型图,客厅,厨房等)的房源图片,且这些房源图片都是按类型分类存放在图片库中。所述模型训练图片集有多个,且每个模型训练图片集中每种类型的房源图片的数量相同,但各模型训练图片集之间房源图片数量不同,例如第一模型训练图片集中每种类型的图片各1000张,第二模型训练图片集中每种类型的图片各2000张,第三模型训练图片集中每种类型的图片各3000张。
此外,本实施例中模型验证图片集的数量优选为一个,且所述模型验证图片集中包含了所有类型的房源图片且数量相同,例如各500张。
在具体实现中,分类终端可根据预设图片类型从图片库中分别挑选不同数量不同类型的房源图片构建模型验证图片集和模型训练图片集。
步骤S02:将各模型训练图片集中的训练图片输入至初始图片分类模型进行模型训练,获取各模型训练图片集对应的待验证图片分类模型;
需要说明的是,所述初始图片分类模型可以是CNN模型,也可以是采用上述实施例中所述的Inception模型。
在具体实现中,分类终端可从模型训练图片集中读取不同类型的房源图片,然后将读取到的图片依次输入到Inception模型中进行模型训练,获取每一个模型训练图片集对应的待验证图片分类模型。其中,所述待验证图片分类模型的数量与所述模型训练图片集的数量相同。
步骤S03:根据所述模型验证图片集中包含的验证图片分别对所述待验证图片分类模型进行验证,并根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型。
可理解的是,为保证模型训练结果的准确性,分类终端可从模型验证图片集中随机选取验证图片,然后将选取的图片分别输入到所述待验证图片分类模型中进行验证,并获取验证结果。
进一步地,本实施例中验证结果包括待验证图片分类模型对模型验证图片集中的验证图片分类后的准确率和召回率。应理解的是,在信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率。
在具体实现中,分类终端可根据验证结果中的所述准确率和所述召回率对各待验证图片分类模型进行评分获取评分结果,然后再根据所述评分结果从所述待验证图片分类模型中筛选出预设图片分类模型。
考虑到实际情况下,召回率和准确率是此消彼长、难以兼顾的,本实施例考虑采用一个能够综合两种指标的数学公式来衡量待验证图片分类模型的优劣。具体的,分类终端可根据所述准确率和所述召回率,通过预设公式对各待验证图片分类模型进行评分,获取评分结果,然后根据所述评分结果从所述待验证图片分类模型中筛选出预设图片分类模型;其中,所述预设公式为:
Fscore=(2*precision*recall)/(precision+recall)
式中,Fscore为评分结果,precision为准确率,recall为召回率。
需要说明的是,上述公式中Fscore既不是算术平均值,也不是几何平均值,可以理解为几何平均值的平方除以算术平均值。
在具体实现中,分类终端在根据上述预设公式计算出各待验证图片分类模型对应的评分结果后,还可将所述评分结果按从高到低的顺序进行排序,并根据排序结果将排序第一的评分结果作为目标评分结果;将所述目标评分结果对应的待验证图片分类模型作为预设图片分类模型。例如,分类终端计算出的待验证图片分类模型a、b、c分别对应的评分结果为98.8%、99.1%、97.9%,经过从高到低的顺序排序后得知排序第一的评分结果为99.1%,从而可以确定出最优的待验证图片分类模型为待验证图片分类模型b,此时即可将待验证图片分类模型b作为所述预设图片分类模型。
本实施例通过模型训练图片集对初始图片分类模型进行模型训练,然后通过模型验证图片集对训练后的待验证图片分类模型进行验证,再根据验证结果筛选出最优的预设图片分类模型,保证了用于房源图片分类的模型的准确性。
参考图5,图5为本发明房源图片分类方法第四实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S01之前,所述方法还包括:
步骤S1:获取预设图片类型的范本图片,对所述范本图片进行特征点提取以获取各范本图片对应的基准特征点集;
需要说明的是,所述范本图片可以是工作人员按所述预设图片类型预先挑选出的基准图片,每一类型的范本图片可以是一张也可以是多张,当每一类型的范本图片为多张时,其对应的基准特征点集中的特征点为多张范本图片的特征点集的交集对应的特征点。
应理解的是,所谓特征点提取,即特征提取,是指使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。在本步骤中,分类终端可先获取工作人员预先选取范本图片,然后分别对这些范本图片进行特征点提取,以获取各范本图片对应的基准特征点集。
步骤S2:通过预先编写的网络爬虫爬取预设数量的初始房源图片;
应理解的是,所述网络爬虫又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。在执行本步骤之前,工作人员可以预先编写用于进行房源图片爬取的脚本(即所述网络爬虫),然后通过该脚本爬取预设数量的初始房源图片。
进一步地,为保证图片库中存放图片的图片质量,本实施例中分类终端还将根据所述初始房源图片的图片属性获取对应的图片分辨率;检测所述图片分辨率是否高于预设分辨率;若是,则将所述初始房源图片作为有效房源图片,并执行基于各范本图片对应的基准特征点集对所述有效房源图片进行特征点匹配的步骤。
步骤S3:基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库。
在具体实现中,分类终端可对所述初始房源图片进行特征点提取,获取初始特征点集;然后基于各范本图片对应的基准特征点集分别对所述初始特征点集进行特征点匹配,并获取对应的特征点匹配度;从所述特征点匹配度中选取匹配度最高的目标特征点匹配度,根据所述目标特征点匹配度确定目标基准特征点集;根据所述目标基准特征点集确定所述初始房源图片对应的目标范本图片,并将所述初始房源图片保存至图片库中所述目标范本图片对应的存储区域。例如,分类终端基于各范本图片对应的基准特征点集对初始房源图片a进行特征点匹配后,获取到房源图片a对于卧室,阳台,卫生间,户型图,客厅,厨房等范本图片对应的基准特征点集的匹配度分别为80%、10%、4%、3%、2%、1%,则可确定房源图片a对应的目标范本图片为卧室,此时,即可将房源图片a保存至图片库中卧室图片对应的存储区域,以实现对初始房源图片(或有效房源图片)的分类。
本实施例通过获取预设图片类型的范本图片,对范本图片进行特征点提取以获取各范本图片对应的基准特征点集;通过预先编写的网络爬虫爬取预设数量的初始房源图片;基于各范本图片对应的基准特征点集对初始房源图片进行特征点匹配,并根据匹配结果将初始房源图片分类保存至图片库,保证了图片库中用于进行模型训练的图片质量,使得根据图片库中的图片训练出的图片分类模型具有较高的准确度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有房源图片分类程序,所述房源图片分类程序被处理器执行时实现如上文所述的房源图片分类方法的步骤。
参照图6,图6为本发明房源图片分类装置第一实施例的结构框图。
如图6所示,本发明实施例提出的房源图片分类装置包括:
序列提取模块601,用于在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
图片获取模块602,用于提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
阈值比较模块603,用于统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
图片分类模块604,用于在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
本实施例通过在接收到图片分类请求时,获取请求中包含的图片序列;提取图片序列中包含的图片编码,根据图片编码在数据库中查找对应的待分类房源图片;统计待分类房源图片的图片数量并检测所述图片数量是否超过预设阈值;在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果,由于是通过预先训练好的图片分类模型来对待分类的房源图片进行分类,相比于现有的人工对图片进行分类的方式,省时省力且效率较高。
基于本发明上述房源图片分类装置第一实施例,提出本发明房源图片分类装置的第二实施例。
在本实施例中,所述图片分类模块604,还用于在检测到所述图片数量超过所述预设阈值时,将所述待分类房源图片划分为若干个图片集;采用多线程技术将所述图片集分别输入至预设图片分类模型进行图片分类,获取所述图片集中每张待分类房源图片的分类结果;将获取的待分类房源图片的分类结果与待分类房源图片对应的图片编码关联后进行保存。
进一步地,本实施例中所述房源图片分类装置还包括模型构建模块,所述模型构建模块,用于按预设图片类型从图片库中选取对应的房源图片,并根据选取的房源图片构建模型验证图片集和预设数量的模型训练图片集;将各模型训练图片集中的训练图片输入至初始图片分类模型进行模型训练,获取各模型训练图片集对应的待验证图片分类模型;根据所述模型验证图片集中包含的验证图片分别对所述待验证图片分类模型进行验证,并根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型。
进一步地,所述模型构建模块,还用于根据所述准确率和所述召回率,通过预设公式对各待验证图片分类模型进行评分,获取评分结果;根据所述评分结果从所述待验证图片分类模型中筛选出预设图片分类模型;其中,所述预设公式为:
Fscore=(2*precision*recall)/(precision+recall)
式中,Fscore为评分结果,precision为准确率,recall为召回率。
进一步地,本实施例中所述房源图片分类装置还包括图片筛选模块,所述图片筛选模块,用于获取预设图片类型的范本图片,对所述范本图片进行特征点提取以获取各范本图片对应的基准特征点集;通过预先编写的网络爬虫爬取预设数量的初始房源图片;基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库。
进一步地,所述图片筛选模块,还用于根据所述初始房源图片的图片属性获取对应的图片分辨率;检测所述图片分辨率是否高于预设分辨率;若是,则将所述初始房源图片作为有效房源图片,并执行基于各范本图片对应的基准特征点集对所述有效房源图片进行特征点匹配的步骤。
进一步地,所述图片筛选模块,还用于对所述初始房源图片进行特征点提取,获取初始特征点集;基于各范本图片对应的基准特征点集分别对所述初始特征点集进行特征点匹配,并获取对应的特征点匹配度;从所述特征点匹配度中选取匹配度最高的目标特征点匹配度,根据所述目标特征点匹配度确定目标基准特征点集;根据所述目标基准特征点集确定所述初始房源图片对应的目标范本图片,并将所述初始房源图片保存至图片库中所述目标范本图片对应的存储区域。
本发明房源图片分类装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种房源图片分类方法,其特征在于,所述方法包括:
在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
2.如权利要求1所述的方法,其特征在于,所述统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值的步骤之后,所述方法还包括:
在检测到所述图片数量超过所述预设阈值时,将所述待分类房源图片划分为若干个图片集;
采用多线程技术将所述图片集分别输入至预设图片分类模型进行图片分类,获取所述图片集中每张待分类房源图片的分类结果;
将获取的待分类房源图片的分类结果与待分类房源图片对应的图片编码关联后进行保存。
3.如权利要求2所述的方法,其特征在于,所述在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列的步骤之前,所述方法还包括:
按预设图片类型从图片库中选取对应的房源图片,并根据选取的房源图片构建模型验证图片集和预设数量的模型训练图片集;
将各模型训练图片集中的训练图片输入至初始图片分类模型进行模型训练,获取各模型训练图片集对应的待验证图片分类模型;
根据所述模型验证图片集中包含的验证图片分别对所述待验证图片分类模型进行验证,并根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型。
4.如权利要求3所述的方法,其特征在于,所述验证结果包括所述待验证图片分类模型对所述验证图片分类后的准确率和召回率;
所述根据验证结果从所述待验证图片分类模型中筛选出预设图片分类模型的步骤,包括:
根据所述准确率和所述召回率,通过预设公式对各待验证图片分类模型进行评分,获取评分结果;
根据所述评分结果从所述待验证图片分类模型中筛选出预设图片分类模型;
其中,所述预设公式为:
Fscore=(2*precision*recall)/(precision+recall)
式中,Fscore为评分结果,precision为准确率,recall为召回率。
5.如权利要求3所述的方法,其特征在于,所述按预设图片类型从图片库中选取对应的房源图片的步骤之前,所述方法还包括:
获取预设图片类型的范本图片,对所述范本图片进行特征点提取以获取各范本图片对应的基准特征点集;
通过预先编写的网络爬虫爬取预设数量的初始房源图片;
基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库。
6.如权利要求5所述的方法,其特征在于,所述基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配的步骤之前,所述方法还包括:
根据所述初始房源图片的图片属性获取对应的图片分辨率;
检测所述图片分辨率是否高于预设分辨率;
若是,则将所述初始房源图片作为有效房源图片,并执行基于各范本图片对应的基准特征点集对所述有效房源图片进行特征点匹配的步骤。
7.如权利要求5所述的方法,其特征在于,所述基于各范本图片对应的基准特征点集对所述初始房源图片进行特征点匹配,并根据匹配结果将所述初始房源图片分类保存至图片库的步骤,包括:
对所述初始房源图片进行特征点提取,获取初始特征点集;
基于各范本图片对应的基准特征点集分别对所述初始特征点集进行特征点匹配,并获取对应的特征点匹配度;
从所述特征点匹配度中选取匹配度最高的目标特征点匹配度,根据所述目标特征点匹配度确定目标基准特征点集;
根据所述目标基准特征点集确定所述初始房源图片对应的目标范本图片,并将所述初始房源图片保存至图片库中所述目标范本图片对应的存储区域。
8.一种房源图片分类装置,其特征在于,所述装置包括:
序列提取模块,用于在接收到图片分类请求时,获取所述图片分类请求中包含的图片序列;
图片获取模块,用于提取所述图片序列中包含的图片编码,根据所述图片编码在数据库中查找对应的待分类房源图片;
阈值比较模块,用于统计所述待分类房源图片的图片数量,并检测所述图片数量是否超过预设阈值;
图片分类模块,用于在检测到所述图片数量不超过所述预设阈值时,将所述待分类房源图片输入预设图片分类模型进行图片分类,并获取图片分类结果。
9.一种房源图片分类设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的房源图片分类程序,所述房源图片分类程序配置为实现如权利要求1至7中任一项所述的房源图片分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有房源图片分类程序,所述房源图片分类程序被处理器执行时实现如权利要求1至7任一项所述的房源图片分类方法的步骤。
CN201910047888.7A 2019-01-17 2019-01-17 房源图片分类方法、装置、设备及存储介质 Pending CN109816004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910047888.7A CN109816004A (zh) 2019-01-17 2019-01-17 房源图片分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910047888.7A CN109816004A (zh) 2019-01-17 2019-01-17 房源图片分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109816004A true CN109816004A (zh) 2019-05-28

Family

ID=66603513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910047888.7A Pending CN109816004A (zh) 2019-01-17 2019-01-17 房源图片分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109816004A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390304A (zh) * 2019-07-24 2019-10-29 广东南方数码科技股份有限公司 自动分类方法、装置、电子设备及存储介质
CN112905874A (zh) * 2019-12-03 2021-06-04 贝壳技术有限公司 房源检索方法、装置、存储介质及设备
CN116958795A (zh) * 2023-06-30 2023-10-27 北京房多多信息技术有限公司 翻拍图像的识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103324955A (zh) * 2013-06-14 2013-09-25 浙江智尔信息技术有限公司 一种基于视频处理的行人检测方法
WO2014029354A1 (zh) * 2012-08-24 2014-02-27 腾讯科技(深圳)有限公司 图片上传方法和系统、客户端
CN107944414A (zh) * 2017-12-05 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN108734227A (zh) * 2018-06-13 2018-11-02 北京宏岸图升网络技术有限公司 一种图片的分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
WO2014029354A1 (zh) * 2012-08-24 2014-02-27 腾讯科技(深圳)有限公司 图片上传方法和系统、客户端
CN103324955A (zh) * 2013-06-14 2013-09-25 浙江智尔信息技术有限公司 一种基于视频处理的行人检测方法
CN107944414A (zh) * 2017-12-05 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN108734227A (zh) * 2018-06-13 2018-11-02 北京宏岸图升网络技术有限公司 一种图片的分类方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390304A (zh) * 2019-07-24 2019-10-29 广东南方数码科技股份有限公司 自动分类方法、装置、电子设备及存储介质
CN112905874A (zh) * 2019-12-03 2021-06-04 贝壳技术有限公司 房源检索方法、装置、存储介质及设备
CN112905874B (zh) * 2019-12-03 2021-11-12 贝壳找房(北京)科技有限公司 房源检索方法、装置、存储介质及设备
CN116958795A (zh) * 2023-06-30 2023-10-27 北京房多多信息技术有限公司 翻拍图像的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Romero et al. Differences in the mechanics of information diffusion across topics: idioms, political hashtags, and complex contagion on twitter
CN108733764B (zh) 基于机器学习的广告过滤规则生成方法和广告过滤系统
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
US8620849B2 (en) Systems and methods for facilitating open source intelligence gathering
CN103729362B (zh) 导航内容的确定方法和装置
CN102932206B (zh) 监测网站访问信息的方法和系统
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN103916436B (zh) 信息推送方法、装置、终端及服务器
CN110222791A (zh) 样本标注信息的审核方法及装置
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN107977445A (zh) 应用程序推荐方法及装置
CN104731937B (zh) 用户行为数据的处理方法及装置
CN104348871A (zh) 一种同类账号扩展方法及装置
CN112825089B (zh) 文章推荐方法、装置、设备及存储介质
CN102930016B (zh) 一种用于在移动终端上提供搜索结果的方法和设备
CN103593355A (zh) 用户原创内容的推荐方法及推荐装置
CN104933178B (zh) 官方网站确定方法和系统及官方网站的排序方法
CN107025567A (zh) 一种数据处理方法和装置
CN113688905A (zh) 一种有害域名核验方法及装置
CN102929963B (zh) 一种网址类型的设置方法及系统
CN103312584B (zh) 一种在网络社区中发布信息的方法与设备
CN104021220B (zh) 基于显著性模型的图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination