CN109376287B - 房产图谱构建方法、装置、计算机设备及存储介质 - Google Patents

房产图谱构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109376287B
CN109376287B CN201811106469.8A CN201811106469A CN109376287B CN 109376287 B CN109376287 B CN 109376287B CN 201811106469 A CN201811106469 A CN 201811106469A CN 109376287 B CN109376287 B CN 109376287B
Authority
CN
China
Prior art keywords
information
cell
public opinion
property
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811106469.8A
Other languages
English (en)
Other versions
CN109376287A (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811106469.8A priority Critical patent/CN109376287B/zh
Publication of CN109376287A publication Critical patent/CN109376287A/zh
Application granted granted Critical
Publication of CN109376287B publication Critical patent/CN109376287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了房产图谱构建方法、装置、计算机设备及存储介质。该方法包括:将预先存储的小区列表及用户所输入的网址信息添加至预设的房产信息爬取程序中;通过管理服务器将房产信息爬取程序发送至多台信息采集终端;通过管理服务器接收多台信息采集终端所采集得到的小区的房产数据信息并进行保存;根据舆情评分模型对所保存小区的房产数据信息进行评分;根据信息提取模型对小区的房产数据信息进行提取;根据房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。本发明基于知识图谱技术,能够实现高效地对海量房产数据信息进行整理,提高了对海量房产数据信息的管理效率。

Description

房产图谱构建方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种房产图谱构建方法、装置、计算机设备及存储介质。
背景技术
互联网的网页中保存有海量的房产数据信息以供网络用户进行浏览,然而面对海量的房产数据信息用户只能在网页中进行浏览,而无法从网页中提取用户所需的房产数据信息,从而导致从海量房产数据信息中获取用户所需的房产数据信息的效率较低,且对海量房产数据信息的检索难度较大,检索时间较长。因而现有的技术方法中存在无法高效地对海量的房产数据信息进行整理的问题。
发明内容
本发明实施例提供了一种房产图谱构建方法、装置、计算机设备及存储介质,旨在解决现有技术中存在无法高效地对海量的房产数据信息进行整理的问题。
第一方面,本发明实施例提供了一种房产图谱构建方法,其包括:
若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;
将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;
通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;
获取所述所保存小区的房产数据信息,根据预设的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;
根据预设的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;
根据预设的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
第二方面,本发明实施例提供了一种房产图谱构建装置,其包括:
信息添加单元,用于若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;
信息爬取程序发送单元,用于将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;
房产数据信息获取单元,用于通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;
评分单元,用于获取所述所保存小区的房产数据信息,根据预设的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;
信息提取单元,用于根据预设的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;
图谱构建单元,用于根据预设的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的房产图谱构建方法。
第四方面,本发明实施例还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的房产图谱构建方法。
本发明实施例提供了一种房产图谱构建方法、装置、计算机设备及存储介质。通过信息采集终端执行房产信息爬取程序以对用户所输入的网址信息中相应小区的房产数据信息进行采集,根据用户所输入的房产图谱构建信息对小区的房产数据信息进行评分,并对相应信息进行提取后构建得到房产图谱,能够实现高效地对海量房产数据信息进行整理,提高了对海量房产数据信息的管理效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的房产图谱构建方法的流程示意图;
图2为本发明实施例提供的房产图谱构建方法的应用场景示意图;
图3为本发明实施例提供的房产图谱构建方法的子流程示意图;
图4为本发明实施例提供的房产图谱构建方法的另一子流程示意图;
图5为本发明实施例提供的房产图谱构建方法的另一子流程示意图;
图6为本发明实施例提供的房产图谱构建方法的另一子流程示意图;
图7为本发明实施例提供的房产图谱构建装置的示意性框图;
图8为本发明实施例提供的房产图谱构建装置的子单元示意性框图;
图9为本发明实施例提供的房产图谱构建装置的另一子单元示意性框图;
图10为本发明实施例提供的房产图谱构建装置的另一子单元示意性框图;
图11为本发明实施例提供的房产图谱构建装置的另一子单元示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的房产图谱构建方法的流程示意图;图2为本发明实施例提供的房产图谱构建方法的应用场景示意图。该房产图谱构建方法应用于用户终端10中,该方法通过安装于用户终端10中的应用软件进行执行,用户终端10即是用于执行房产图谱构建方法以对房产图谱进行构建的终端设备,多台信息采集终端20通过管理服务器30与用户终端10建立网络连接以进行信息传输。其中,用户终端10是具有接入互联网功能的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等;管理服务器30即是用于将多台信息采集终端20与用户终端10建立网络连接的服务器端,信息采集终端20即是具有接入互联网功能、用于对房产数据信息进行采集的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。
如图1所示,该方法包括步骤S101~S106。
S101、若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中。
若用户终端接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中。用户所输入的网址信息为所需进行房产信息爬取的网页的网络地址信息,例如,具体的网址信息包括房产销售网站的网址信息、房产出租网站的网址信息等。小区列表即是预先存储于用户终端中用于保存待采集小区的数据表,信息爬取程序即是预先在用户终端中创建的用于对网页中的房产数据信息进行采集的软件程序。
S102、将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端。
管理服务器预先与用户终端及多台信息采集终端建立网络连接,将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器从用户终端分发至多台信息采集终端中,通过多台信息采集终端执行房产信息爬取程序即可对网址信息中对应的房产网页上小区列表中小区的房产数据信息进行采集,具体的,将小区名称作为关键字信息与房产网页中的语句进行匹配,若匹配得到房产网页的相应语句中包含小区名称,则将该段语句作为该小区的房产数据信息。其中,管理服务器即是用于在用户终端与信息采集终端建立网络连接的企业终端,信息采集终端即是用于执行房产信息爬取程序并对相应房产网页中的数据信息进行采集的终端设备。
103、通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存。
通过管理服务器接收多台信息采集终端所采集的小区列表中相应小区的房产数据信息,并保存至用户终端中预设的数据库中。信息采集终端执行房产信息爬取程序并对相应网页上小区列表中小区的房产数据信息进行采集,信息采集终端将所采集得到的小区列表中相应小区的房产数据信息通过管理服务器发送至用户终端,用户终端接收所采集得到的房产数据信息,并保存至预设的数据库中。通过将包含多个网址信息添加至预设的信息爬取程序,并通过信息采集终端多次执行信息爬取程序以对多个网址信息所对应网页上小区列表中小区的房产数据信息进行采集,即可采集得到多个网页中相应小区的房产数据信息。
S104、若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分。
若接收到用户所输入的房产图谱构建信息,获取所述数据库中所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分,即可得到所有小区的舆情得分。具体的,房产图谱构建信息即是用户所输入的对小区的房产数据信息进行处理并构建房产图谱的信息,其中,房产图谱构建信息具体包括舆情评分模型、信息提取模型、房产图谱构建规则。舆情评分模型即是根据所得到的小区的房产数据信息对小区的整体舆情进行评分的模型信息,舆情得分即是用于对小区在网络上的整体评价的评分信息,舆情得分较高则表明该小区在网络上的评价较好,舆情得分较低则表明该小区在网络上的评价较差。
具体的,舆情评分模型中包括舆情关键字信息、关键字分类规则以及舆情得分计算公式,舆情关键字信息即是用于对小区的房产数据信息进行匹配的关键字信息,舆情关键字信息中包含多个舆情关键字,通过舆情关键字信息与小区的房产数据信息进行匹配即可得到该小区的房产数据信息中与每一个舆情关键字相匹配的次数,也即是所得到的该小区的关键字匹配结果。关键字分类规则即是用于对该小区的关键字匹配结果中所包含的舆情关键字进行分类的规则信息,小区的关键字匹配结果中所包含的舆情关键字中包含正面评价、负面评价以及中性评价,通过关键字分类规则即可对小区的关键字匹配结果中所包含的舆情关键字是否属于正面评价、负面评价或中性评价进行分类,也即是该小区的舆情关键字分类结果。舆情得分计算公式即是用于对小区的舆情关键字分类结果进行评分计算的公式信息,通过将所得到的小区的舆情关键字分类结果输入舆情得分计算公式即可计算得到该小区的舆情得分。
在一实施例中,如图3所示,步骤S104包括子步骤S1041、S1042和S1043。
S1041、根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果。
根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配,得到该小区的房产数据信息中与每一个舆情关键字相匹配的次数即所该小区的关键字匹配结果。
例如,预设的舆情关键字信息包括“向阳、嘈杂、好、不好、不错、差”,某一小区的房产数据信息中包含的一段信息为“本小区朝向为向阳,小区环境好,绿化不错”,则该小区的关键字匹配结果为“向阳”出现一次、“好”出现一次、“不错”出现一次。
S1042、根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果。
根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字是否属于正面评价、负面评价或中性评价进行分类,统计该小区的关键字匹配结果中所包含的舆情关键字中正面评价所出现的次数、负面评价所出现的次数、中性评价所出现的次数,即可得到该小区的舆情关键字分类结果。
例如,关键字分类规则中正面评价所包含的舆情关键字为“向阳、好、不错”,负面评价所包含的舆情关键字为“嘈杂、不好、差”,中性评价所包含的舆情关键字为“一般、正常”,某一小区的关键字匹配结果为“向阳”出现一次、“好”出现一次、“不错”出现一次、“不好”出现一次、“正常”出现两次,则该小区的舆情关键字分类结果为正面评价出现3次、负面评价出现1次、中性评价出现2次。
S1043、根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。通过上述方法对数据库中所保存的所有小区的房产数据信息进行评分即可得到所有小区的舆情得分。
例如,舆情得分S=(1.2×V1-2×V2+0.3×V3)×100/(V1+V2+V3),某一小区的舆情关键字分类结果为正面评价出现3次、负面评价出现1次、中性评价出现2次,则该小区的舆情得分S=(1.2×3-2×1+0.3×2)×100/(3+1+2)=36.7。
S105、根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息。
根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取,以得到小区的学位信息及政策信息。具体的,所述信息提取模型即是用于对小区的学位信息及政策信息进行提取的模型信息,信息提取模型中包含学位关键字信息以及政策信息提取模型。
在一实施例中,如图4所示,步骤S105包括子步骤S1051和S1052。
S1051、根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息。
根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息。学位关键字信息中包含多个学位关键字,通过学位关键字对小区的房产数据信息进行匹配即可得到该小区的学位信息。
例如,学位关键字信息中包含“小学、中学、高中、学校、图书馆”,某一小区的房产数据信息中包含的一段信息为“本小区靠近第十三初级中学,小区旁有公园”,则通过学位关键字信息对该段信息进行匹配,得到该小区的学位信息为“本小区靠近第十三初级中学”。
S1052、根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取,即可得到该小区的政策信息。政策信息提取模型即使用于对小区的房产数据信息进行提取的具体模型信息,政策信息提取模型中包括政策关键字信息以及信息聚类规则。
在一实施例中,如图5所示,步骤S1052包括子步骤S10521和S10522。
S10521、根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息。
根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息。政策关键字信息中包含多个政策关键字,通过政策关键字对小区的房产数据信息进行匹配即可得到该小区房产数据信息中包含政策关键字信息的数据信息。
例如,政策关键字信息中所包含的政策关键字为“房贷利率、银行贷款、公交、地铁、小学、中学、高中、学校”,某一小区的房产数据信息中包含的一段信息为“本小区房贷利率95折,银行贷款办理速度快;新房均价XXXX元;三条公交车直达小区楼下,小区旁规划地铁车站”,则通过政策关键字信息对该段信息进行匹配,得到该小区房产数据信息中包含政策关键字信息的数据信息为“本小区房贷利率95折,银行贷款办理速度快,三条公交车直达小区楼下,小区旁规划地铁车站”。
S10522、根据政策信息提取模型中的信息聚类规则对所得到的包含政策关键字信息的数据信息进行聚类,并将聚类后所得到的数据信息作为该小区的政策信息。
根据政策信息提取模型中的信息聚类规则,对所得到的包含政策关键字信息的数据信息进行聚类,将聚类后所得到的数据信息作为该小区的政策信息。信息聚类规则即是用于对所得到的包含政策关键字信息的数据信息进行聚类处理的规则信息。
例如,预设的信息聚类规则为“贷款政策:房贷利率、银行贷款,交通政策:公交、地铁,学校政策:小学、中学、高中、学校”,某一小区房产数据信息中包含政策关键字信息的数据信息为“本小区房贷利率95折,银行贷款办理速度快,三条公交车直达小区楼下,小区旁规划地铁车站”,则根据信息聚类规则对该小区包含政策关键字信息的数据信息进行聚类,得到该小区的政策信息为“贷款政策”包括“本小区房贷利率95折,银行贷款办理速度快”、“交通政策”包括“三条公交车直达小区楼下,小区旁规划地铁车站”。
S106、根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息,即可构建得到房产图谱。其中,房产图谱构建规则即是用于构建房产图谱的规则信息,房产图谱即是用于对房产的相关信息进行记载的知识图谱。其中,房产图谱构建规则包括小区实体构建规则、实体信息添加规则。
在一实施例中,如图6所示,步骤S106包括子步骤S1061、S1062和S1063。
S1061、根据房产图谱构建规则中的小区实体构建规则及所述小区列表构建小区实体。
根据预设的小区实体构建规则及预先存储的小区列表构建得到小区实体,每一个小区实体对应小区列表中的一个小区,小区实体即是房产图谱中用于对小区进行标注的实体信息。其中,小区实体在所构建的房产图谱中可以用圆圈、三角形或其他任意多边形来进行表示,将小区名称标注在所构建的小区实体中。
S1062、根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息。
根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息。其中,实体信息添加规则即是用于对所得到的小区实体添加实体信息的规则信息,实体信息即是用于对小区实体进行详细描述的信息,通过实体信息即可直观地查看该小区所包含的详细信息。
S1063、根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。
根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。通过在所得到的小区实体及实体信息中添加时间信息,以方便用户在察看房产图谱时获取小区实体及实体信息的时间信息。
若接收到用户所输入的查询信息,根据用户所输入的查询信息对构建得到的房产图谱进行匹配,以得到房产图谱中与查询信息相匹配的数据信息。通过信息采集终端执行房产信息爬去程序以对用户所输入的网址信息中相应小区的房产数据信息进行采集,根据用户所输入的房产图谱构建信息对小区的房产数据信息进行评分,并对相应信息进行提取后构建得到房产图谱,能够实现高效地对海量房产数据信息进行整理,提高了对海量房产数据信息的管理效率。
本发明实施例还提供一种房产图谱构建装置,该房产图谱构建装置用于执行前述房产图谱构建方法的任一实施例。具体地,请参阅图7,图7是本发明实施例提供的房产图谱构建装置的示意性框图。该房产图谱构建装置100可以配置于用户终端10中。
如图7所示,房产图谱构建装置100包括信息添加单元101、信息爬取程序发送单元102、房产数据信息获取单元103、评分单元104、信息提取单元105和图谱构建单元106。
信息添加单元101,用于若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中。
若用户终端接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中。用户所输入的网址信息为所需进行房产信息爬取的网页的网络地址信息,例如,具体的网址信息包括房产销售网站的网址信息、房产出租网站的网址信息等。小区列表即是预先存储于用户终端中用于保存待采集小区的数据表,信息爬取程序即是预先在用户终端中创建的用于对网页中的房产数据信息进行采集的软件程序。
信息爬取程序发送单元102,用于将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端。
管理服务器预先与用户终端及多台信息采集终端建立网络连接,将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器从用户终端分发至多台信息采集终端中,通过多台信息采集终端执行房产信息爬取程序即可对网址信息中对应的房产网页上小区列表中小区的房产数据信息进行采集,具体的,将小区名称作为关键字信息与房产网页中的语句进行匹配,若匹配得到房产网页的相应语句中包含小区名称,则将该段语句作为该小区的房产数据信息。其中,管理服务器即是用于在用户终端与信息采集终端建立网络连接的企业终端,信息采集终端即是用于执行房产信息爬取程序并对相应房产网页中的数据信息进行采集的终端设备。
房产数据信息获取单元103,用于通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存。
通过管理服务器接收多台信息采集终端所采集的小区列表中相应小区的房产数据信息,并保存至用户终端中预设的数据库中。信息采集终端执行房产信息爬取程序并对相应网页上小区列表中小区的房产数据信息进行采集,信息采集终端将所采集得到的小区列表中相应小区的房产数据信息通过管理服务器发送至用户终端,用户终端接收所采集得到的房产数据信息,并保存至预设的数据库中。通过将包含多个网址信息添加至预设的信息爬取程序,并通过信息采集终端多次执行信息爬取程序以对多个网址信息所对应网页上小区列表中小区的房产数据信息进行采集,即可采集得到多个网页中相应小区的房产数据信息。
评分单元104,用于获取所述所保存小区的房产数据信息,根据预设的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分。
若接收到用户所输入的房产图谱构建信息,获取所述数据库中所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分,即可得到所有小区的舆情得分。具体的,房产图谱构建信息即是用户所输入的对小区的房产数据信息进行处理并构建房产图谱的信息,其中,房产图谱构建信息具体包括舆情评分模型、信息提取模型、房产图谱构建规则。舆情评分模型即是根据所得到的小区的房产数据信息对小区的整体舆情进行评分的模型信息,舆情得分即是用于对小区在网络上的整体评价的评分信息,舆情得分较高则表明该小区在网络上的评价较好,舆情得分较低则表明该小区在网络上的评价较差。
具体的,舆情评分模型中包括舆情关键字信息、关键字分类规则以及舆情得分计算公式,舆情关键字信息即是用于对小区的房产数据信息进行匹配的关键字信息,舆情关键字信息中包含多个舆情关键字,通过舆情关键字信息与小区的房产数据信息进行匹配即可得到该小区的房产数据信息中与每一个舆情关键字相匹配的次数,也即是所得到的该小区的关键字匹配结果。关键字分类规则即是用于对该小区的关键字匹配结果中所包含的舆情关键字进行分类的规则信息,小区的关键字匹配结果中所包含的舆情关键字中包含正面评价、负面评价以及中性评价,通过关键字分类规则即可对小区的关键字匹配结果中所包含的舆情关键字是否属于正面评价、负面评价或中性评价进行分类,也即是该小区的舆情关键字分类结果。舆情得分计算公式即是用于对小区的舆情关键字分类结果进行评分计算的公式信息,通过将所得到的小区的舆情关键字分类结果输入舆情得分计算公式即可计算得到该小区的舆情得分。
其他发明实施例中,如图8所示,所述评分单元104包括子单元:关键字匹配单元1041、舆情关键字分类统计单元1042和评分计算单元1043。
关键字匹配单元1041,用于根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果。
根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配,得到该小区的房产数据信息中与每一个舆情关键字相匹配的次数即所该小区的关键字匹配结果。
舆情关键字分类统计单元1042,用于根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果。
根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字是否属于正面评价、负面评价或中性评价进行分类,统计该小区的关键字匹配结果中所包含的舆情关键字中正面评价所出现的次数、负面评价所出现的次数、中性评价所出现的次数,即可得到该小区的舆情关键字分类结果。
评分计算单元1043,用于根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。通过上述方法对数据库中所保存的所有小区的房产数据信息进行评分即可得到所有小区的舆情得分。
信息提取单元105,用于根据预设的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息。
根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取,以得到小区的学位信息及政策信息。具体的,所述信息提取模型即是用于对小区的学位信息及政策信息进行提取的模型信息,信息提取模型中包含学位关键字信息以及政策信息提取模型。
其他发明实施例中,如图9所示,所述信息提取单元105包括子单元:学位信息提取单元1051和政策信息提取单元1052。
学位信息提取单元1051,用于根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息。
根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息。学位关键字信息中包含多个学位关键字,通过学位关键字对小区的房产数据信息进行匹配即可得到该小区的学位信息。
政策信息提取单元1052,用于根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取,即可得到该小区的政策信息。政策信息提取模型即使用于对小区的房产数据信息进行提取的具体模型信息,政策信息提取模型中包括政策关键字信息以及信息聚类规则。
其他发明实施例中,如图10所示,所述政策信息提取单元1052包括子单元:政策关键字匹配单元10521和聚类单元10522。
政策关键字匹配单元10521,用于根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息。
根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息。政策关键字信息中包含多个政策关键字,通过政策关键字对小区的房产数据信息进行匹配即可得到该小区房产数据信息中包含政策关键字信息的数据信息。
聚类单元10522,用于根据政策信息提取模型中的信息聚类规则对所得到的包含政策关键字信息的数据信息进行聚类,并将聚类后所得到的数据信息作为该小区的政策信息。
根据政策信息提取模型中的信息聚类规则,对所得到的包含政策关键字信息的数据信息进行聚类,将聚类后所得到的数据信息作为该小区的政策信息。信息聚类规则即是用于对所得到的包含政策关键字信息的数据信息进行聚类处理的规则信息。
图谱构建单元106,用于根据预设的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息,即可构建得到房产图谱。其中,房产图谱构建规则即是用于构建房产图谱的规则信息,房产图谱即是用于对房产的相关信息进行记载的知识图谱。其中,房产图谱构建规则包括小区实体构建规则、实体信息添加规则。
其他发明实施例中,如图11所示,所述图谱构建单元106包括子单元:小区实体构建单元1061、实体信息添加单元1062和时间信息添加单元1063。
小区实体构建单元1061,用于根据房产图谱构建规则中的小区实体构建规则及所述小区列表构建小区实体。
根据预设的小区实体构建规则及预先存储的小区列表构建得到小区实体,每一个小区实体对应小区列表中的一个小区,小区实体即是房产图谱中用于对小区进行标注的实体信息。其中,小区实体在所构建的房产图谱中可以用圆圈、三角形或其他任意多边形来进行表示,将小区名称标注在所构建的小区实体中。
实体信息添加单元1062,用于根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息。
根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息。其中,实体信息添加规则即是用于对所得到的小区实体添加实体信息的规则信息,实体信息即是用于对小区实体进行详细描述的信息,通过实体信息即可直观地查看该小区所包含的详细信息。
时间信息添加单元1063,用于根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。
根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。通过在所得到的小区实体及实体信息中添加时间信息,以方便用户在察看房产图谱时获取小区实体及实体信息的时间信息。
若接收到用户所输入的查询信息,根据用户所输入的查询信息对构建得到的房产图谱进行匹配,以得到房产图谱中与查询信息相匹配的数据信息。通过信息采集终端执行房产信息爬去程序以对用户所输入的网址信息中相应小区的房产数据信息进行采集,根据用户所输入的房产图谱构建信息对小区的房产数据信息进行评分,并对相应信息进行提取后构建得到房产图谱,能够实现高效地对海量房产数据信息进行整理,提高了对海量房产数据信息的管理效率。
上述房产图谱构建装置可以实现为计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本发明实施例提供的计算机设备的示意性框图。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行房产图谱构建方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行房产图谱构建方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图12中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
在一实施例中,处理器502在执行若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分的步骤时,执行如下操作:根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果;根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果;根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
在一实施例中,处理器502在执行根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息的步骤时,执行如下操作:根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息;根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
在一实施例中,处理器502在执行根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息的步骤时,执行如下操作:根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息;根据政策信息提取模型中的信息聚类规则对所得到的包含政策关键字信息的数据信息进行聚类,并将聚类后所得到的数据信息作为该小区的政策信息。
在一实施例中,处理器502在执行根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱的步骤时,执行如下操作:根据房产图谱构建规则中的小区实体构建规则及所述小区列表构建小区实体;根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息;根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。
本领域技术人员可以理解,图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图12所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱。
在一实施例中,所述若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分的步骤,包括:根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果;根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果;根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
在一实施例中,所述根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息的步骤,包括:根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息;根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
在一实施例中,所述根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息的步骤,包括:根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息;根据政策信息提取模型中的信息聚类规则对所得到的包含政策关键字信息的数据信息进行聚类,并将聚类后所得到的数据信息作为该小区的政策信息。
在一实施例中,所述根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱的步骤,包括:根据房产图谱构建规则中的小区实体构建规则及所述小区列表构建小区实体;根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息;根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种房产图谱构建方法,其特征在于,包括:
若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;其中,小区列表即是预先存储于用户终端中用于保存待采集小区的数据表;
将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;
通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;
若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;
根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;
根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱;
所述将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端,包括:
通过多台信息采集终端执行房产信息爬取程序对网址信息中对应的房产网页上小区列表中小区的房产数据信息进行采集;其中,将小区名称作为关键字信息与房产网页中的语句进行匹配,若匹配得到房产网页的相应语句中包含小区名称,则将该段语句作为该小区的房产数据信息;
所述根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分,包括:
根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果;
根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果;
根据舆情评分模型中的舆情得分计算公式:S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3)对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分S,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
2.根据权利要求1所述的房产图谱构建方法,其特征在于,所述根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息,包括:
根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息;
根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
3.根据权利要求2所述的房产图谱构建方法,其特征在于,所述根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息,包括:
根据政策信息提取模型中的政策关键字信息对小区的房产数据信息进行匹配以得到该小区房产数据信息中包含政策关键字信息的数据信息;
根据政策信息提取模型中的信息聚类规则对所得到的包含政策关键字信息的数据信息进行聚类,并将聚类后所得到的数据信息作为该小区的政策信息。
4.根据权利要求1所述的房产图谱构建方法,其特征在于,所述根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱,包括:
根据房产图谱构建规则中的小区实体构建规则及所述小区列表构建小区实体;
根据房产图谱构建规则中的实体信息添加规则及所得到的小区的舆情得分、学位信息、政策信息,在所构建的小区实体中添加实体信息;
根据当前时间在所得到的小区实体及实体信息中添加时间信息以构建得到房产图谱。
5.一种房产图谱构建装置,其特征在于,包括:
信息添加单元,用于若接收到用户所输入的网址信息,将预先存储的小区列表及所述网址信息添加至预设的房产信息爬取程序中;其中,小区列表即是预先存储于用户终端中用于保存待采集小区的数据表;
信息爬取程序发送单元,用于将已添加小区列表及网址信息的房产信息爬取程序通过预设的管理服务器发送至多台信息采集终端;
房产数据信息获取单元,用于通过管理服务器接收多台信息采集终端所采集得到的小区列表中小区的房产数据信息并进行保存;
评分单元,用于若接收到用户所输入的房产图谱构建信息,获取所保存小区的房产数据信息,根据所述房产图谱构建信息中的舆情评分模型对小区的房产数据信息进行评分以得到所有小区的舆情得分;
信息提取单元,用于根据所述房产图谱构建信息中的信息提取模型对小区的房产数据信息进行提取以得到小区的学位信息及政策信息;
图谱构建单元,用于根据所述房产图谱构建信息中的房产图谱构建规则以及所述小区列表中所有小区的舆情得分、学位信息、政策信息构建得到房产图谱;
所述信息爬取程序发送单元还用于,通过多台信息采集终端执行房产信息爬取程序对网址信息中对应的房产网页上小区列表中小区的房产数据信息进行采集;其中,将小区名称作为关键字信息与房产网页中的语句进行匹配,若匹配得到房产网页的相应语句中包含小区名称,则将该段语句作为该小区的房产数据信息;
所述评分单元,包括:
关键字匹配单元,用于根据舆情评分模型中的舆情关键字信息对小区的房产数据信息进行匹配以得到该小区的关键字匹配结果;
舆情关键字分类统计单元,用于根据舆情评分模型中的关键字分类规则对小区的关键字匹配结果中所包含的舆情关键字进行分类统计,将该小区的关键字匹配结果中所包含的舆情关键字中正面评价的次数、负面评价的次数、中性评价的次数作为该小区的舆情关键字分类结果;
评分计算单元,用于根据舆情评分模型中的舆情得分计算公式:舆情得分S=(a1×V1-a2×V2+a3×V3)×100/(V1+V2+V3),对所得到的小区的舆情关键字分类结果进行计算以得到该小区的舆情得分,其中a1、a2、a3为预设的参数,V1为舆情关键字分类结果中正面评价的次数,V2为舆情关键字分类结果中负面评价的次数,V3为舆情关键字分类结果中中性评价的次数。
6.根据权利要求5所述的房产图谱构建装置,其特征在于,所述信息提取单元,包括:
学位信息提取单元,用于根据信息提取模型中的学位关键字信息对小区的房产数据信息进行匹配,根据匹配结果将包含学位关键字信息的数据信息作为该小区的学位信息;
政策信息提取单元,用于根据信息提取模型中的政策信息提取模型对小区的房产数据信息进行提取以得到该小区的政策信息。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的房产图谱构建方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的房产图谱构建方法。
CN201811106469.8A 2018-09-21 2018-09-21 房产图谱构建方法、装置、计算机设备及存储介质 Active CN109376287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811106469.8A CN109376287B (zh) 2018-09-21 2018-09-21 房产图谱构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811106469.8A CN109376287B (zh) 2018-09-21 2018-09-21 房产图谱构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109376287A CN109376287A (zh) 2019-02-22
CN109376287B true CN109376287B (zh) 2023-09-01

Family

ID=65402291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106469.8A Active CN109376287B (zh) 2018-09-21 2018-09-21 房产图谱构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109376287B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737147B (zh) * 2020-07-21 2021-01-15 平安国际智慧城市科技股份有限公司 批量数据生成方法、装置、计算机设备及存储介质
CN112417167A (zh) * 2020-11-20 2021-02-26 中国平安人寿保险股份有限公司 保险知识图谱的构建方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411579A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 一种搜索行业相关信息的方法及装置
CN104077360A (zh) * 2014-06-09 2014-10-01 中国建设银行股份有限公司 基于gis进行房产估值的数据处理系统及方法
CN106874439A (zh) * 2016-06-17 2017-06-20 何国斌 一种搜索房产信息的方法及系统
CN107220911A (zh) * 2017-05-10 2017-09-29 深圳市易图资讯股份有限公司 一种楼市和房源信息管理系统
CN107239967A (zh) * 2017-05-10 2017-10-10 平安科技(深圳)有限公司 房产信息处理方法、装置、计算机设备及存储介质
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN107634985A (zh) * 2017-08-14 2018-01-26 东莞市富卡网络科技有限公司 信息推送方法、装置、计算机和介质
CN108021651A (zh) * 2017-11-30 2018-05-11 中科金联(北京)科技有限公司 一种网络舆情风险评估方法及装置
CN108509492A (zh) * 2018-02-12 2018-09-07 郑长敬 基于房地产行业的大数据处理及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411579A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 一种搜索行业相关信息的方法及装置
CN104077360A (zh) * 2014-06-09 2014-10-01 中国建设银行股份有限公司 基于gis进行房产估值的数据处理系统及方法
CN106874439A (zh) * 2016-06-17 2017-06-20 何国斌 一种搜索房产信息的方法及系统
CN107220911A (zh) * 2017-05-10 2017-09-29 深圳市易图资讯股份有限公司 一种楼市和房源信息管理系统
CN107239967A (zh) * 2017-05-10 2017-10-10 平安科技(深圳)有限公司 房产信息处理方法、装置、计算机设备及存储介质
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN107634985A (zh) * 2017-08-14 2018-01-26 东莞市富卡网络科技有限公司 信息推送方法、装置、计算机和介质
CN108021651A (zh) * 2017-11-30 2018-05-11 中科金联(北京)科技有限公司 一种网络舆情风险评估方法及装置
CN108509492A (zh) * 2018-02-12 2018-09-07 郑长敬 基于房地产行业的大数据处理及系统

Also Published As

Publication number Publication date
CN109376287A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
US20210019674A1 (en) Risk profiling and rating of extended relationships using ontological databases
WO2021174944A1 (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN106469413B (zh) 一种虚拟资源的数据处理方法及装置
US20120117059A1 (en) Ranking Authors in Social Media Systems
CN109376273B (zh) 企业信息图谱构建方法、装置、计算机设备及存储介质
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
US11663282B2 (en) Taxonomy-based system for discovering and annotating geofences from geo-referenced data
US20210136120A1 (en) Universal computing asset registry
CN110148053B (zh) 用户信贷额度评估方法、装置、电子设备和可读介质
CN109241403A (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
US9407589B2 (en) System and method for following topics in an electronic textual conversation
CN108961019B (zh) 一种用户账户的检测方法和装置
CN109903086A (zh) 一种相似人群扩展方法、装置及电子设备
CN109376287B (zh) 房产图谱构建方法、装置、计算机设备及存储介质
CN110544013A (zh) 灾害风险预警方法、装置、计算机设备及存储介质
Xie et al. Competitive influence maximization considering inactive nodes and community homophily
CN109242613A (zh) 用户需求的统计方法、装置、系统及计算机可读存储介质
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
Laskar et al. Mapping the fake news infodemic amidst the COVID-19 pandemic: A study of Indian fact-checking websites
CN105138897B (zh) 确定用户权限的方法及装置
CN113609409A (zh) 一种推荐浏览信息的方法及其系统、电子设备、存储介质
CN113572721B (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN108876548A (zh) 一种云产品推荐方法及装置
CN115221954B (zh) 用户画像方法、装置、电子设备以及存储介质
CN110442801A (zh) 一种目标事件的关注用户的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant