CN108304568B - 一种房地产公众预期大数据处理方法及系统 - Google Patents

一种房地产公众预期大数据处理方法及系统 Download PDF

Info

Publication number
CN108304568B
CN108304568B CN201810146733.4A CN201810146733A CN108304568B CN 108304568 B CN108304568 B CN 108304568B CN 201810146733 A CN201810146733 A CN 201810146733A CN 108304568 B CN108304568 B CN 108304568B
Authority
CN
China
Prior art keywords
data
real estate
public
database
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810146733.4A
Other languages
English (en)
Other versions
CN108304568A (zh
Inventor
董纪昌
郑长敬
李秀婷
刘颖
董志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810146733.4A priority Critical patent/CN108304568B/zh
Publication of CN108304568A publication Critical patent/CN108304568A/zh
Application granted granted Critical
Publication of CN108304568B publication Critical patent/CN108304568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种房地产公众预期大数据处理方法,构建基于大数据的房地产市场的情绪词典;通过网络爬虫获取原始数据;对原始数据进行数据清洗及筛选处理;根据关键词数据库及房地产公众情感分析数据库建立房地产公众预期训练模型;通过网络爬虫获取待处理数据;将待处理数据输入训练模型进行训练;对待处理数据进行分类,构建房地产公众预期指数,预测房地产大数据与房地产公众预期指数的相关性。本发明的有益效果在于:实现实时预测不同的媒介和不同的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数据分析,充分聚焦不同机构和不同媒介,对不同机构和不同媒介的房地产公众预期差异进行细致、专业分析。

Description

一种房地产公众预期大数据处理方法及系统
技术领域
本发明涉及大数据处理技术领域,具体涉及一种房地产公众预期大数据处 理方法及系统。
背景技术
目前,房地产行业的背景主要包括以下几个方面:
(1)外部环境因素的不确定性和复杂性:通过公众预期的调整,进一步影 响房地产市场波动,这种不确定性越大,由预期引致的市场波动也将越为剧烈。 现有文献对房地产公众预期的度量大多是选用外推方法和计量经济模型,少部 分用了统计调查方法,但这些度量指标受限于数据可获性,一般更新频度不高。 公众预期具有弹性大、不稳定等特征,对其度量指标的实时性要求较高,不能 有效测度。现有研究大多是基于适应性预期或理性预期框架,以经济主体完全 理性为前提假设,较少考虑非理性因素对预期形成、影响等方面的作用,不利 于有效管理公众预期。
(2)有效管理市场:公众预期管理是政策制定者最为重视的目标之一。研 究公众预期的测度、形成及其对房地产市场的作用机理,有助于政府有效实施 房地产调控,合理管理房地产公众预期和主体行为。
基于上述房地产行业的现状,有必要开展大数据环境下、房地产公众预期 的研究。
发明内容
针对现有技术中的缺陷,本发明的目的之一在于提供一种房地产公众预期 大数据处理方法,实时反映不同媒介、不同机构、不同群体对于房地产市场的 预期差异及变化。
本发明的目的之一在于提供一种房地产公众预期大数据处理系统,实时反 映不同媒介、不同机构、不同群体对于房地产市场的预期差异及变化。
第一方面,本发明提供的房地产公众预期大数据处理方法,包括:
构建基于大数据的房地产市场的情绪词典,所述情绪词典中包含多种情绪 信息;
通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论 坛数据以及贴吧数据;
对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产 公众情感分析数据库;
根据所述关键词数据库及房地产公众情感分析数据库建立房地产公众预 期训练模型;
通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、 论坛数据以及贴吧数据;
将所述待处理数据输入所述训练模型进行训练;
对所述待处理数据进行分类,构建房地产公众预期指数,预测房地产大数 据与房地产公众预期指数的相关性。
可选地,对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库 具体包括:
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进 行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词 和短尾关键词的补充;
对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
根据所述修正数据得到所述关键词数据库。
可选地,对所述原始数据进行数据清洗及筛选处理,以得到房地产公众情 感分析数据库具体包括:
对所述原始数据进行中文分词,以确定文档特征;
基于所述文档特征进行情感分析,以得到房地产公众情感分析数据库。
可选地,所述基于所述文档特征进行情感分析,得到房地产公众情感分析 数据库的方法具体包括:
构建属性词库,所述属性词库中包含属性词的关注度信息;
利用所述情绪词典和属性词库进行情感分析,得到句子级情感数据库;
筛选所述句子级情感数据库中的句子级情感倾向数据;
将所述句子级情感倾向数据进行汇总,得到公众情感倾向信息;
将所述属性词库中的属性词关注度数据进行汇总,得到公众关注度信息;
根据所述公众情感倾向信息和公众关注度信息,得到房地产公众情感分析 数据库。
可选地,所述方法还包括:根据预测类型和非预测类型对所述房地产公共 情感分析数据库进行标签,所述预测类型包括涨、跌和平。
第二方面,本发明提供的一种房地产公众预期大数据处理系统,包括:情 绪词典构建模块,用于构建基于大数据的房地产市场的情绪词典,所述情绪词 典中包含多种情绪信息;
获取模块,用于通过网络爬虫获取原始数据,所述原始数据包括微博数据、 网页数据、论坛数据以及贴吧数据;
清洗筛选模块,用于对所述原始数据进行数据清洗及筛选处理,以得到关 键词数据库及房地产公众情感分析数据库;
训练模型建立模块,用于根据所述关键词数据库及房地产公众情感分析数 据库建立训练模型;
所述获取模块,还用于通过网络爬虫获取待处理数据,所述待处理数据包 括微博数据、网页数据、论坛数据以及贴吧数据;
处理模块,用于将所述待处理数据输入所述训练模型进行处理;
分类与预测模块,用于对所述待处理数据进行分类,构建房地产公众预期 指数,预测房地产大数据与房地产公众预期指数的相关性。
可选地,所述清洗筛选模块包括第一单元,具体用于:
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进 行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词 和短尾关键词的补充;
对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
根据所述修正数据得到所述关键词数据库。
可选地,所述清洗筛选模块还包括第二单元,具体用于:
对所述原始数据进行中文分词,以确定文档特征;
基于所述文档特征进行情感分析,以得到房地产公众情感分析数据库。
可选地,所述第二单元包括属性词库构建单元,所述属性词库中包含属性 词的关注度信息;情感分析单元,用于利用所述情绪词典和属性词库进行情感 分析,得到句子级情感数据库;筛选单元,用于筛选所述句子级情感数据库中 的句子级情感倾向数据;汇总单元,用于将所述句子级情感倾向数据进行汇总, 得到公众情感倾向信息;将所述属性词库中的属性词关注度数据进行汇总,得 到公众关注度信息;房地产公众情感分析数据构建单元,用于根据所述公众情 感倾向信息和公众关注度信息,构建房地产公众情感分析数据库。
可选地,所述系统还包括标签模块,用于根据预测类型和非预测类型对所 述房地产公众情感分析数据库进行标签,所述预测类型包括涨、跌和平。
本发明的有益效果:
本发明提供的一种房地产公众预期大数据处理方法及系统,通过构建情绪 词典,网络爬虫获取原始数据,对原始数据进行数据清洗及筛选以得到关键词 数据库和房地产公众情感分析数据库,再根据关键词数据库和房地产公众情感 分析数据库建立训练模型,再将待处理数据输入训练模型进行训练,对所述待 处理数据进行分类,结合房地产公众预期指数,实时预测不同的媒介和不同的 机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的数 据分析,充分聚焦不同机构和不同媒介,对不同机构和不同媒介的房地产公众 预期差异进行细致、专业分析。房地产公众预期大数据处理方法可以指导政府 科学制定房地产调控政策,有效管理房地产公众预期,引导市场主体行为,促 进房地产市场平稳发展。同时也有助于开发商和购房者等经济主体更理性地认 识房地产市场,预测市场走势,从而做出理性决策。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
图1示出了本发明提供的一种房地产公众预期大数据处理方法第一实施 例的流程图;
图2示出了本发明通提供的一种房地产公众预期大数据处理系统第一实 施例的结构框图;
图3示出了图2的结构框图;
图4示出图3中第二单元的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排 除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在 或添加。还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定 实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中 所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一 个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并 且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据 上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。 类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上 下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条 件或事件]”或“响应于检测到[所描述条件或事件]”。
图1示出了本发明第一实施例所提供的一种房地产公众预期大数据处理 方法的流程图,该方法具体包括以下步骤:
S1:构建基于大数据的房地产市场的情绪词典,所述情绪词典中包含多种 情绪信息。
具体地,情绪词典中的情绪信息包含有无偏向、上涨、下跌等情绪。分类 时,关键词数据库中的北京房价、北京房地产、北京楼市、北京二手房、北京 新房等词组归属于无偏向这一类。北京房地产回暖、北京房价上升、北京房价 上涨、北京房价还会涨吗等词组归属于上涨这一类。北京房价会降吗,北京房 价下跌、北京楼市量价齐跌、北京楼市暴跌等词组归属于下跌这一类。情感分 析数据库统计了每一种情绪信息下的关键词,更加直观地反应不同媒介、机构、 群体对于房地产市场的预期差异。
S2:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、 论坛数据以及贴吧数据。
具体地,网络媒体包括微博、网页、论坛、贴吧等。所述原始数据包括微 博数据、网页数据、论坛数据以及贴吧数据。所述微博数据包括媒体层面数据、 企业层面数据、政府层面数据、研究机构数据以及个人层面数据。
媒体层面数据来源于房产网、官方微信、周刊、栏目节目、信息平台。企 业层面数据来源于地产公司等企业。政府层面数据来源于房产管理处、建设局、 交易中心、国土资源规划等政府层面。研究机构数据来源于协会、研究院、高 校等研究机构。个人层面数据来源于个人的微博平台。数据来源广,更加全面。
S3:对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房 地产公众情感分析数据库;
本实施例中,可采用以下方法得到关键词数据库:
(1)采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数 据;
(2)采用数据挖掘技术分析文本数据的属性,得到清洗数据;
(3)针对不同地区设置影响因素,根据不同地区的影响因素对清洗数据 进行筛选,得到初始数据;
(4)根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
(5)定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾 关键词和短尾关键词的补充;
(6)对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
(7)根据所述修正数据得到所述关键词数据库。
需要说明的是,上述步骤(1)至(3)描述了一种数据清洗方法,除上述 数据清洗方法外,本实施例中提供另一种数据筛选方法,具体方案如下:
采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法 确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析 得到的样本进行特征匹配,最终实现深层内容过滤;
其中,具体步骤包括:
1.五元组简单过滤;
首先对爬取的网络数据进行简单的一级过滤一五元组过滤;定义变量SIP, DIP,SP,DP,PT分别表示五元组过滤中的源IP地址、目的IP地址、源端 口号、口的端口号和传输协议类型,它们构成了五元组的基本元素;在一次会 话中,根据过滤策略确定掩码SIP_MASK,DIP_MASK,SP_MASK,DP_ MASK和PT_MASK的值,组成PCL,从而进行信息一级过滤;
2.KNN文本分类方法确定源性质;
将经过五元组过滤处理后的数据称为新文本,将其与给定的训练文本集中 的文本进行KNN文本分类计算,对新的输入实例即新文本,在训练文本集中 找到与该实例最邻近的K个实例,则这K个实例的多数所属于的那个类,就 是新文本的类:也就是说,把新文本和训练文本都看作是一个N维向量,计 算新文本与训练文本集中每个文本的相似度,找出K个最相似的样本,通过 加权距离和训练文本所属的类别来确定新义本的类别;
其中,KNN算法过程描述如下:
1)对于新文本及训练文本,根据特征词形成新文本向量和训练文本向量:
根据传统的向量空间模型,文本信息被形式化为特征空间中的加权特征向 量;即D=D(T1,W1;T2,W2;...;Tn,Wn),根据特征词确定新文本及训 练文本的向量表示;
计算新文本与训练文本集中每个文本的文本相似度,计算公式为:
Figure BDA0001579017310000091
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的 维数,Wk为向量的第k维;
对于k值,因为KNN方法被看作是一种从样木中估计后验概率p(wi|x)的 方法,所以为了得到可靠的估计,k值需越大越好,这样才可以提高估计的准 确性,但另一方面,又希望这k个邻近点即离新文本越近越好,记新文本后验 概率为p(wi|xi),只有当这k个邻近点即离新文本越近时,p(wi|xi)才会尽可能 的逼近p(wi|x),以往都是根据人们的个人经验来确定k值,所以经常出现估计 不准确的情况,若k值选择的过小,得到的邻近数会过小,则降低分类精度, 若k值选择的过大,则容易增加噪声数据降低分类准确性,故现通过大量的实 验证明,当k值取数据库中的所有文本个数时,新文本的分类结果为全局最优 解;
3)在新文本的k个邻居中,依次计算每类的权重,
Figure BDA0001579017310000092
其中
Figure BDA0001579017310000093
为新文本的特征向量,
Figure BDA0001579017310000094
为相似度计算公式,
Figure BDA0001579017310000095
为数据 源性质;
4)比较类的权重,将文本分到权重最大的那个类别中去;
综上所述,数据通过KNN文木分类的方法对数据信息进行二级过滤,确 定数据源的性质;
3.优化的AdaBoost方法进行深层内容过滤;
本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以 AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替 AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合, 即基于AdaBoost的最小风险贝叶斯深层过滤算法;
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的 分类器(弱分类器),然后将这些弱分类器集合起来,最终构成一个最强的最终 分类器(强分类器):其算法是根据改变数据分布来实现的,根据每次训练集之 中每个样本的分类是否正确,以及上次的总体分类的准确性来确定每个样本的 权值,将修改过的最新权值送到下层分类器中进行训练,最后将每次训练后得 到的分类器进行融合,输出最终的最强分类器;
若训练样本集为:S={(x1,y1),(x2,y2),…,(xi,yi),xi∈X,yi∈Y},X,Y分别对应
于正例样本和负例样本,M为训练的最大循环次数,分类器的错误率记 为εm,最小错误率记为
Figure BDA0001579017310000101
在AdaBoost原算法中,通过一个加权的多数表决方法来整合全部决策以 产生最终的决策:
Figure BDA0001579017310000102
其中Pm(x)为分类器决策函数,AdaBoost算法可以对学习得到的弱分类器 的错误进行适当整合,每一次迭代都要对权重进行更新,减小弱分类器分类效 果较好的数据的权重,增大弱分类器分类效果较差的数据的权重,最终的分类 器是弱分类器的加权平均;
贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其 后验概率;即对象源属于哪一类的主题,选择具有最大后验概率的类作为对象 源所属的主题;通过训练源数据集合,由贝叶斯理论得到每个数据信息在小同 类的概率大小,构造出贝叶斯模型;朴素贝叶斯是贝叶斯分类模型中误差率最 小的,并且其所需估计参数很少,实现算法简单;最小风险贝叶斯分类算法就 是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最 优化;在本方法中,若数据被判定为“敏感数据”当作垃圾数据过滤掉,但其恰 恰又是用户所需要的内容,则会给用户造成很大的损失:通过最小风险贝叶斯 分类方法确定数据源的主题,按照不同的主题过滤策略进行过滤,把所有分类 错误都考虑进去,会很大程度上降低误判的风险;
已知P(ωi),P(X|ωj),i=1,2…,c及待识别的X(待过滤的网络数据包)的情况下,根据贝叶斯公式来计算出后验概率,
Figure BDA0001579017310000111
其中P(ωi)是先验概率,是由以往用户对网络数据的需求分析所得到的; P(ωj|X)是后验概率,是在得到信息X之后再重新加以更正的概率,P(X|ωi)是 根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络 数据的概率;
记数据损失为α,将决策判定规则定义为:
1)当网络数据是垃圾数据时,将其判断为垃圾数据不会造成任何损失, α=0;
2)当把垃圾网络数据判定为合法数据时,则损失α=0;
3)当把用户所需网络数据判定为垃圾数据时,则造成的损失是不可估量 的,0<α<∞;
根据计算后得出的后验概率和设定的决策规则,按以下公式计算出采取 di,i=1,2,……a的条件风险:
Figure BDA0001579017310000112
考虑到数据被误判后,要将损失。α→0降到最小,故对之前得到的d个 条件风险值R(di|X)进行比较,从中找出使条件风险最小的决策,记为dk,dk 就是最小风险贝叶斯分类决策;
本方法优化的AdaBoost方法如下:
以矩阵的形式输入网络数据,初始化权重
Figure BDA0001579017310000121
i=1,2,……,n,执行 循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,通过最小风险贝叶 斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并 标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样 例个数,计算P的分类错误率αm,将分类错误率αm更新,得到训练样本的权 值为
Figure BDA0001579017310000122
继续开始下一轮的循环,直至M次循环结 束;通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个 分类器Pm,经过算法得到:
Figure BDA0001579017310000123
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终 分类器。其中Pm(X)为分类器决策函数,AdaBoost算法可以对学习得到的弱 分类器的错误进行适当整合,每一次迭代都要对权重进行更新,减小弱分类器 分类效果较好的数据的权重,增大弱分类器分类效果较差的数据的权重,最终 的分类器是弱分类器的加权平均。
本实施例针对以上问题,提供一种高效的,稳定的基于LTE信令的数据 过滤处理方法,其采用五元组简单过滤方法进行数据预处理,然后采用KNN 文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与 根据聚类分析得到的样本进行特征匹配,最终实现一套完整的基于LTE信令 的数据过滤处理方法。数据处理分为三个过程,对LTE信令数据进行五元组 简单数据过滤、通过KNN文本分类方法确定数据源性质、优化的AdaBoost 方法对信令数据进行深层内容过滤,完成对所述LTE数据报文的数据处理, 该方法比原有的信息过滤方法具有更高的过滤精确度与系统鲁棒性,对在各个 网站爬取的样本数据进行过滤处理,得到更精确的数据。
进一步地,基于所述文档特征进行情感分析,得到房地产公众情感分析数 据库的方法具体包括:
构建属性词库,所述属性词库中包含属性词的关注度信息。属性词库依次 通过属性词挖掘、属性词修建和补充、属性词分类处理得到。
利用所述情绪词典和属性词库进行情感分析,得到句子级情感数据库;
筛选所述句子级情感数据库中的句子级情感倾向数据;
将所述句子级情感倾向数据进行汇总,得到公众情感倾向信息;
将所述属性词库中的属性词关注度数据进行汇总,得到公众关注度信息;
根据所述公众情感倾向信息和公众关注度信息,得到房地产公众情感分析 数据库。综合公众情感倾向和公众关注度的分析,体现不同群体对于房地产市 场的预期差异及变化。
S4:根据所述关键词数据库及房地产公众情感分析数据库建立房地产公众 预期训练模型。本实施例中,可采用Graph Propagation Algorithm、word2vec 及CNN深度学习方法进行情感分析。
Graph Propagation Algorithm是一种词典分类的方法,需要事先建立初始 极性词典。其基本思想是计算每一个词与正负极性词典的距离和,并设立阈值, 将符合条件的词划分至最终的正负极性词典中,通过该词典对新文本进行分 类。word2vec实现了对文本的预处理,建立任意维度词向量,通过词向量可 以计算出词之间的相似度。CNN的基本结构包括两层,其一为特征提取层, 每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该 局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征 映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面, 平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函 数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个 映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络 中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特 有的两次特征提取结构减小了特征分辨率。
本实施例使用向量空间模型表示文档特征。本实施例使用3种经典的z机 器学习模型(朴素贝叶斯NB、逻辑斯特回归LR和支持向量机SVM)训练分类 器,并且考虑了基于3种分类算法的集成学习集成方法:
Figure BDA0001579017310000142
p_nbj、p_lrj、p_svmj分别指朴素贝叶斯模型、逻辑斯蒂回归模型和支持向量机模型 预测该样本为第j类的概率,α、β、γ分别是模型所占的权重系数。将得到 的加权融合概率p_avgj作为样本预测的依据。权重参数α、β、γ可以根 据经验事先指定,也可以由训练集进行交叉验证得到。基本特征模板如表1:
Figure BDA0001579017310000141
表1基本特征模板
从关键词数据库及房地产公众情感分析数据库建立房地产公众预期数据 库中抽取文档特征嵌入表1中的基本特征模板中,训练机器学习分类器,并进 行测试。通过上述规则化特征的嵌入,实现机器学习与规则方法的融合,其优 势主要体现在三方面:
1)特征粒度不限于词语级,还包含句子级。
2)基于有强度标记的词典以及多种语义规则,可以提高规则情感分析的 精确率,抽取出规则特征包含更准确的情感信息。
3)由特征的数值扩展出它们的数值关系特征,一方面满足分类模型对特 征权重的需求(朴素贝叶斯模型只能识别整数特征值),另一方面,特征值的扩 展使得模型学习到更多的情感知识。
S5:通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页 数据、论坛数据以及贴吧数据。
S6:将所述待处理数据输入所述训练模型进行训练。
上述实施例中,得到房地产公众情感分析数据库之后,还可根据预测类型 和非预测类型对房地产公众情感分析数据库进行标签,其中,预测类型包括涨、 跌和平。
S7:对所述待处理数据进行分类,构建房地产公众预期指数,预测房地产 大数据与房地产公众预期指数的相关性。
对所述待处理数据进行分类,可根据待处理数据的来源按不同的媒介和不 同的机构进行分类。结合房地产公众预期指数,实时预测不同的媒介和不同的 机构与房地产公众预期指数的相关性。
实施本发明实施例所提供的房地产公众预期大数据处理方法,通过构建情 绪词典,网络爬虫获取原始数据,对原始数据进行数据清洗及筛选以得到关键 词数据库和房地产公众情感分析数据库,再根据关键词数据库和房地产公众情 感分析数据库建立训练模型,再将待处理数据输入训练模型进行训练,对所述 待处理数据进行分类,结合房地产公众预期指数,实时预测不同的媒介和不同 的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的 数据分析,充分聚焦不同机构和不同媒介,对不同机构和不同媒介的房地产公 众预期差异进行细致、专业分析。房地产公众预期大数据处理方法可以指导政 府科学制定房地产调控政策,有效管理房地产公众预期,引导市场主体行为, 促进房地产市场平稳发展。同时也有助于开发商和购房者等经济主体更理性地 认识房地产市场,预测市场走势,从而做出理性决策。
相应地,在上述实施例所提供的基于房地产公众预期大数据处理方法的基 础上,本发明实施例还提供了一种房地产公众预期大数据处理系统,如图2 所示,本实施例提供的一种房地产公众预期大数据处理系统,包括:情绪词典 构建模块1,用于构建基于大数据的房地产市场的情绪词典,所述情绪词典中 包含多种情绪信息;
获取模块2,用于通过网络爬虫获取原始数据,所述原始数据包括微博数 据、网页数据、论坛数据以及贴吧数据;微博数据包括媒体层面数据、企业层 面数据、政府层面数据、研究机构数据以及个人层面数据。
清洗筛选模块3,用于对所述原始数据进行数据清洗及筛选处理,以得到 关键词数据库及房地产公众情感分析数据库。
训练模型建立模块4,用于根据所述关键词数据库及房地产公众情感分析 数据库建立训练模型。
所述获取模块5,还用于通过网络爬虫获取待处理数据,所述待处理数据 包括微博数据、网页数据、论坛数据以及贴吧数据。
处理模块6,用于将所述待处理数据输入所述训练模型进行处理。
分类与预测模块7,用于对所述待处理数据进行分类,构建房地产公众预 期指数,预测房地产大数据与房地产公众预期指数的相关性。
作为上述技术方案的进一步改进,如图3所示,所述清洗筛选模块3包括 第一单元31和第二单元32,其中,第一单元31具体用于:
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进 行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词 和短尾关键词的补充;
对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
根据所述修正数据得到所述关键词数据库。
第二单元32具体用于:对所述原始数据进行中文分词,以确定文档特征;
基于所述文档特征进行情感分析,以得到房地产公众情感分析数据库。
作为上述技术方案的进一步改进,如图4所示,所述第二单元32包括属 性词库构建单元321,所述属性词库中包含属性词的关注度信息;情感分析单 元322,用于利用所述情绪词典和属性词库进行情感分析,得到句子级情感数 据库;筛选单元323,用于筛选所述句子级情感数据库中的句子级情感倾向数 据;汇总单元324,用于将所述句子级情感倾向数据进行汇总,得到公众情感 倾向信息;将所述属性词库中的属性词关注度数据进行汇总,得到公众关注度 信息;房地产公众情感分析数据构建单元325,用于根据所述公众情感倾向信 息和公众关注度信息,构建房地产公众情感分析数据库。
系统还包括标签模块8,标签模块8用于根据预测类型和非预测类型对所 述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。
需要说明的是,图2所示的房地产公众预期大数据处理系统的具体工作流 程请参考图1所述的方法实施例,在此不再赘述。
实施本发明实施例所提供的房地产公众预期大数据处理系统,通过构建情 绪词典,网络爬虫获取原始数据,对原始数据进行数据清洗及筛选以得到关键 词数据库和房地产公众情感分析数据库,再根据关键词数据库和房地产公众情 感分析数据库建立训练模型,再将待处理数据输入训练模型进行训练,对所述 待处理数据进行分类,结合房地产公众预期指数,实时预测不同的媒介和不同 的机构与房地产公众预期指数的相关性。以客观、完整的视角实现对全样本的 数据分析,充分聚焦不同机构和不同媒介,对不同机构和不同媒介的房地产公 众预期差异进行细致、专业分析。
房地产公众预期处理系统可以指导政府科学制定房地产调控政策,有效管 理房地产公众预期,引导市场主体行为,促进房地产市场平稳发展。同时也有 助于开发商和购房者等经济主体更理性地认识房地产市场,预测市场走势,从 而做出理性决策。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决 于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可 以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例 如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特 征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或 通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是 电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能 单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是 两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形 式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全 部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务 器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。 而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘 等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (4)

1.一种房地产公众预期大数据处理方法,其特征在于,具体包括以下步骤:
构建基于大数据的房地产市场的情绪词典,所述情绪词典中包含多种情绪信息;
通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;
对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众情感分析数据库;
根据所述关键词数据库及房地产公众情感分析数据库建立房地产公众预期训练模型;
通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;
将所述待处理数据输入所述训练模型进行训练;
对所述待处理数据进行分类,构建房地产公众预期指数,预测房地产大数据与房地产公众预期指数的相关性;
对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库具体包括:
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;
对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
根据所述修正数据得到所述关键词数据库;
对所述原始数据进行数据清洗及筛选处理,以得到房地产公众情感分析数据库具体包括:
对所述原始数据进行中文分词,以确定文档特征;
基于所述文档特征进行情感分析,以得到房地产公众情感分析数据库;
所述基于所述文档特征进行情感分析,得到房地产公众情感分析数据库的方法具体包括:
构建属性词库,所述属性词库中包含属性词的关注度信息;
利用所述情绪词典和属性词库进行情感分析,得到句子级情感数据库;
筛选所述句子级情感数据库中的句子级情感倾向数据;
将所述句子级情感倾向数据进行汇总,得到公众情感倾向信息;
将所述属性词库中的属性词关注度数据进行汇总,得到公众关注度信息;
根据所述公众情感倾向信息和公众关注度信息,得到房地产公众情感分析数据库。
2.如权利要求1所述房地产公众预期大数据处理方法,其特征在于,所述方法还包括:根据预测类型和非预测类型对所述房地产公共情感分析数据库进行标签,所述预测类型包括涨、跌和平。
3.一种房地产公众预期大数据处理系统,其特征在于,包括,
情绪词典构建模块,用于构建基于大数据的房地产市场的情绪词典,所述情绪词典中包含多种情绪信息;
获取模块,用于通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;
清洗筛选模块,用于对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众情感分析数据库;
训练模型建立模块,用于根据所述关键词数据库及房地产公众情感分析数据库建立训练模型;
所述获取模块,还用于通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;
处理模块,用于将所述待处理数据输入所述训练模型进行处理;
分类与预测模块,用于对所述待处理数据进行分类,构建房地产公众预期指数,预测房地产大数据与房地产公众预期指数的相关性;
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;
对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;
根据所述修正数据得到所述关键词数据库;
所述清洗筛选模块还包括第二单元,具体用于:
对所述原始数据进行中文分词,以确定文档特征;
基于所述文档特征进行情感分析,以得到房地产公众情感分析数据库;
所述第二单元包括属性词库构建单元,所述属性词库中包含属性词的关注度信息;情感分析单元,用于利用所述情绪词典和属性词库进行情感分析,得到句子级情感数据库;筛选单元,用于筛选所述句子级情感数据库中的句子级情感倾向数据;汇总单元,用于将所述句子级情感倾向数据进行汇总,得到公众情感倾向信息;将所述属性词库中的属性词关注度数据进行汇总,得到公众关注度信息;房地产公众情感分析数据构建单元,用于根据所述公众情感倾向信息和公众关注度信息,构建房地产公众情感分析数据库。
4.如权利要求3所述的房地产公众预期大数据处理系统,其特征在于,所述系统还包括标签模块,用于根据预测类型和非预测类型对所述房地产公众情感分析数据库进行标签,所述预测类型包括涨、跌和平。
CN201810146733.4A 2018-02-12 2018-02-12 一种房地产公众预期大数据处理方法及系统 Active CN108304568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810146733.4A CN108304568B (zh) 2018-02-12 2018-02-12 一种房地产公众预期大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810146733.4A CN108304568B (zh) 2018-02-12 2018-02-12 一种房地产公众预期大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN108304568A CN108304568A (zh) 2018-07-20
CN108304568B true CN108304568B (zh) 2021-01-05

Family

ID=62865138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810146733.4A Active CN108304568B (zh) 2018-02-12 2018-02-12 一种房地产公众预期大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN108304568B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635180A (zh) * 2018-12-13 2019-04-16 武汉虹旭信息技术有限责任公司 基于互联网海量信息的关键词分类处理系统及其方法
TWI716069B (zh) * 2019-08-14 2021-01-11 崑山科技大學 房地產鑑價系統及方法
CN112633915A (zh) * 2020-12-09 2021-04-09 苏州黑云智能科技有限公司 基于区块链的二手房数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106227756A (zh) * 2016-07-14 2016-12-14 苏州大学 一种基于情感分类的股票指数预测方法及系统
CN106569996A (zh) * 2016-03-30 2017-04-19 广东工业大学 一种面向中文微博的情感倾向分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060179022A1 (en) * 2001-11-26 2006-08-10 Holland Wilson L Counterpart artificial intelligence software program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106569996A (zh) * 2016-03-30 2017-04-19 广东工业大学 一种面向中文微博的情感倾向分析方法
CN106227756A (zh) * 2016-07-14 2016-12-14 苏州大学 一种基于情感分类的股票指数预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于文本信息的股票指数预测;董理等;《北京大学学报》;20170331;第53卷(第2期);正文第273-278页 *
董理等.基于文本信息的股票指数预测.《北京大学学报》.2017,第53卷(第2期),273-278. *

Also Published As

Publication number Publication date
CN108304568A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
US11475143B2 (en) Sensitive data classification
Liu et al. A matrix factorization based dynamic granularity recommendation with three-way decisions
US11580459B2 (en) Systems and methods for extracting specific data from documents using machine learning
JP5364578B2 (ja) トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
Khurshid et al. Enactment of ensemble learning for review spam detection on selected features
Jain et al. A comparative study of machine learning and deep learning techniques for sentiment analysis
CN108509492B (zh) 基于房地产行业的大数据处理及系统
CN111814842B (zh) 基于多通路图卷积神经网络的对象分类方法及装置
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
Liu et al. Age inference using a hierarchical attention neural network
Feldman et al. A methodology for quantifying the effect of missing data on decision quality in classification problems
Bii et al. Adaptive boosting in ensembles for outlier detection: Base learner selection and fusion via local domain competence
CN115329207B (zh) 智能销售信息推荐方法及系统
US20190377784A1 (en) Automated nonparametric content analysis for information management and retrieval
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN111666410B (zh) 商品用户评论文本的情感分类方法及系统
de Souza et al. Switching nonparametric regression models
Jiang et al. Sentiment classification based on clause polarity and fusion via convolutional neural network
Qiu et al. Deep active learning with crowdsourcing data for privacy policy classification
Sindhu et al. Aspect based opinion mining leveraging weighted bigru and CNN module in parallel
Xie et al. Knowledge graph enhanced heterogeneous graph neural network for fake news detection
Calma Active Learning with Uncertain Annotators: Towards Dedicated Collaborative Interactive Learning
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant