CN108491374B - 基于房地产行业的词库构建方法及系统 - Google Patents
基于房地产行业的词库构建方法及系统 Download PDFInfo
- Publication number
- CN108491374B CN108491374B CN201810146272.0A CN201810146272A CN108491374B CN 108491374 B CN108491374 B CN 108491374B CN 201810146272 A CN201810146272 A CN 201810146272A CN 108491374 B CN108491374 B CN 108491374B
- Authority
- CN
- China
- Prior art keywords
- data
- real estate
- keyword
- database
- keyword database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的基于房地产行业的词库构建方法及系统,该方法包括以下步骤:采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;采用数据挖掘技术分析文本数据的属性,得到清洗数据;对清洗数据进行筛选,得到关键词数据库。该方法从网络媒体抓取各种媒体信息,作为数据库的来源,数据库来源广,使得构建形成的关键词数据库更加全面,对抓取的数据进行文本处理和挖掘处理,得到的关键词数据库更加精准,为房地产市场的预期提供支撑,使得房地产市场的预期指数更加全面、准确。
Description
技术领域
本发明涉及大数据技术领域,特别涉及基于房地产行业的词库构建方法及系统。
背景技术
研究社会公众对房地产市场的预期的测度、形成及其对房地产市场的作用机理,有助于深入认识房地产市场的波动规律。为此申请人提供了一种房地产公众预期指数大数据系统,能够实时反映不同媒介、机构、群体对于房地产市场的预期差异及变化。但是在实现上述系统的同时,申请人还需要考虑如何建立词库,为房地产市场的预期提供支撑,使得房地产市场的预期指数更加全面、准确。
发明内容
针对现有技术中的缺陷,本发明提供基于房地产行业的词库构建方法及系统,为房地产市场的预期提供支撑,使得房地产市场的预期指数更加全面、准确。
第一方面,一种基于房地产行业的词库构建方法,包括以下步骤:
采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
对清洗数据进行筛选,得到关键词数据库。
进一步地,所述对清洗数据进行筛选,得到关键词数据库具体包括:
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库。
进一步地,所述组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
根据修正数据得到所述关键词数据库。
进一步地,该方法在对清洗数据进行筛选,得到关键词数据库之后,还包括:
确定所述关键词数据库中每个数据的文档特征;
基于所述文档特征进行情感分析,得到舆情数据库。
进一步地,所述基于所述文档特征进行情感分析,得到舆情数据库具体包括:
设置情绪词典,情绪词典中包含多种情绪信息;
利用情绪词典、所述文档特征对所述关键词数据库的数据进行分类,将关键词数据库的数据归类到对应的情绪信息下,得到舆情数据库。
进一步地,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。
进一步地,所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。
第二方面,一种基于房地产行业的词库构建系统,包括抓取单元、处理单元、挖掘单元和筛选单元:
所述抓取单元用于采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;
所述处理单元用于采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
所述挖掘单元用于采用数据挖掘技术分析文本数据的属性,得到清洗数据;
所述筛选单元用于对清洗数据进行筛选,得到关键词数据库。
进一步地,所述筛选单元用于对清洗数据进行筛选,得到关键词数据库具体包括:
筛选单元针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
筛选单元根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
筛选单元定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库。
进一步地,所述筛选单元组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
筛选单元对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
筛选单元根据修正数据得到所述关键词数据库。
由上述技术方案可知,本发明提供的基于房地产行业的词库构建方法及系统,从网络媒体抓取各种媒体信息,作为数据库的来源,数据库来源广,使得构建形成的关键词数据库更加全面,对抓取的数据进行文本处理和挖掘处理,得到的关键词数据库更加精准,为房地产市场的预期提供支撑,使得房地产市场的预期指数更加全面、准确。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为实施例一提供的方法流程图。
图2为实施例二提供的方法流程图。
图3为实施例六提供的系统的模块框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
参见图1,一种基于房地产行业的词库构建方法,包括以下步骤:
S1:采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;
具体地,网络媒体包括微博、网页、论坛、贴吧等。所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。
媒体层面数据来源于房产网、官方微信、周刊、栏目节目、信息平台。企业层面数据来源于地产公司等企业。政府层面数据来源于房产管理处、建设局、交易中心、国土资源规划等政府层面。研究机构数据来源于协会、研究院、高校等研究机构。个人层面数据来源于个人的微博平台。数据来源广,更加全面。
S2:采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
具体地,去噪、解析主要用于根据语法去掉原始数据中多余的词组,例如连接词、语气词等。分词用于将长句分成多个词组。
S3:采用数据挖掘技术分析文本数据的属性,得到清洗数据;
S4:对清洗数据进行筛选,得到关键词数据库。
该方法从网络媒体抓取各种媒体信息,作为数据库的来源,数据库来源广,使得构建形成的关键词数据库更加全面,对抓取的数据进行文本处理和挖掘处理,得到的关键词数据库更加精准,为房地产市场的预期提供支撑,使得房地产市场的预期指数更加全面、准确。
实施例二:
参见图2,所述对清洗数据进行筛选,得到关键词数据库具体包括:
S11:针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
具体地,所述影响因素包括供给层面和需求层面。供给层面包括土地供给与使用(土地供给、土地使用、土地购置面积等),房地产开发投资情况(开发贷款、开发资金、资金结构、各类投资、信贷来源、资金链等),房地产开发建设情况(新开工、竣工、待售、供给、建设等)。需求层面包括销售情况(销售额、销售面积、购房支付能力、购房意愿等),成交需求(投资需求、投机需求、刚性需求、改善性需求等),其他需求(学区房、公租房、廉租房、保障性住房、限购房等)。
S12:根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
例如:步骤S11构建了北京市房地产初始数据,步骤S12根据北京市下属的管辖区域进行扩充,使得该数据库中的数据包含北京各个管辖区域、小区、地铁等,覆盖更加全面。
S13:定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库。
具体地,可以结合百度搜索、百度指数工具、百度竞价后台的关键词规划师、SEO(站长关键词工具、爱站SEO等)等工具围绕核心词条补充长尾关键词和短尾关键词。
实施例三:
实施例二提供的步骤S11至S13描述了一种数据筛选方法,除上述数据筛选方法外,本实施例中提供另一种数据筛选方法,具体方案如下:
采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配,最终实现深层内容过滤;
其中,具体步骤包括:
五元组简单过滤;
首先对爬取的网络数据进行简单的一级过滤一五元组过滤;定义变量SIP,DIP,SP,DP,PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、口的端口号和传输协议类型,它们构成了五元组的基本元素;在一次会话中,根据过滤策略确定掩码SIP_MASK,DIP_MASK,SP_MASK,DP_MASK和PT_MASK的值,组成PCL,从而进行信息一级过滤;
2.KNN文本分类方法确定源性质;
将经过五元组过滤处理后的数据称为新文本,将其与给定的训练文本集中的文本进行KNN文本分类计算,对新的输入实例即新文本,在训练文本集中找到与该实例最邻近的K个实例,则这K个实例的多数所属于的那个类,就是新文本的类:也就是说,把新文本和训练文本都看作是一个N维向量,计算新文本与训练文本集中每个文本的相似度,找出K个最相似的样本,通过加权距离和训练文本所属的类别来确定新义本的类别;
其中,KNN算法过程描述如下:
1)对于新文本及训练文本,根据特征词形成新文本向量和训练文本向量:
根据传统的向量空间模型,文本信息被形式化为特征空间中的加权特征向量;即D=D(T1,W1;T2,W2;...;Tn,Wn),根据特征词确定新文本及训练文本的向量表示;
计算新文本与训练文本集中每个文本的文本相似度,计算公式为:
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第k维;
对于k值,因为KNN方法被看作是一种从样木中估计后验概率p(wi|x)的方法,所以为了得到可靠的估计,k值需越大越好,这样才可以提高估计的准确性,但另一方面,又希望这k个邻近点即离新文本越近越好,记新文本后验概率为p(wi|xi),只有当这k个邻近点即离新文本越近时,p(wi|xi)才会尽可能的逼近p(wi|x),以往都是根据人们的个人经验来确定k值,所以经常出现估计不准确的情况,若k值选择的过小,得到的邻近数会过小,则降低分类精度,若k值选择的过大,则容易增加噪声数据降低分类准确性,故现通过大量的实验证明,当k值取数据库中的所有文本个数时,新文本的分类结果为全局最优解;
3)在新文本的k个邻居中,依次计算每类的权重,
4)比较类的权重,将文本分到权重最大的那个类别中去;
综上所述,数据通过KNN文木分类的方法对数据信息进行二级过滤,确定数据源的性质;
3.优化的AdaBoost方法进行深层内容过滤;
本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合,即基于AdaBoost的最小风险贝叶斯深层过滤算法;
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,最终构成一个最强的最终分类器(强分类器):其算法是根据改变数据分布来实现的,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确性来确定每个样本的权值,将修改过的最新权值送到下层分类器中进行训练,最后将每次训练后得到的分类器进行融合,输出最终的最强分类器;
若训练样本集为:S={(x1,y1),(x2,y2),…,(xi,yi),xi∈X,yi∈Y},X,Y分别对应
在AdaBoost原算法中,通过一个加权的多数表决方法来整合全部决策以产生最终的决策:
其中Pm(x)为分类器决策函数,AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合,每一次迭代都要对权重进行更新,减小弱分类器分类效果较好的数据的权重,增大弱分类器分类效果较差的数据的权重,最终的分类器是弱分类器的加权平均;
贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其后验概率;即对象源属于哪一类的主题,选择具有最大后验概率的类作为对象源所属的主题;通过训练源数据集合,由贝叶斯理论得到每个数据信息在小同类的概率大小,构造出贝叶斯模型;朴素贝叶斯是贝叶斯分类模型中误差率最小的,并且其所需估计参数很少,实现算法简单;最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最优化;在本方法中,若数据被判定为“敏感数据”当作垃圾数据过滤掉,但其恰恰又是用户所需要的内容,则会给用户造成很大的损失:通过最小风险贝叶斯分类方法确定数据源的主题,按照不同的主题过滤策略进行过滤,把所有分类错误都考虑进去,会很大程度上降低误判的风险;
已知P(ωi),P(X|ωj),i=1,2…,c及待识别的X(待过滤的网络数据包)的情况下,根据贝叶斯公式来计算出后验概率,
其中P(ωi)是先验概率,是由以往用户对网络数据的需求分析所得到的;P(ωj|X)是后验概率,是在得到信息X之后再重新加以更正的概率,P(X|ωi)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率;
记数据损失为α,将决策判定规则定义为:
1)当网络数据是垃圾数据时,将其判断为垃圾数据不会造成任何损失,α=0;
2)当把垃圾网络数据判定为合法数据时,则损失α=0;
3)当把用户所需网络数据判定为垃圾数据时,则造成的损失是不可估量的,0<α<∞;
根据计算后得出的后验概率和设定的决策规则,按以下公式计算出采取di,i=1,2,……a的条件风险:
考虑到数据被误判后,要将损失。α→0降到最小,故对之前得到的d个条件风险值R(di|X)进行比较,从中找出使条件风险最小的决策,记为dk,dk就是最小风险贝叶斯分类决策;
本方法优化的AdaBoost方法如下:
以矩阵的形式输入网络数据,初始化权重执行循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,通过最小风险贝叶斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样例个数,计算P的分类错误率αm,将分类错误率αm更新,得到训练样本的权值为继续开始下一轮的循环,直至M次循环结束;通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm,经过算法得到:
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。其中Pm(X)为分类器决策函数,AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合,每一次迭代都要对权重进行更新,减小弱分类器分类效果较好的数据的权重,增大弱分类器分类效果较差的数据的权重,最终的分类器是弱分类器的加权平均。
本实施例中采样上述数据筛选方法对网络爬虫获取的原始数据进行处理,与传统的数据筛选方法相比,该方法具有更高的过滤精确度,得到了更准确的数据。
实施例四:
实施例四提供的方法在其他实施例的基础上增加了:
所述组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
根据修正数据得到所述关键词数据库。
具体地,修正时结合领域内的专业术语、微博用语进行修正。
实施例五:
该方法在对清洗数据进行筛选,得到关键词数据库之后,还包括:
确定所述关键词数据库中每个数据的文档特征;
基于所述文档特征进行情感分析,得到舆情数据库,具体包括:
设置情绪词典,情绪词典中包含多种情绪信息;
利用情绪词典、所述文档特征对所述关键词数据库的数据进行分类,将关键词数据库的数据归类到对应的情绪信息下,得到舆情数据库。
具体地,情绪信息包含有无偏向、上涨、下跌等情绪。分类时,关键词数据库中的北京房价、北京房地产、北京楼市、北京二手房、北京新房等词组归属于无偏向这一类。北京房地产回暖、北京房价上升、北京房价上涨、北京房价还会涨吗等词组归属于上涨这一类。北京房价会降吗,北京房价下跌、北京楼市量价齐跌、北京楼市暴跌等词组归属于下跌这一类。舆情数据库统计了每一种情绪信息下的关键词,更加直观地反应不同媒介、机构、群体对于房地产市场的预期差异。
实施例六:
参见图3,实施例六提供一种基于房地产行业的词库构建系统,包括抓取单元、处理单元、挖掘单元和筛选单元:
所述抓取单元用于采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;
所述处理单元用于采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
所述挖掘单元用于采用数据挖掘技术分析文本数据的属性,得到清洗数据;
所述筛选单元用于对清洗数据进行筛选,得到关键词数据库。
进一步地,所述筛选单元用于对清洗数据进行筛选,得到关键词数据库具体包括:
筛选单元针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;
筛选单元根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
筛选单元定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库。
进一步地,筛选单元组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
筛选单元对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
筛选单元根据修正数据得到所述关键词数据库。
进一步地,还包括情感分析单元,情感分析单元用于确定所述关键词数据库中每个数据的文档特征;基于所述文档特征进行情感分析,得到舆情数据库。
进一步地,所述基于所述文档特征进行情感分析,得到舆情数据库具体包括:
设置情绪词典,情绪词典中包含多种情绪信息;
利用情绪词典、所述文档特征对所述关键词数据库的数据进行分类,将关键词数据库的数据归类到对应的情绪信息下,得到舆情数据库。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (4)
1.一种基于房地产行业的词库构建方法,其特征在于,包括以下步骤:
采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;所述网络媒体包括微博、网页、论坛和贴吧;所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据;所述媒体层面数据来源于房产网、官方微信、周刊、栏目节目和信息平台;所述企业层面数据来源于地产公司;所述政府层面数据来源于房产管理处、建设局、交易中心、国土资源规划政府层面;所述研究机构数据来源于协会、研究院、高校研究机构;所述个人层面数据来源于个人的微博平台;
采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
采用数据挖掘技术分析文本数据的属性,得到清洗数据;
对清洗数据进行筛选,得到关键词数据库;
所述对清洗数据进行筛选,得到关键词数据库具体包括:
针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;所述影响因素包括供给层面和需求层面;供给层面包括土地供给与使用、房地产开发投资情况、房地产开发建设情况;所述土地供给与使用包括土地供给、土地使用和土地购置面积;所述房地产开发投资情况包括开发贷款、开发资金、资金结构、各类投资、信贷来源和资金链;所述房地产开发建设情况包括新开工、竣工、待售、供给和建设;所述需求层面包括销售情况和成交需求;所述销售情况包括销售额、销售面积、购房支付能力和购房意愿;所述成交需求投资需求、投机需求、刚性需求和改善性需求;
根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库;
该方法在对清洗数据进行筛选,得到关键词数据库之后,还包括:
确定所述关键词数据库中每个数据的文档特征;
基于所述文档特征进行情感分析,得到舆情数据库;
所述基于所述文档特征进行情感分析,得到舆情数据库具体包括:
设置情绪词典,情绪词典中包含多种情绪信息;
利用情绪词典、所述文档特征对所述关键词数据库的数据进行分类,将关键词数据库的数据归类到对应的情绪信息下,得到舆情数据库。
2.根据权利要求1所述基于房地产行业的词库构建方法,其特征在于,
所述组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
根据修正数据得到所述关键词数据库。
3.一种基于房地产行业的词库构建系统,其特征在于,包括抓取单元、处理单元、挖掘单元和筛选单元:
所述抓取单元用于采用网络爬虫技术从网络媒体抓取媒体信息,得到原始数据;所述网络媒体包括微博、网页、论坛和贴吧;所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据;所述媒体层面数据来源于房产网、官方微信、周刊、栏目节目和信息平台;所述企业层面数据来源于地产公司;所述政府层面数据来源于房产管理处、建设局、交易中心、国土资源规划政府层面;所述研究机构数据来源于协会、研究院、高校研究机构;所述个人层面数据来源于个人的微博平台;
所述处理单元用于采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;
所述挖掘单元用于采用数据挖掘技术分析文本数据的属性,得到清洗数据;
所述筛选单元用于对清洗数据进行筛选,得到关键词数据库;
所述筛选单元用于对清洗数据进行筛选,得到关键词数据库具体包括:
筛选单元针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;所述影响因素包括供给层面和需求层面;供给层面包括土地供给与使用、房地产开发投资情况、房地产开发建设情况;所述土地供给与使用包括土地供给、土地使用和土地购置面积;所述房地产开发投资情况包括开发贷款、开发资金、资金结构、各类投资、信贷来源和资金链;所述房地产开发建设情况包括新开工、竣工、待售、供给和建设;所述需求层面包括销售情况和成交需求;所述销售情况包括销售额、销售面积、购房支付能力和购房意愿;所述成交需求投资需求、投机需求、刚性需求和改善性需求;
筛选单元根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;
筛选单元定义扩充数据中的核心词条,针对核心词条在扩充数据中补充长尾关键词和短尾关键词,组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库;
还包括情感分析单元,情感分析单元用于确定所述关键词数据库中每个数据的文档特征;基于所述文档特征进行情感分析,得到舆情数据库;
所述基于所述文档特征进行情感分析,得到舆情数据库具体包括:
设置情绪词典,情绪词典中包含多种情绪信息;
利用情绪词典、所述文档特征对所述关键词数据库的数据进行分类,将关键词数据库的数据归类到对应的情绪信息下,得到舆情数据库。
4.根据权利要求3所述基于房地产行业的词库构建系统,其特征在于,
所述筛选单元组合所述初始数据、扩充数据、长尾关键词和短尾关键词,以得到所述关键词数据库具体包括:
筛选单元对所述初始数据、扩充数据、长尾关键词和短尾关键词进行修正,得到修正数据;
筛选单元根据修正数据得到所述关键词数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810146272.0A CN108491374B (zh) | 2018-02-12 | 2018-02-12 | 基于房地产行业的词库构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810146272.0A CN108491374B (zh) | 2018-02-12 | 2018-02-12 | 基于房地产行业的词库构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491374A CN108491374A (zh) | 2018-09-04 |
CN108491374B true CN108491374B (zh) | 2022-05-27 |
Family
ID=63340307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810146272.0A Active CN108491374B (zh) | 2018-02-12 | 2018-02-12 | 基于房地产行业的词库构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491374B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010125707A1 (ja) * | 2009-04-30 | 2010-11-04 | 沖電気工業株式会社 | 検索システム及び検索プログラム格納媒体 |
US8219446B1 (en) * | 2000-01-07 | 2012-07-10 | Home Producers Network, Llc | Method and system for compiling a consumer-based electronic database, searchable according to individual internet user-defined micro-demographics |
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN103226618A (zh) * | 2013-05-21 | 2013-07-31 | 焦点科技股份有限公司 | 基于数据集市挖掘的相关词提取方法及系统 |
CN104636381A (zh) * | 2013-11-14 | 2015-05-20 | 联想(北京)有限公司 | 信息的处理方法及装置 |
CN104715430A (zh) * | 2013-12-12 | 2015-06-17 | 上海莞东拿信息科技有限公司 | 新式程序切片技术的面向商业地产行业的数据收集引擎 |
CN106204130A (zh) * | 2016-07-06 | 2016-12-07 | 广东因赛品牌营销集团股份有限公司 | 基于消费者需求及洞察的品牌核心价值定位方法及系统 |
CN106570168A (zh) * | 2016-11-08 | 2017-04-19 | 恒安嘉新(北京)科技有限公司 | 一种基于大数据分析的互联网+发展指数计算方法 |
CN106600310A (zh) * | 2016-11-04 | 2017-04-26 | 重庆邮电大学 | 一种基于网络搜索指数进行销量预测的方法和系统 |
CN107577726A (zh) * | 2017-08-22 | 2018-01-12 | 努比亚技术有限公司 | 一种搜索方法、服务器及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2007100279A4 (en) * | 2007-04-08 | 2007-05-10 | Brander, Breez Mr | Systems and methods of directionally guided, discriminate crawling of internet real estate listings |
CN103425763B (zh) * | 2013-08-05 | 2016-12-28 | 微梦创科网络科技(中国)有限公司 | 基于sns的用户推荐方法及装置 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
CN107085765A (zh) * | 2017-04-14 | 2017-08-22 | 重庆邮电大学 | 一种基于无监督聚类分析与灰理论的地区经济评估方法 |
-
2018
- 2018-02-12 CN CN201810146272.0A patent/CN108491374B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219446B1 (en) * | 2000-01-07 | 2012-07-10 | Home Producers Network, Llc | Method and system for compiling a consumer-based electronic database, searchable according to individual internet user-defined micro-demographics |
WO2010125707A1 (ja) * | 2009-04-30 | 2010-11-04 | 沖電気工業株式会社 | 検索システム及び検索プログラム格納媒体 |
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN103226618A (zh) * | 2013-05-21 | 2013-07-31 | 焦点科技股份有限公司 | 基于数据集市挖掘的相关词提取方法及系统 |
CN104636381A (zh) * | 2013-11-14 | 2015-05-20 | 联想(北京)有限公司 | 信息的处理方法及装置 |
CN104715430A (zh) * | 2013-12-12 | 2015-06-17 | 上海莞东拿信息科技有限公司 | 新式程序切片技术的面向商业地产行业的数据收集引擎 |
CN106204130A (zh) * | 2016-07-06 | 2016-12-07 | 广东因赛品牌营销集团股份有限公司 | 基于消费者需求及洞察的品牌核心价值定位方法及系统 |
CN106600310A (zh) * | 2016-11-04 | 2017-04-26 | 重庆邮电大学 | 一种基于网络搜索指数进行销量预测的方法和系统 |
CN106570168A (zh) * | 2016-11-08 | 2017-04-19 | 恒安嘉新(北京)科技有限公司 | 一种基于大数据分析的互联网+发展指数计算方法 |
CN107577726A (zh) * | 2017-08-22 | 2018-01-12 | 努比亚技术有限公司 | 一种搜索方法、服务器及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
中国房地产网络舆情分析;朱建平 等;《数理统计与管理》;20160731;第35卷(第4期);第722-741页 * |
唐一丁.网络搜索指数在预测房地产价格指数中的应用研究.《中国优秀硕士学位论文全文数据库 经济与管理科学辑》.2016, * |
网络搜索指数在预测房地产价格指数中的应用研究;唐一丁;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20160915;第J145-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108491374A (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Roy et al. | A Machine Learning approach for automation of Resume Recommendation system | |
US12020172B2 (en) | System and/or method for generating clean records from imperfect data using model stack(s) including classification model(s) and confidence model(s) | |
US11995702B2 (en) | Item recommendations using convolutions on weighted graphs | |
Liu et al. | Assessing product competitive advantages from the perspective of customers by mining user-generated content on social media | |
Matsunaga et al. | Exploring graph neural networks for stock market predictions with rolling window analysis | |
CN108509492B (zh) | 基于房地产行业的大数据处理及系统 | |
US8321398B2 (en) | Method and system for determining relevance of terms in text documents | |
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN110807102B (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN106372956B (zh) | 一种基于用户搜索日志进行意图实体识别的方法和系统 | |
CN114663067A (zh) | 一种职位匹配方法、系统、设备及介质 | |
CN109101574B (zh) | 一种数据防泄漏系统的任务审批方法和系统 | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及系统 | |
CN115329207B (zh) | 智能销售信息推荐方法及系统 | |
CN108491374B (zh) | 基于房地产行业的词库构建方法及系统 | |
Stevens et al. | Predicting real estate price using text mining | |
US20140324523A1 (en) | Missing String Compensation In Capped Customer Linkage Model | |
Chiong et al. | Estimation of graphical models using the L 1, 2 norm | |
JP5832869B2 (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 | |
Rahul et al. | Introduction to Data Mining and Machine Learning Algorithms | |
Hawladar et al. | Amazon product reviews sentiment analysis using supervised learning algorithms | |
CN112883145B (zh) | 一种面向中文评论的情感多倾向分类方法 | |
Tilly | The impact of news narrative on the economy and financial markets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |