CN111813893B - 基于深度迁移学习的房地产市场分析方法、装置及设备 - Google Patents

基于深度迁移学习的房地产市场分析方法、装置及设备 Download PDF

Info

Publication number
CN111813893B
CN111813893B CN202010588072.8A CN202010588072A CN111813893B CN 111813893 B CN111813893 B CN 111813893B CN 202010588072 A CN202010588072 A CN 202010588072A CN 111813893 B CN111813893 B CN 111813893B
Authority
CN
China
Prior art keywords
real estate
network
data
emotion
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010588072.8A
Other languages
English (en)
Other versions
CN111813893A (zh
Inventor
许国良
顾桐
洪岩
韩茂林
王铎
雒江涛
代朝东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010588072.8A priority Critical patent/CN111813893B/zh
Publication of CN111813893A publication Critical patent/CN111813893A/zh
Application granted granted Critical
Publication of CN111813893B publication Critical patent/CN111813893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理、情感分析领域,特别涉及一种基于深度迁移学习的房地产市场分析方法、装置及设备,方法包括采集房地产网络舆情数据,并对舆情数据进行预处理;构建一个融入变分信息瓶颈的深度多通道神经网络;利用相关领域中大量的标注数据对网络进行预训练;通过迁移学习的方式,使用少量已标注的舆情数据对预先建立的网络进行微调;在所述迁移后的网络上对未标注的房地产舆情数据进行情感倾向分析,并获得最终的房地产市场情绪分析结果;本发明将深度迁移学习与房地产网络舆情进行结合,能够准确分析房地产市场情绪,从而为有关部门的政策制定、公司企业的决策部署以及个体消费者的投资规划,提供参考和指引。

Description

基于深度迁移学习的房地产市场分析方法、装置及设备
技术领域
本发明属于自然语言处理、情感分析领域,特别涉及一种基于深度迁移学习的房地产市场分析方法、装置及设备。
背景技术
日益增长的移动手机用户量带动着社交网络的逐渐兴起。各种网络媒体、社交平台已经成为民众获取、传播和讨论社会舆情的重要途径之一。根据中国互联网络信息中心(CNNIC)发布的第44次《中国互联网络发展状况统计报告》可知,到2019年6月为止,我国的网民人数为8.54亿,互联网普及率达61.2%,较2018年底增长2598万,普及率上升1.6%。此外,报告还显示,截至2019年6月,我国网络新闻的用户规模达6.86亿,较2018年底增长1114万,占网民整体的80.3%。由此可见,网络舆情在社会整体舆情中所占的比例越来越高,在研究社会舆情状况时对相应的网络舆情进行分析也显得越来越重要。
随着越来越多的“90后”消费者加入到房地产市场的交易群体中,房地产网络舆情也变得更加丰富和活跃,网络舆情开始被视为影响房地产市场的一个重要因素。因此,房地产市场中的各种现象和问题、未来的发展趋势等,不仅是政府所要关注的重点,同时也是广大社会民众关注和讨论的焦点。房地产商作为房地产市场的供给主体,在实施有关市场行为时,需要综合考虑多方面的信息。随着对网络资源和大数据利用的兴起,作为传统制造业的房地产业在制定决策和实施市场行为时也开始逐渐关注网络舆情的影响。消费者作为房地产市场的需求主体,由于信息不对称性等因素的影响,其在房地产市场中往往处于劣势地位。因此,消费者在做出有关市场行为时经常会通过网络获取一些相关的资料信息作为其决策的参考。政府在制定政策时需要考虑社会民众的反应,而网络舆情则是获取民意的一条重要渠道。
近年来,深度学习在各行各业的广泛应用,给房地产舆情分析打开了新的思路。因此,将深度学习技术应用于网络舆情的情感分析,实现房地产市场情绪分析极具研究价值。
基于深度学习的情感分析方法,其具有较高的通用性、灵活性和自适应性,近年来成为主流的舆情分析方法。通常是将文本表示为向量矩阵的形式,然后输入到深度神经网络中根据训练数据对网络进行训练。但是深度神经网络的准确率依赖于大规模、高质量的标注数据,随着舆情数据的不断增加需要大量的人力来标注训练集,这是费时费力的。因此,现有的情感分析方法无法达到精准的舆情分析效果。
发明内容
为了弥补现有情感分析方法的不足,本发明提出一种基于深度迁移学习的房地产市场分析方法,具体包括以下步骤:
采集房地产网络舆情数据,并对舆情数据进行预处理;
构建一个融入变分信息瓶颈的深度多通道神经网络;
利用相关领域中大量的标注数据对网络进行预训练;
通过迁移学习的方式,使用少量已标注的舆情数据对预先建立的网络进行微调;
在所述迁移后的网络上对未标注的房地产舆情数据进行情感倾向分析,并获得最终的房地产市场情绪分析结果。
进一步的,对舆情数据进行预处理至少包括去除重复数据、特殊符号,并结合领域知识对少量数据进行情感极性标注。
进一步的,融入变分信息瓶颈的深度多通道神经网络包括上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块、情感输出模块,其中,上下文信息提取模块通过多个双向门限循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)提取文本的上下文信息;局部特征提取模块通过多个不同大小卷积核的卷积神经网络(Convolutional Neural Network,CNN)提取局部特征。
进一步的,Bi-GRU提取文本的上下文信息表示为:
Figure BDA0002555398750000031
Figure BDA0002555398750000032
Figure BDA0002555398750000033
其中,xt为t时刻的输入,
Figure BDA0002555398750000034
为单向门限循环单元(Gated Recurrent Unit,GRU)的权重矩阵,Wy为连接两层的权重矩阵,
Figure BDA0002555398750000035
为单向GRU的偏置项,by为连接两层的偏置项,σ为激活函数,
Figure BDA0002555398750000036
Figure BDA0002555398750000037
分别为前向GRU与后向GRU的输出,yt为t时刻的输出。
进一步的,通过多个不同大小卷积核的CNN提取局部特征的过程包括:
第i个通道卷积操作所使用的卷积核为w∈Rh,其中h为卷积核大小,控制卷积单词的个数,则提取后的第j个新特征cij表示为:cij=f(w·xj:j+h-1+b);
卷积核沿着每一个词窗口{x1:h,x2:h+1,xn-h+1:n}逐步滑动,所产生的特征序列表示为:ci=[ci,1,ci,2,…,ci,n-h+1];
利用池化操作来减少经卷积产生的维数,获得的特征表示为:c′i=max(ci,1,ci,2,…,ci,n-h+1);
其中,w为权重矩阵,b为偏置项,f为卷积核函数,xj:j+h-1为h个词构成的局部词窗口,n为一条文本的单词总数。
进一步的,特征融合模块将多个通道生成的特征序列连接起来以形成融合后特征序列c,假设总共有k个通道,则融合后的特征序列可表示为:c=[c′1,c′2,…,c′k]。
进一步的,特征压缩模块利用变分信息瓶颈对语义进行压缩,对于一个信息X={x1,x2,…,xn},其特征变量为Y={y1,y2,…,ym},通过中间变量Z={z1,z2,…,zl}来表示X,使Z尽可能地压缩X的信息,同时尽可能保留相关的特征信息Y,即让X与Z的互信息I(X,Z)最小,Y与Z的互信息I(Y,Z)最大。
进一步的,在由多个全连接层构成的情感输出模块中引入Maxout激活函数,每一个Maxout激活函数都由多个不同的神经元组成,其输出是神经元激活值中的最大值,表示为:
Figure BDA0002555398750000041
其中,hi(x)为第x层第i个Maxout激活函数的输出,k为该Maxout激活函数的个数;zij为第x层中第i个Maxout激活函数的第j个神经元的激活值。
本发明还提供了一种基于深度迁移学习的房地产市场分析装置,包括:
数据采集模块,用于采集房地产网络舆情数据;
预处理模块,用于对采集数据进行预处理,包括数据去重、去特殊符号和对少量的舆情数据进行情感极性标注;
情感分析网络,即融入变分信息瓶颈的深度多通道神经网络中的上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块以及情感输出模块,用于对含有大量标注数据的相关领域进行情感倾向分析,并获得输入数据对应的情感极性;
深度迁移网络,是采用迁移学习的方式训练融入变分信息瓶颈的深度多通道神经网络,将相关领域中大量的标注数据作为源域对上述网络进行训练,然后使用少量已标注的舆情数据作为目标域对预先建立的网络进行微调,直至训练完成。用于对缺乏大量标注数据的房地产网络舆情领域进行迁移,最终获得房地产市场情绪分析结果。
本发明还提供了一种基于深度迁移学习的房地产市场分析设备,该设备为计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的一种基于深度迁移学习的房地产市场情绪分析方法。
本发明与现有的房地产市场情绪分析方法相比:
1、本发明设计了一种融入变分信息瓶颈的深度多通道神经网络,充分利用Bi-GRU和CNN的优势,先使用多个Bi-GRU对文本上下文特征进行提取,再利用不同卷积核的CNN对已提取的上下文信息进行局部语义特征提取,采用多通道方式对词嵌入矩阵做不同粒度的特征提取,并将不同通道所提取的特征进行融合,从而能够更好的准确理解文本的语义信息。引入变分信息瓶颈,使模型能够更加关注那些对判断情感极性影响大的部分。使用Maxout激活函数,解决了网络训练时容易出现的梯度消失的问题,实现准确的情感分析。
2、本发明通过迁移学习的方式,对目标网络进行参数共享和微调,解决了在缺乏大量标注数据的情况下,网络训练数据量不足的问题,提升了网络的鲁棒性和泛化性,进一步提高了房地产市场情绪分析的准确度。
附图说明
图1是本发明的基于深度迁移学习的房地产市场情绪分析方法流程示意图;
图2是本发明的融入变分信息瓶颈的深度多通道神经网络结构示意图;
图3是本发明的深度迁移学习的结构示意图;
图4是本发明的基于深度迁移学习的房地产市场情绪分析装置结构图;
图5是本发明中计算机设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于深度迁移学习的房地产市场分析方法,如图1,具体包括以下步骤:
采集房地产网络舆情数据,并对舆情数据进行预处理;
构建一个融入变分信息瓶颈的深度多通道神经网络;
利用相关领域中大量的标注数据对网络进行预训练;
通过迁移学习的方式,使用少量已标注的舆情数据对预先建立的网络进行微调;
在所述迁移后的网络上对未标注的房地产舆情数据进行情感倾向分析,并获得最终的房地产市场情绪分析结果。
实施例1
本实施例给出一种基于深度迁移学习的房地产市场分析的具体实现方法。
采集房地产网络舆情数据,并对舆情数据进行预处理。这里的预处理过程包含但不限于去除重复数据、特殊符号和结合领域知识对少量数据进行情感极性标注,以此构建房地产网络舆情数据集。
在本实施例中,所述融入变分信息瓶颈的深度多通道神经网络包括上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块和情感输出模块。其中,上下文信息提取模块通过多个Bi-GRU提取文本的上下文信息;局部特征提取模块通过多个不同大小卷积核的CNN提取局部特征;从多通道中提取的特征经过融合后通过变分信息瓶颈层对特征进行压缩;引入Maxout激活函数解决模型训练过程中的梯度消失问题,由全连接层输出舆情数据的情感倾向;
其中情感输出模块使用softmax函数计算待分类文本的情感极性,表示为:
y=softmax(Ws+b)
其中,W为权重矩阵,s为接收的情感特征,b为偏置项,y为输出的情感判别。
如图2所示,该模型将文本中的词语映射成为固定维数的实数向量,建立表示文本的初始特征矩阵,将其作为模型的输入。
在图2中,采用多个Bi-GRU充分提取上下文特征。采用的Bi-GRU是对GRU的改进。GRU通过引入更新门与重置门,有效地解决了传统的循环神经网络(Recurrent NeuralNetwork,RNN)难以处理的长期依赖问题。相较长短期记忆神经网络(Long-Short TermMemory,LSTM)而言,GRU精简了网络结构,减少了模型参数,提升了模型训练速度。将前向GRU与后向GRU的输出进行拼接,以充分提取上下文信息作为输入文本的情感表征。其中,Bi-GRU可表示为:
Figure BDA0002555398750000071
Figure BDA0002555398750000072
Figure BDA0002555398750000073
其中,xt为t时刻的输入,
Figure BDA0002555398750000074
为单向GRU的权重矩阵,Wy为连接两层的权重矩阵,
Figure BDA0002555398750000075
为单向GRU的偏置项,by为连接两层的偏置项,σ为激活函数,
Figure BDA0002555398750000076
Figure BDA0002555398750000077
分别为前向GRU与后向GRU的输出,yt为t时刻的输出。
使用不同卷积核的CNN对已提取的上下文信息进行局部特征提取。设第i个通道卷积操作所使用的卷积核为w∈Rh,其中h为卷积核大小,控制卷积单词的个数,则提取后的第j个新特征cij可以表示为:
cij=f(w·xj:j+h-1+b);
卷积核沿着每一个词窗口{x1:h,x2:h+1,xn-h+1:n}逐步滑动,所产生的特征序列表示为:
ci=[ci,1,ci,2,…,ci,n-h+1];
利用池化操作来减少经卷积产生的维数,获得的特征表示为:
c′i=max(ci,1,ci,2,…,ci,n-h+1);
将多个通道生成的特征序列连接起来以形成融合后特征序列c。假设总共有k个通道,则特征序列可表示为:
c=[c′1,c′2,…,c′k];
其中,w为权重矩阵,b为偏置项,f为卷积核函数。xj:j+h-1代表h个词构成的局部词窗口,n为一条文本的单词总数。
特征压缩模块通过变分信息瓶颈对特征序列c进行压缩,以提取影响情感分析的关键语义特征,使模型能够关注文本中最重要的信息,有效提升模型分类的准确率。信息瓶颈的基本思想是:对于一个随机变量X={x1,x2,…,xn},其特征变量为Y={y1,y2,…,ym},通过中间变量Z={z1,z2,…,zl}来表示X,使得Z尽可能地压缩X的信息,同时尽可能保留相关的特征信息Y,即让X与Z的互信息I(X,Z)最小,Y与Z的互信息I(Y,Z)最大。Z可以看作是样本X与特征Y之间的信息瓶颈。根据信息瓶颈理论,将I(Y,Z)作为优化目标,I(X,Z)作为正则约束,再引入拉格朗日乘子β表示两个目标关系间的平衡系数,实际上就转化为求最大化优化问题,使得:
max[I(Y,Z)-βI(X,Z)];
引入Maxout激活函数解决模型训练过程中的梯度消失问题。每一个Maxout激活函数都由多个不同的神经元组成,其输出是神经元激活值中的最大值。Maxout激活函数可表示为:
Figure BDA0002555398750000081
其中,hi(x)为第x层第i个Maxout激活函数的输出,k为该Maxout激活函数的个数;zij为第x层中第i个Maxout激活函数的第j个神经元的激活值。
最后,由全连接层输出舆情数据的情感倾向。
实施例2
在本实施例中,给出函数max[I(Y,Z)-βI(X,Z)]的求解方式。
在实际的计算过程中用变分推断为上式构造一个下界,即引入拟合概率分布q(y|z)和r(z)对真实概率分布p(y|z)和p(z)进行变分近似,根据Kullback–Leibler散度始终为正数这一概念得到最终的优化目标为原优化目标的变分下界,可表示为:
Figure BDA0002555398750000082
根据经验数据分布
Figure BDA0002555398750000091
下界L可以近似为:
Figure BDA0002555398750000092
其中,q(y|z)和q(yn|z)为拟合条件概率分布,r(z)为拟合概率分布,p(x,y)为真实联合概率分布,p(x)为真实概率分布,p(y|x)和p(z|xn)为真实条件概率分布,
Figure BDA0002555398750000093
Figure BDA0002555398750000094
为冲激函数,N为有限个可能的取值范围;x和xn分别为输入数据的连续型随机变量和离散型随机变量;y和yn分别为输出数据的连续型随机变量和离散型随机变量;z为中间连续型随机变量。
实施例3
在图3中,采用迁移学习的方式训练融入变分信息瓶颈的深度多通道神经网络,利用源域进行预训练,利用目标域进行微调,直至训练完成。
对于预训练过程,参考图3中第一平面,将源域数据进行预处理后,输入至深度多通道神经网络中,深度多通道神经网络将输出其情感特征;将该情感特征经融合后输入至变分信息瓶颈中,提取影响情感分析的关键语义特征;最后通过引入Maxout激活函数的多个全连接层输出其情感倾向。
对于网络微调过程,参考上述预训练过程,通过参数共享的方式固定上下文信息提取模块、局部特征提取模块和特征融合模块的网络权重,只是将源域数据替换为本发明所构建的房地产网络舆情训练集,对特征融合模块和情感输出模块的权重进行微调训练。
本发明实施例通过选择不同领域以及不同数量的数据集,能够在大量未标注情感极性的房地产网络舆情数据的情况下实现房地产市场分析。
实施例4
在本实施例中,提出一种基于深度迁移学习的房地产市场分析装置,如图4,包括:
数据采集模块,用于采集房地产网络舆情数据;
预处理模块,用于对采集数据进行预处理,包括数据去重、去特殊符号和对少量的舆情数据进行情感极性标注;
情感分析网络,即融入变分信息瓶颈的深度多通道神经网络中的上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块以及情感输出模块,用于对含有大量标注数据的相关领域进行情感倾向分析,并获得输入数据对应的情感极性;
深度迁移网络,是采用迁移学习的方式训练融入变分信息瓶颈的深度多通道神经网络,将相关领域中大量的标注数据作为源域对上述网络进行训练,然后使用少量已标注的舆情数据作为目标域对预先建立的网络进行微调,直至训练完成。用于对缺乏大量标注数据的房地产网络舆情领域进行迁移,最终获得房地产市场情绪分析结果。
实施例5
在本实施例中,提出一种基于深度迁移学习的房地产市场分析设备,该设备为计算机设备,如图5,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的一种基于深度迁移学习的房地产市场情绪分析方法。
在图5中,计算机设备还包括网络接口,该接口可以用于获取网络数据。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.基于深度迁移学习的房地产市场分析方法,其特征在于,具体包括以下步骤:
采集房地产网络舆情数据,并对舆情数据进行预处理;
构建一个融入变分信息瓶颈的深度多通道神经网络;融入变分信息瓶颈的深度多通道神经网络包括上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块、情感输出模块,其中,上下文信息提取模块通过多个双向门限循环单元Bi-GRU提取文本的上下文信息,包括:
Figure FDA0003881683360000011
Figure FDA0003881683360000012
Figure FDA0003881683360000013
其中,xt为t时刻的输入,
Figure FDA0003881683360000014
为单向GRU的权重矩阵,Wy为连接两层的权重矩阵,
Figure FDA0003881683360000015
为单向GRU的偏置项,by为连接两层的偏置项,σ为激活函数,
Figure FDA0003881683360000016
Figure FDA0003881683360000017
分别为前向GRU与后向GRU的输出,yt为t时刻的输出;
局部特征提取模块通过多个不同大小卷积核的卷积神经网络CNN提取局部特征;
利用相关领域中大量的标注数据对网络进行预训练;
通过迁移学习的方式,使用少量已标注的舆情数据对预先建立的网络进行微调;
在迁移后的网络上对未标注的房地产舆情数据进行情感倾向分析,并获得最终的房地产市场情绪分析结果。
2.根据权利要求1所述的基于深度迁移学习的房地产市场分析方法,其特征在于,对舆情数据进行预处理至少包括去除重复数据、特殊符号,并结合领域知识对少量数据进行情感极性标注。
3.根据权利要求1所述的基于深度迁移学习的房地产市场分析方法,其特征在于,通过多个不同大小卷积核的CNN提取局部特征包括:
第i个通道卷积操作所使用的卷积核为w∈Rh,其中h为卷积核大小,控制卷积单词的个数,则提取后的第j个新特征cij表示为:cij=f(w·xj:j+h-1+b);
卷积核沿着每一个词窗口{x1:h,x2:h+1,xn-h+1:n}逐步滑动,所产生的特征序列表示为:ci=[ci,1,ci,2,…,ci,n-h+1];
利用池化操作来减少经卷积产生的维数,获得的特征表示为:c′i=max(ci,1,ci,2,…,ci,n-h+1);
其中,w为权重矩阵,b为偏置项,f为卷积核函数,xj:j+h-1为h个词构成的局部词窗口,n为一条文本的单词总数。
4.根据权利要求1所述的基于深度迁移学习的房地产市场分析方法,其特征在于,特征融合模块将多个通道生成的特征序列连接起来以形成融合后特征序列c,假设总共有k个通道,则融合后的特征序列可表示为:c=[c′1,c′2,…,c′k]。
5.根据权利要求1所述的基于深度迁移学习的房地产市场分析方法,其特征在于,特征压缩模块利用变分信息瓶颈对语义进行压缩,对于一个信息X={x1,x2,…,xn},其特征变量为Y={y1,y2,…,ym},通过中间变量Z={z1,z2,…,zl}来表示X,使Z尽可能地压缩X的信息,同时尽可能保留相关的特征信息Y,即让X与Z的互信息I(X,Z)最小,Y与Z的互信息I(Y,Z)最大,其中n为一条文本的单词总数。
6.根据权利要求1所述的基于深度迁移学习的房地产市场分析方法,其特征在于,在由多个全连接层构成的情感输出模块中引入Maxout激活函数,每一个Maxout激活函数都由多个不同的神经元组成,其输出是神经元激活值中的最大值,表示为:
Figure FDA0003881683360000021
其中,hi(x)为第x层第i个Maxout激活函数的输出,k为该Maxout激活函数的个数;zij为第x层中第i个Maxout激活函数的第j个神经元的激活值。
7.基于深度迁移学习的房地产市场分析装置,其特征在于,包括:
数据采集模块,用于采集房地产网络舆情数据;
预处理模块,用于对采集数据进行预处理,包括数据去重、去特殊符号和对少量的舆情数据进行情感极性标注;
情感分析网络,包括上下文信息提取模块、局部特征提取模块、特征融合模块、特征压缩模块以及情感输出模块,用于对含有大量标注数据的相关领域进行情感倾向分析,并获得输入数据对应的情感极性;其中,上下文信息提取模块提取特征的过程包括:
Figure FDA0003881683360000031
Figure FDA0003881683360000032
Figure FDA0003881683360000033
其中,xt为t时刻的输入,
Figure FDA0003881683360000034
为单向GRU的权重矩阵,Wy为连接两层的权重矩阵,
Figure FDA0003881683360000035
为单向GRU的偏置项,by为连接两层的偏置项,σ为激活函数,
Figure FDA0003881683360000036
Figure FDA0003881683360000037
分别为前向GRU与后向GRU的输出,yt为t时刻的输出;
深度迁移网络,用于采用迁移学习的方式训练情感分析网络,将相关领域中大量的标注数据作为源域对上述网络进行训练,使用少量已标注的舆情数据作为目标域对预先建立的网络进行微调,直至训练完成,用于对缺乏大量标注数据的房地产网络舆情领域进行迁移,最终获得房地产市场情绪分析结果。
8.基于深度迁移学习的房地产市场分析设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一所述的一种基于深度迁移学习的房地产市场分析方法。
CN202010588072.8A 2020-06-24 2020-06-24 基于深度迁移学习的房地产市场分析方法、装置及设备 Active CN111813893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010588072.8A CN111813893B (zh) 2020-06-24 2020-06-24 基于深度迁移学习的房地产市场分析方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010588072.8A CN111813893B (zh) 2020-06-24 2020-06-24 基于深度迁移学习的房地产市场分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111813893A CN111813893A (zh) 2020-10-23
CN111813893B true CN111813893B (zh) 2022-11-18

Family

ID=72855061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010588072.8A Active CN111813893B (zh) 2020-06-24 2020-06-24 基于深度迁移学习的房地产市场分析方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111813893B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质
CN115277264B (zh) * 2022-09-28 2023-03-24 季华实验室 一种基于联邦学习的字幕生成方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106456724A (zh) * 2013-12-20 2017-02-22 博德研究所 使用新抗原疫苗的联合疗法
CN107871124A (zh) * 2017-11-15 2018-04-03 陕西师范大学 一种基于深度神经网络的遥感图像目标检测方法
CN109543749A (zh) * 2018-11-22 2019-03-29 云南大学 基于深度学习的绘画情感分析方法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110070105A (zh) * 2019-03-25 2019-07-30 中国科学院自动化研究所 基于元学习实例快速筛选的脑电情绪识别方法、系统
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11265687B2 (en) * 2015-06-22 2022-03-01 YouMap, Inc. Creating and utilizing map channels
US10936663B2 (en) * 2017-12-21 2021-03-02 Robert Bosch Gmbh Generating sensitive dialogue through lightweight simulation
US10755087B2 (en) * 2018-10-25 2020-08-25 Adobe Inc. Automated image capture based on emotion detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106456724A (zh) * 2013-12-20 2017-02-22 博德研究所 使用新抗原疫苗的联合疗法
CN107871124A (zh) * 2017-11-15 2018-04-03 陕西师范大学 一种基于深度神经网络的遥感图像目标检测方法
CN109543749A (zh) * 2018-11-22 2019-03-29 云南大学 基于深度学习的绘画情感分析方法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110070105A (zh) * 2019-03-25 2019-07-30 中国科学院自动化研究所 基于元学习实例快速筛选的脑电情绪识别方法、系统
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Research on Speech Emotion Recognition Technology based on Deep and Shallow Neural Network";J. Wang 等;《2019 Chinese Control Conference》;20191017;第3555-3558页 *
"基于深度图的三维激光雷达点云目标分割方法";许国良 等;《中国激光》;20190319;第292-299页 *

Also Published As

Publication number Publication date
CN111813893A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
WO2022179533A1 (zh) 一种量子卷积操作器
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN108427665A (zh) 一种基于lstm型rnn模型的文本自动生成方法
CN113051916A (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN111813893B (zh) 基于深度迁移学习的房地产市场分析方法、装置及设备
CN113962294B (zh) 多类型事件预测模型
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN112699218A (zh) 模型建立方法及系统及段落标签获得方法及介质
Gao et al. Style-adaptive photo aesthetic rating via convolutional neural networks and multi-task learning
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
CN115062003A (zh) 基于gpt2的云erp社区生成式问答方法
CN114528395A (zh) 一种文本字词特征双线注意力融合的风险预测方法
CN114036298A (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN117495105A (zh) 一种基于深度学习的企业年报风险分析方法
Jadhav et al. Content based facial emotion recognition model using machine learning algorithm
Guohao et al. Competency analysis in human resources using text classification based on deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230804

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right