CN107688870A - 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 - Google Patents
一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 Download PDFInfo
- Publication number
- CN107688870A CN107688870A CN201710694112.5A CN201710694112A CN107688870A CN 107688870 A CN107688870 A CN 107688870A CN 201710694112 A CN201710694112 A CN 201710694112A CN 107688870 A CN107688870 A CN 107688870A
- Authority
- CN
- China
- Prior art keywords
- layer
- factor
- clustering
- factors
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本流输入的深度神经网络的可视化分析方法及装置,包括:设计实现一个基于文本输入的分层深度神经网络结构;使用标签相关性传播算法(LRP)得到每一层因素(factor)对于预测结果的权重,进而从中提取重要的因素;对得到的重要因素进行聚类,以得到整体的聚类信息,进而构建因素层次结构;对结果进行可视化,在可视化中,将预测结果与因素聚类结果并列展示,聚类结果可以进一步展开直至最小粒度的因素。采用本发明,通过分层的因素分析方法,可以帮助用户更好的分析深度神经网络的结果和运行机制。
Description
技术领域
本发明涉及深度学习和可视化领域,具体地说,涉及一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置。
背景技术
深度学习技术正在改观大数据研究领域的预测分析,并且已经在图像和语音识别、知识问答、机器翻译以及其他很多应用领域取得了重大突破。通常,深度学习方法是将输入数据经由多层神经网络结构,如前馈神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等,通过多次的迭代训练,最终得到学习模型。
然而,相对于传统的机器学习方法,如线性回归和支持向量机,深度学习模型有一个众所周知的缺陷,即它难以解释。这个缺陷使得难以理解深度学习模型和进一步分析。在有些领域,例如图像识别,深度学习的原理已经被部分解释。例如,从基本的视觉特征到图案最后到对象的细节特区提取。在大多数其他领域,对于深度学习模型如何工作仍然只有很少的线索。例如在文本预测中,文本输入的使用引入了额外的词向量步骤来将文本集合映射到特征空间,使得解释预测模型更加困难。
以股票预测为例,已经证实金融新闻和推特等文本数据对股市走势的预测是有用的。例如,雅虎金融新闻“Amazon profit beats forecasts”会伴随着亚马逊股价的激增,而“Oil price hits a record high”则引发了对汽车行业的担忧并且削弱了他们在股市的表现。过去的使用大量金融新闻以及深度神经网络的工作已经在每日股价的预测上达到了高于60%的准确率。然而,金融用户(如交易者,投资者等)不能直接运用深度学习的结果。第一,这些用户通常已经建立了他们自己的一系列交易规则,并且不会依赖单一的不可知的预测算法。第二,他们的交易通常是小时级甚至是分钟级的,然而在研究领域,为了和交易的新闻周期一致,基于文本的预测是按天运行的。因此,金融领域用户只有理解了预测模型并且将模型中学到的知识与自己在股市的领域经验相结合,才能从深度学习技术中受益。
为了更好的理解深度学习模型的运行机制,近几年出现了一些深度神经网络的可视化的方法,如Google公司的Tensorflow Playground提供了一个在线可视化工具来帮助非领域专家理解深度学习模型的结构和训练过程。但是之前的工作大多集中于使用卷积神经网络的图像分类领域,来帮助理解神经网络的结构,而没有展示文本流与预测值的关联关系方面的工作。
另外,在可视化展示文本数据与预测结果的相关性时,通常文本数据量很大,在这种情况下,由于计算机显示器屏幕大小有限,不可能同时向用户展示全部文本数据。如果采用按照相关性排序的方式,则只能对文本数据的一部分进行显示,这就缺少了相关文本的整体情况。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置,通过分层因素的展示和分析,可以将输入文本数据与模型预测结果的关系予以展示,并进一步通过添加重要关键词、逐级展开因素以及查看原始文本数据等交互,以帮助用户分析和理解深度学习模型的结果。
本发明技术解决方案:一种基于文本流输入的深度神经网络的分层因素可视化分析方法,包括以下步骤:
(1)设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;
(2)使用标签相关性传播算法(LRP)获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;
(3)对步骤(2)得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;
(4)对步骤(1)中的预测结果以及步骤(3)得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。
所述步骤(1)中的深度神经网络的模型为分层结构,具体结构如下:共有四层,分别是词向量层、词组向量层、标题向量层和回归网络层,从文本数据到最终预测结果,词向量层以原始文本数据作为输入,并将其中每个单词转换成一个实数的词向量;词组向量层在以上词向量的基础上构建相邻两单词组成的词组的向量;标题向量层汇总标题,包括新闻标题、推文中出现的所有词组向量,并构建标题的向量表示;回归网络层接收标题向量层的输出,并通过一个带有残差连接项的前向神经网络将接收到的标题向量层的输出映射到一个实数预测值。
所述步骤(2)中,使用标签相关性传播算法获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,实现如下:
(1)将第l层的第i个神经元记作其相关性分数记作将神经网络训练时前向过程中从神经元到神经元的信息贡献函数定义为m(j→i),最后一层的相关性分数为预测结果,首先计算经过传播到的相关性分数增量为:
再按照此公式计算第l层的所有神经元传播到的相关性分数增量;
(2)累加步骤(1)得到的相关性分数增量即得到第l‐1层的神经元Rj的相关性分数即:
按照此方法可得到l‐1层每个神经元的标签相关分数和
(3)将l‐1层得到的相关性分数按(1)(2)中同样的规则传播到第l‐2层,得到l‐2层的相关性分数,由l‐2层得到的相关性分数按照同样的规则传播到l‐3层,得到l‐3层的相关性分数,不断计算直至得到第一层的相关性分数,这样便得到每一层因素的相关性分数,从中选取相关性分数绝对值大于某个阈值的因素作为重要因素。
步骤(3)中,聚类采用k‐means聚类算法,具体实现如下:
(1)对步骤2得到每个重要因素,即影响权重绝对值较大的关键词,在语义空间上找到它的最相近的n个关键词,然后将这些关键词的相关性向量加和作为该关键词最终的向量;
(2)在向量的空间中选取任意k个点为中心进行聚类,分别计算每个点距离各个中心点的位置,距离同一个中心点最近的点被归为一类,每类中所有点的中心点作为新的聚类中心点。聚类中心的每次更新为一次迭代,迭代一定次数后算法终止,得到k个聚类结果;
(3)选用轮廓测量(Silhouette measure)方法来评价上述聚类结果的效果,选取最优的聚类个数和聚类结果。
所述k取2到15。
步骤(4)中,联动可视化展示采用以下情形的任意一种:
m.当显示被预测值序列的页面时,在图表信息中突出实际值与预测值及其差别;
n.当显示被预测值序列的页面时,同时显示相应因素的时序曲线,突出两者之间的相关性;
o.当改变被预测值序列的时间区间时,相应改变相应因素的曲线;
p.使用共用时间轴的方式对时序预测值和输入文本流因素进行联动的显示;
q.使用降维技术和散点图对文本因素的分布情况进行显示;
r.使用可以展开的树形结构展示文本因素,将文本因素的聚类按层次展开;
s.使用文档列表的展示方式来联动的显示选中时间片段对应的原始文本数据;
t.优选地,在上述文本流因素的视图中添加该因素与预测值的互相关系数曲线来展示该因素的影响;
u.优选地,将层次因素视图与散点图联动的显示,在上述散点图中突出显示包含选中因素视图中的因素的点;
v.展开因素曲线的视图至下一层次的因素时序图;
w.输入新的关键词因素,并提交到系统,系统增加该关键词的时序图;
x.对因素视图进行排序,可以按照其相关性大小或正负进行排序。
一种基于文本流输入的深度神经网络的分层因素可视化分析装置,包括基于文本流输入的深度神经网络模型、重要因素提取器、因素动态聚类构造器和可视化引擎;
基于文本流输入的深度神经网络模型:设计一个基于文本流输入的深度神经网络模型,使用训练集和开发集上的文本流数据训练该深度神经网络模型,使用已训练好的深度神经网络模型在测试集上进行预测,得到预测结果;
重要因素提取器:使用标签相关性传播算法得到输入的文本因素对预测结果的权重大小,从中提取权重绝对值大于设定阈值作为重要因素;
因素动态聚类构造器:对重要因素进行聚类和分析,得到关键词聚类结果;重要因素层次结构共包含四层:包含所有相关单词的关键词聚类、关键词本身、由关键词组成的二元词组以及原始的文档,所述文档来源包括新闻、推特,所述因素动态聚类构造器包括:
a.关键词选取单元,用于在用户指定的时间区间内查询对应的关键词并形成关键词及其相关性分数的列表;
b.聚类器,对a中的关键词进行聚类,得到关键词聚类结果;
可视化引擎:用于对因素动态聚类构造器获取到的重要因素和基于文本流输入的深度神经网络模型得到的预测结果进行可视化处理,生成可视聚类信息,以及将影响权重绝对值大于设定阈值的文本因素与预测结果的关联性联动地显示在浏览器上。
本发明与现有技术相比的优点在于:
(1)使用了新闻、年报、推特三种数据源。新闻数据真实可靠,年报数据选取第七章MD&A(管理层讨论与分析)内容,内容专业丰富,推特数据则更加丰富立体。
(2)使用标签相关性传播模型得到每一层包含的因素和最终预测值的相关性大小,得到了对应的文本输入对预测结果的影响大小,进而帮助分析模型结果。
(3)对关键词聚类采用改进的k-means算法,算法使用表示关键词语义的词向量和代表关键词对预测结果随时间变化的贡献的相关性得分向量两种度量指标,对每个关键词,首先在语义空间上找到它的最相近的n个关键词,然后将它们的相关性向量加和作为该关键词最终的向量。这使得关键词的稀疏问题得到解决。同时算法将聚类个数设为2到15,选用了轮廓测量(Silhouette measure)方法来评价聚类的效果,然后从中选取最优的聚类个数和聚类结果。
(4)可视化系统中人与系统可进行充分丰富的交互,用户更容易看到预测结果、分析预测结果与文本数据之间的联系。
(5)实验数据表明,本发明系统能够帮助用户更快更加准确的预测第二天股票涨跌的情况。使用其他系统的准确性为(0.77±0.42),使用本系统的准确性为(0.84±0.37);使用其他系统完成所规定的可视化任务的时间为(73.7±62.6),使用本发明系统的时间为(71.8±33.9)。在用户对系统的体验评分中,其他系统的平均得分为4.81,本发明的得分为5.13。由数据看出本发明系统拥有更高的准确性和较好的用户体验效果。
附图说明
图1是根据本发明的一个实施例的基于文本输入的股票预测模型的分层因素可视化方法的流程图;
图2是根据本发明的一个实施例的深度神经网络的股票预测模型结构的示意图;
图3是根据本发明的一个实施例的用于获得每一层因素的相关性大小的标签相关性传播算法(LRP)的示意图;
图4是根据本发明的一个实施例的因素层次的示意图;
图5是根据图1所示的实施例的股票预测模型结果的可视化系统的显示的示意图。
具体实施方式
相信通过以下结合附图对本发明的具体实施例的详细描述,本发明的上述和其他目的、特征和优点会变得更明显。
图1是根据本发明的一个实施例的基于文本输入的股票预测模型的分层因素可视化方法的流程图。
如图1所示,首先获取了S&P(标准普尔指数)500家公司的历史股价数据以及相关的新闻、推特和年报数据。在得到三源文本数据(新闻、推特、年报)之后,首先对这些数据进行预处理,得到每个公司各自的三源文本数据。对新闻数据,维护了一个公司相关的关键词列表,对每个公司的关键词列表和新闻正文进行匹配,从而得到新闻与各个公司的关联关系;对推特数据,根据每条推文中$符号后面的公司代码来匹配相对应的公司;对年报数据,可以直接得到每家公司的年度报表,然后抽取其中第七章MD&A(管理层讨论与分析)内容。
在获取了所需的数据之后,在第二步,构建了一个基于深度神经网络的股票预测模型(图2所示),以三源文本数据为输入来预测股价的变化,具体地说,是用前一天的文本数据来预测第二天股价的涨跌情况。
第三步,使用标签相关性传播模型(图3所示)得到每一层包含的因素和最终预测值的相关性大小,进而帮助分析模型结果。
第四步,对上一步骤得到的每一层因素进行处理,构建因素层次结构(图4所示)。为了构建因素层次结构,最大的挑战就是对关键词进行适当地聚类以形成最初的因素总览视图。在本场景中,有两个属性可以作为关键词聚类的度量指标:表示关键词语义的词向量和代表关键词对预测结果随时间变化的贡献的相关性得分向量。通过分析,单独使用任意一种,都会由于关键词的稀疏问题而不能很好地聚类。因此,优选地,选择同时使用两种度量的融合方法,即对每个关键词,首先在语义空间上找到它的最相近的n个关键词,然后将它们的相关性向量加和作为该关键词最终的向量。在本实施例中,优选地,采用k均值(k‐means)算法作为聚类算法。K‐means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。在使用k‐means方法进行聚类时,另一个问题就是如何确定最优的聚类个数。这里选用了轮廓测量(Silhouette measure)方法来评价聚类的效果。在聚类过程中,将聚类个数设为2到15,然后从中选取最优的聚类个数和聚类结果。
在此,k‐means算法仅仅是作为聚类算法的一个例子,本领域的技术人员可以采用其他任何核实的聚类算法对因素进行聚类。
第五步,在得到各公司的历史股价、预测股价以及相关的层次因素等数据之后,在可视化系统(图5所示)上进行统一展示,并加入丰富的交互,从而帮助用户更容易的看到预测结果和分析预测结果与文本数据之间的联系。
通过以上描述可以看出,采用本实施例的基于文本输入的深度股票预测模型的可视化方法,通过分层的模型设计以及每层因素的相关性计算和因素层次展示,可以方便用户从整体上理解基于深度神经网络的股票预测模型。
参照图2所示的采用图1所示实施例的深度股票预测模型的示意图,详细说明实际应用本实施例的股票预测的方法。
如图2所示,该例子使用了深度神经网络,为了更好地用户可视化解释,对模型进行了一下三方面的优化。第一,明确地从输入文本集合里抽取了层次的、容易理解的向量表示,即词向量、二元词组向量和标题向量,这对可视化大量的文本因素提供了便利;第二,尽管特征数量远远多于训练数据的数量,采用了一系列技术方法来防止过拟合,如dropout等;第三,由于分层的模型设计加长了回传的路径,引入了残差连接项来加速训练过程。
图2中的词向量层,会将文本输入中的单词转换成一个高维实数稠密向量,即词向量。如果两个单词的词向量在高维空间很相近,那么他们也有着相似的语义。在新闻数据集上预训练了50维的词向量。为了防止过拟合,在词向量上应用了dropout。Dropout的主要思想是随机地以给定的概率来使一部分神经元失效,从而提高神经网络的通用性。
在第二层的二元词组向量层,会得到相邻两个单词组成的词组的向量表示。对于一个二元词组B=w1w2,其中单词w1和w2对应的词向量分别是v1和v2,那么可以通过以下公式来得到词组B的向量V:V=tanh(v1+v2)。通过这一步,可以在不引入新的学习参数的情况下仍然保留文本数据中单词的局部顺序。
标题向量层会得到每个句子(如新闻标题或推文)的向量表示,然后将当天所有标题的向量汇总成最终的向量。标题向量tj是通过求和池化层(sum pooling layer)得到,即将标题中所有二元词组的向量相加,公式如下:
其中,Kj是标题中包含的词组的数量,ukj是第j个标题的第k个词组向量。然后通过一个平均池化层(average pooling layer)得到当天的向量表示s:
n表示当天所有新闻标题向量的个数。在平均池化之前,采用了dropout操作来防止过拟合,这里的dropout操作是以给定的概率将标题向量置为零向量。
在前向回归层中,使用了带有残差连接项的tanh层h来将每天的向量s映射成当天的最后预测股价
h=tanh(Wh×s+bh)+s
Wh,WO,bh,bO是回归模型中的参数。通过将s直接加到tanh层的输出,可以有效地加速梯度从输出向量h到标题向量层的s的回传。
图3是根据本发明的另一个实施例的标签相关性传播算法(LRP)的模型的示意图。下面结合该附图对本实施例进行详细描述。
LRP模型的目的是计算每一层因素(单词、词组、标题)与预测结果的相关性分数,该分数表示了因素对当天的股价预测结果做出了多少贡献。LRP模型的思想是使用类似梯度反向传播的方式,将相关性分数从最终的输出层反向传播到输入层,其中添加一些限制来确保有效传播。
正式地,将第t天的预测结果设为ft,用Rt(w)表示单词w在第t天的相关性大小,LRP模型会将该预测值分解到所有输入的因素(如单词)的相关性分数:
其中,Dt是前一天的与公司相关的文本数据集合(如新闻)。Rt(w)>0表示单词w对预测股价上涨起到了正向的作用。反之,Rt(w)<0表示单词w对预测股价上涨起到了反向的作用。
标签相关性传播算法的传播规则就是通过训练好的神经网络模型中的信息贡献函数将第l层的神经元的相关性分数回传到前一层(l‐1层)的每一个神经元上。将这个前向过程中从神经元到的信息贡献函数定义为m(j→i)。那么,从传播到的相关性分数就是:
第l‐1层的神经元Rj的总的相关性分数就是:
在回归层,有很多可行的相关性传播规则。优选地,采用ε规则,因为它很简单并且效果很好。
举例来说,在一个单层网络f(s)=tanh(w*s+b)中,s是输入向量,w和b是神经网络的参数,输出层的相关性分数R(f)会分解成输入层s中的每个神经元k的相关性分数R(sk)。ε规则定义如下:
其中,ε是一个很小的整数,来保证公式在w*s+b趋近0时的稳定性。
注意到∑kR(sk)<R(f),是因为参数b也对预测股票涨跌起到了作用。这里b起到的作用可以看作为股价被非文本信息影响的涨跌变化。从另一方面来看,赋予b的相关性分数标示了使用文本预测股价的风险。相关性分数R(b)可以给定如下:
最终,通过标签相关性传播模型,可以得到每一层因素(单词、词组、标题)的相关性分数。
图4是根据本发明的另一个实施例的因素层次分析的示意图。第一层为对预测结果影响权重大于某个阈值的关键词的聚类,第二层为各个展开的关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;因素随时间变化的相关性分数可以与预测股价作对比,因此计算了两时序数据间的互相关系数(cross correlation)。
参照图5所示的基于股票预测模型的可视化系统的界面示意图,详细说明实际应用本实施例的分析深度学习模型结果的可视化方法的示例。
如图5所示,该例子使用本领域普通技术人员熟知的chrome浏览器,通过最上一行可以看到用户查看的公司是苹果公司(Apple Inc.),数据来源是新闻文本。系统界面分为四部分(a,b,c,d)。
在图5中的(a)中,股价曲线图采用总览加细节的设计来方便的选取时间和查看。图5中的(b)展示了因素层次结构,通过和股价曲线在时间轴上对齐,每个因素随时间变化的贡献也一目了然。图5中的(d)用一个关键词映射视图展示了相关的重要的关键词,这里提供了MDS和tSNE两种方法来将高维向量映射到二维空间上。当选取了一段时间之后,对应的文本文档(新闻、推文等)会显示在文档视图(即图5中的(c))中。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (7)
1.一种基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于,包括以下步骤:
(1)设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;
(2)使用标签相关性传播算法(LRP)获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;
(3)对步骤(2)得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;
(4)对步骤(1)中的预测结果以及步骤(3)得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。
2.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤(1)中的深度神经网络的模型为分层结构,具体结构如下:共有四层,分别是词向量层、词组向量层、标题向量层和回归网络层,从文本数据到最终预测结果,词向量层以原始文本数据作为输入,并将其中每个单词转换成一个实数的词向量;词组向量层在以上词向量的基础上构建相邻两单词组成的词组的向量;标题向量层汇总标题,包括新闻标题、推文中出现的所有词组向量,并构建标题的向量表示;回归网络层接收标题向量层的输出,并通过一个带有残差连接项的前向神经网络将接收到的标题向量层的输出映射到一个实数预测值。
3.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤(2)中,使用标签相关性传播算法获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,实现如下:
(1)将第l层的第i个神经元记作其相关性分数记作将神经网络训练时前向过程中从神经元到神经元的信息贡献函数定义为m(j→i),最后一层的相关性分数为预测结果,首先计算经过传播到的相关性分数增量为:
<mrow>
<msubsup>
<mi>&Delta;f</mi>
<mrow>
<mi>i</mi>
<mo>&RightArrow;</mo>
<mi>j</mi>
</mrow>
<mrow>
<mi>l</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>&RightArrow;</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>&RightArrow;</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msubsup>
<mi>f</mi>
<mi>i</mi>
<mi>l</mi>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
再按照此公式计算第l层的所有神经元传播到的相关性分数增量;
(2)累加步骤(1)得到的相关性分数增量即得到第l‐1层的神经元Rj的相关性分数即:
<mrow>
<msubsup>
<mi>f</mi>
<mi>j</mi>
<mrow>
<mi>l</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msubsup>
<mi>&Delta;f</mi>
<mrow>
<mi>i</mi>
<mo>&RightArrow;</mo>
<mi>j</mi>
</mrow>
<mrow>
<mi>l</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
按照此方法可得到l‐1层每个神经元的标签相关分数和
(3)将l‐1层得到的相关性分数按(1)(2)中同样的规则传播到第l‐2层,得到l‐2层的相关性分数,由l‐2层得到的相关性分数按照同样的规则传播到l‐3层,得到l‐3层的相关性分数,不断计算直至得到第一层的相关性分数,这样便得到每一层因素的相关性分数,从中选取相关性分数绝对值大于某个阈值的因素作为重要因素。
4.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:步骤(3)中,聚类采用k‐means聚类算法,具体实现如下:
(1)对步骤2得到每个重要因素,即影响权重绝对值较大的关键词,在语义空间上找到它的最相近的n个关键词,然后将这些关键词的相关性向量加和作为该关键词最终的向量;
(2)在向量的空间中选取任意k个点为中心进行聚类,分别计算每个点距离各个中心点的位置,距离同一个中心点最近的点被归为一类,每类中所有点的中心点作为新的聚类中心点。聚类中心的每次更新为一次迭代,迭代一定次数后算法终止,得到k个聚类结果;
(3)选用轮廓测量(Silhouette measure)方法来评价上述聚类结果的效果,选取最优的聚类个数和聚类结果。
5.根据权利要求1所述的基于文本输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述k取2到15。
6.根据权利要求1所述的基于文本输入的深度神经网络的分层因素可视化分析方法,其特征在于:步骤(4)中,联动可视化展示采用以下情形的任意一种:
a.当显示被预测值序列的页面时,在图表信息中突出实际值与预测值及其差别;
b.当显示被预测值序列的页面时,同时显示相应因素的时序曲线,突出两者之间的相关性;
c.当改变被预测值序列的时间区间时,相应改变相应因素的曲线;
d.使用共用时间轴的方式对时序预测值和输入文本流因素进行联动的显示;
e.使用降维技术和散点图对文本因素的分布情况进行显示;
f.使用可以展开的树形结构展示文本因素,将文本因素的聚类按层次展开;
g.使用文档列表的展示方式来联动的显示选中时间片段对应的原始文本数据;
h.优选地,在上述文本流因素的视图中添加该因素与预测值的互相关系数曲线来展示该因素的影响;
i.优选地,将层次因素视图与散点图联动的显示,在上述散点图中突出显示包含选中因素视图中的因素的点;
j.展开因素曲线的视图至下一层次的因素时序图;
k.输入新的关键词因素,并提交到系统,系统增加该关键词的时序图;
l.对因素视图进行排序,可以按照其相关性大小或正负进行排序。
7.一种基于文本流输入的深度神经网络的分层因素可视化分析装置,其特征在于:包括基于文本流输入的深度神经网络模型、重要因素提取器、因素动态聚类构造器和可视化引擎;
基于文本流输入的深度神经网络模型:设计一个基于文本流输入的深度神经网络模型,使用训练集和开发集上的文本流数据训练该深度神经网络模型,使用已训练好的深度神经网络模型在测试集上进行预测,得到预测结果;
重要因素提取器:使用标签相关性传播算法得到输入的文本因素对预测结果的权重大小,从中提取权重绝对值大于设定阈值作为重要因素;
因素动态聚类构造器:对重要因素进行聚类和分析,得到关键词聚类结果;重要因素层次结构共包含四层:包含所有相关单词的关键词聚类、关键词本身、由关键词组成的二元词组以及原始的文档,所述文档来源包括新闻、推特,所述因素动态聚类构造器包括:
a.关键词选取单元,用于在用户指定的时间区间内查询对应的关键词并形成关键词及其相关性分数的列表;
b.聚类器,对a中的关键词进行聚类,得到关键词聚类结果;
可视化引擎:用于对因素动态聚类构造器获取到的重要因素和基于文本流输入的深度神经网络模型得到的预测结果进行可视化处理,生成可视聚类信息,以及将影响权重绝对值大于设定阈值的文本因素与预测结果的关联性联动地显示在浏览器上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710694112.5A CN107688870B (zh) | 2017-08-15 | 2017-08-15 | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710694112.5A CN107688870B (zh) | 2017-08-15 | 2017-08-15 | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688870A true CN107688870A (zh) | 2018-02-13 |
CN107688870B CN107688870B (zh) | 2020-07-24 |
Family
ID=61153275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710694112.5A Active CN107688870B (zh) | 2017-08-15 | 2017-08-15 | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688870B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242188A (zh) * | 2018-09-12 | 2019-01-18 | 大连理工大学 | 一种钢铁煤气系统长期区间预测及其结构学习方法 |
CN111753958A (zh) * | 2020-06-22 | 2020-10-09 | 成都理工大学 | 基于测井数据深度学习的灯影组微生物岩微相识别方法 |
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN112347252A (zh) * | 2020-11-04 | 2021-02-09 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
WO2021135546A1 (zh) * | 2020-07-17 | 2021-07-08 | 平安科技(深圳)有限公司 | 深度神经网络的解释方法、装置、终端及存储介质 |
CN113220957A (zh) * | 2021-06-02 | 2021-08-06 | 中国农业银行股份有限公司 | 物品数据可视化方法、装置、电子设备及存储介质 |
CN113724110A (zh) * | 2021-08-27 | 2021-11-30 | 中国海洋大学 | 一种可解释的深度知识追踪方法、系统及其应用 |
CN114564576A (zh) * | 2022-01-20 | 2022-05-31 | 浙江大学 | 一种基于动态聚类的大量时序曲线可视化方法 |
CN114756763A (zh) * | 2022-02-23 | 2022-07-15 | 北方工业大学 | 社交网络虚假新闻检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929894A (zh) * | 2011-08-12 | 2013-02-13 | 中国人民解放军总参谋部第五十七研究所 | 一种文本在线聚类可视化方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN105930934A (zh) * | 2016-04-27 | 2016-09-07 | 北京物思创想科技有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
CN106844765A (zh) * | 2017-02-22 | 2017-06-13 | 中国科学院自动化研究所 | 基于卷积神经网络的显著信息检测方法及装置 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
-
2017
- 2017-08-15 CN CN201710694112.5A patent/CN107688870B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929894A (zh) * | 2011-08-12 | 2013-02-13 | 中国人民解放军总参谋部第五十七研究所 | 一种文本在线聚类可视化方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN105930934A (zh) * | 2016-04-27 | 2016-09-07 | 北京物思创想科技有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
CN106844765A (zh) * | 2017-02-22 | 2017-06-13 | 中国科学院自动化研究所 | 基于卷积神经网络的显著信息检测方法及装置 |
CN106951554A (zh) * | 2017-03-29 | 2017-07-14 | 浙江大学 | 一种层次化新闻热点及其演化的挖掘与可视化方法 |
Non-Patent Citations (2)
Title |
---|
DUMITRU ERHAN 等: "Visualizing Higher-Layer Features of a Deep Network", 《RESEARCHGATE》 * |
JASON YOSINSKI 等: "Understanding Neural Networks Through Deep Visualization", 《DEEP LEARNING WORKSHOP, 31 ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242188B (zh) * | 2018-09-12 | 2021-06-08 | 大连理工大学 | 一种钢铁煤气系统长期区间预测及其结构学习方法 |
CN109242188A (zh) * | 2018-09-12 | 2019-01-18 | 大连理工大学 | 一种钢铁煤气系统长期区间预测及其结构学习方法 |
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN111753958A (zh) * | 2020-06-22 | 2020-10-09 | 成都理工大学 | 基于测井数据深度学习的灯影组微生物岩微相识别方法 |
WO2021135546A1 (zh) * | 2020-07-17 | 2021-07-08 | 平安科技(深圳)有限公司 | 深度神经网络的解释方法、装置、终端及存储介质 |
CN112347252B (zh) * | 2020-11-04 | 2024-02-27 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
CN112347252A (zh) * | 2020-11-04 | 2021-02-09 | 吉林大学 | 一种基于cnn文本分类模型的可解释性分析方法 |
CN113220957A (zh) * | 2021-06-02 | 2021-08-06 | 中国农业银行股份有限公司 | 物品数据可视化方法、装置、电子设备及存储介质 |
CN113220957B (zh) * | 2021-06-02 | 2024-02-02 | 中国农业银行股份有限公司 | 物品数据可视化方法、装置、电子设备及存储介质 |
CN113724110A (zh) * | 2021-08-27 | 2021-11-30 | 中国海洋大学 | 一种可解释的深度知识追踪方法、系统及其应用 |
CN114564576A (zh) * | 2022-01-20 | 2022-05-31 | 浙江大学 | 一种基于动态聚类的大量时序曲线可视化方法 |
CN114564576B (zh) * | 2022-01-20 | 2024-08-30 | 浙江大学 | 一种基于动态聚类的大量时序曲线可视化方法 |
CN114756763A (zh) * | 2022-02-23 | 2022-07-15 | 北方工业大学 | 社交网络虚假新闻检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107688870B (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Zhang et al. | Taxogen: Unsupervised topic taxonomy construction by adaptive term embedding and clustering | |
Shrivastava et al. | An effective approach for emotion detection in multimedia text data using sequence based convolutional neural network | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
Sohrabi et al. | An efficient preprocessing method for supervised sentiment analysis by converting sentences to numerical vectors: a twitter case study | |
Keyvanpour et al. | OMLML: a helpful opinion mining method based on lexicon and machine learning in social networks | |
Duarte et al. | A review of semi-supervised learning for text classification | |
Lin et al. | Heterogeneous knowledge-based attentive neural networks for short-term music recommendations | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN108090231A (zh) | 一种基于信息熵的主题模型优化方法 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN112861541A (zh) | 一种基于多特征融合的商品评论情感分析方法 | |
Wang et al. | Harshness-aware sentiment mining framework for product review | |
Zhang et al. | A data processing method based on sequence labeling and syntactic analysis for extracting new sentiment words from product reviews | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
Addepalli et al. | A proposed framework for measuring customer satisfaction and product recommendation for ecommerce | |
Stylios et al. | Using Bio-inspired intelligence for Web opinion Mining | |
Zhang et al. | Cross-domain text classification based on BERT model | |
Malhotra et al. | An efficient FTS-BERT based fake news detection using CKH_GANs classification technique | |
Zhang et al. | Sentiment time series clustering of Danmu videos based on BERT fine-tuning and SBD-K-shape | |
TS et al. | Fake news detection on social media using Adaptive Optimization based Deep Learning Approach | |
Thakur et al. | A Systematic Review on Explicit and Implicit Aspect Based Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |