CN109740044A - 一种基于时间序列智能预测的企业异动预警方法 - Google Patents

一种基于时间序列智能预测的企业异动预警方法 Download PDF

Info

Publication number
CN109740044A
CN109740044A CN201811582052.9A CN201811582052A CN109740044A CN 109740044 A CN109740044 A CN 109740044A CN 201811582052 A CN201811582052 A CN 201811582052A CN 109740044 A CN109740044 A CN 109740044A
Authority
CN
China
Prior art keywords
enterprise
time series
data
news
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811582052.9A
Other languages
English (en)
Other versions
CN109740044B (zh
Inventor
蒋昌俊
王鹏伟
章昭辉
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201811582052.9A priority Critical patent/CN109740044B/zh
Publication of CN109740044A publication Critical patent/CN109740044A/zh
Application granted granted Critical
Publication of CN109740044B publication Critical patent/CN109740044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于时间序列智能预测的企业异动预警方法,包括以下步骤:使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;使用时间序列智能预测模型进行时间序列预测;通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻。本发明能够通过外部公开的数据解决企业异动预警问题。

Description

一种基于时间序列智能预测的企业异动预警方法
技术领域
本发明涉及企业异动预警技术领域,特别是涉及一种基于时间序列智能预测的企业异动预警方法。
背景技术
在企业的逐渐发展过程中,自身的运营与外界媒体的报道已经密不可分,越来越多的企业事件都是由媒体向各方面展示,并且通过潜移默化地影响着人们的看法甚至企业的走势。由于目前媒体的报道可以反映出社会各方面对该企业的认知,所以可以通过网络舆情进行企业预警方面的研究。企业异动预警正是在这种形势下产生的,旨在通过对网络信息进行分析,挖掘网络信息对于企业异动的反映,从而对企业异动实现预警,希望有助于监管部门及时发现企业问题,针对企业提出相应措施。
目前主流的企业异动预警是针对企业的内部数据,即财务报表、纳税金额等等,但是这些数据对于公司外部人员和相关监管人员是难以获取的。因此亟需一种通过外部公开数据实现对企业异动预警的方法。
发明内容
本发明所要解决的技术问题是提供一种基于时间序列智能预测的企业异动预警方法,能够通过外部公开的数据解决企业异动预警问题。
本发明解决其技术问题所采用的技术方案是:提供一种基于时间序列智能预测的企业异动预警方法,包括以下步骤:
(1)使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;
(2)将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;
(3)使用时间序列智能预测模型进行时间序列预测;
(4)通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻。
所述步骤(1)中的数据预处理包括去除无用数据、去除重复数据、去除文本与企业名不符数据、统一文本发布时间格式和统一企业名称。
所述步骤(2)包括以下子步骤:
(21)将新闻按照不同企业和发布时间统计为每个企业每个月的新闻量;
(22)按照滑动窗口的方法划分数据集,并将训练集数据顺序随机化;
(23)将每个数据段进行归一化,预测结束需要反归一化。
所述步骤(3)包括以下子步骤:
(31)构建网络模型结构,确定网络基本参数,激活函数、舍弃率、误差的计算方式、参数迭代更新的方式、迭代次数和批处理大小;
(32)调整模型参数权值,通过迭代优化模型各隐藏层参数;
(33)使用测试数据进行预测,得到近期一年的预测数据;
(34)用预测数据和测试数据的最后一个标签即实际数据做相关性分析。
所述步骤(34)中使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻量的平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
所述步骤(4)具体包括以下子步骤:
(41)提取文本的关键词和关键句;
(42)将文本的关键句转化为词向量矩阵;
(43)使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重;
(44)把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件;
(45)提取文本簇中心文本,将其作为预警新闻。
所述步骤(41)包括以下子步骤:
(411)对新闻分句中的每个词语,提取文本的关键词;
(412)计算每个词与10个关键词的余弦相似度并取最大值作为词语重要程度评分;
(413)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(414)提取重要程度评分最高的5个句子共同作为新闻关键句群。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:
本发明避免了企业隐私信息无法获取的问题,通过获取网络上大量的企业相关公共信息,来实现针对一个公司的企业异动评估以及异动预警,使监管部门可以在无法获取企业不上报数据的情况下了解到企业发展状况。
本发明将时间序列智能预测的方法应用到企业异动预警上,满足面对日益复杂的现实情况时的拟合程度。本发明使用层次聚类的方法根据预警结果对预警期间的文档进行数据挖掘获取具体的预警大事件,并计算出大事件的中心事件,得到预警的具体内容,使得预警更为准确。
附图说明
图1是本发明的原理方框图;
图2是本发明中关键句抽取的流程图;
图3是本发明中文本聚类的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于时间序列智能预测的企业异动预警方法,如图1所示,包括以下步骤:
首先,本实施方式是针对企业网络信息的企业异动预警,所以必须用到网络爬虫技术在网络获取数据。采用深度优先策略,通过访问链接直到达到固定深度,每次访问都在网络源代码上,获取网页的正文文本信息和网页发布时时间,并保存到数据库。
其次,将时间序列数据按照一年12个月转化为每段12个数据的数据段,最后一个数据作为标签数据,然后将最后12组数据作为测试集,前面所有数据作为训练集。
关于时间序列预测,本实施方式使用了LSTM长短时记忆模型,是为了在根据过去的新闻量变化趋势,预测出最近一段时间的新闻量变化趋势,来判断近期的新闻量变化是否合理,是否有企业异动的情况,之后挖掘出来。
然后根据文本聚类算法,对预警企业的近期新闻进行关键句抽取,对关键句文本聚类,并提取中心文本,作为预警内容。
最后,可视化展示,包括预警企业名称,企业动态折线图,预警内容链接。具体如下:
1.数据处理
进行时间序列预测前,首先要进行数据获取、数据处理和时间序列转化。对于获取的新闻时间需要转化为统一格式,即将时间形如2017-1-1的时间统一为2017-01-01的格式,否则在时间统计时2017-10-1会在时间排序时出现在2017-2-1之后的情况,影响之后的新闻量统计工作。
2.时间序列转化
对于每个公司近年来的所有新闻,按照时间段统计成各个月份的新闻量,作为企业异动预警的基本数据,用于时间序列预测。
3时间序列预测
首先将时间序列数据按照一年12个月转化为每段12个数据的数据段,最后一个数据作为标签数据,然后将最后12组数据作为测试集,前面所有数据作为训练集。
关于时间序列预测,本实施方式使用了LSTM长短时记忆模型,是为了在根据过去的新闻量变化趋势,预测出最近一段时间的新闻量变化趋势,来判断近期的新闻量变化是否合理,是否有企业异动的情况,之后挖掘出来。Lstm模型步骤如下:
(1)构建网络模型结构,确定网络基本参数,包括确定LSTM模块的激活函数,确定完全连接人工神经网络的激活函数,确定每一层网络节点的舍弃率,确定误差的计算方式,确定参数迭代更新的方式,确定模型的迭代次数和批处理大小。
(2)调整模型参数权值,通过在模型中训练准备好的训练数据集,通过多次迭代,优化模型各隐藏层参数权值,最终结果可以用来进行预测。
(3)使用测试数据进行预测,把测试数据的前一部分作为预测数据输入模型进行预测,得到近期一年的预测数据。
(4)用预测数据和测试数据的最后一个标签即实际数据做相关性分析,相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
其中,CovXY为两个序列的协方差,xi为预测数据的每一个值,yi为实际数据的每一个值,为预测数据的平均值,为实际数据的平均值。
本实施方式使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻俩平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
4预警数据挖掘
新闻关键句提取旨在从长篇文档中提取出和文本主题相关性较大的句子,剔除与主题无关的信息,为进一步文本聚类打下基础。关键句提取步骤如下:
(1)对新闻分句中的每个词语,提取文本的关键词;
(2)按公式计算每个词与10个关键词的余弦相似度并取最大值作为词语重要程度评分;其中,Ai为该词的第i个特征、Bi为关键词的第i个特征。
(3)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(4)提取重要程度评分最高的5个句子共同作为新闻关键句群。
新闻关键句群为长篇新闻的文本摘要,作为本发明倾向性分析的基础,算法流程如图2所示。
文本聚类即是在无监督的情况下用文本的摘要对文本分为多个主题的文本簇,如图3所示,文本聚类算法流程如下:
(1)在文本聚类中,首先使用文档分词、词性标注、实体标注、去除停用词等一系列操作将一篇文章转化为一个由多个词组成的向量。最后根据文档的集合,形成一个词的向量空间矩阵。行代表一篇文章,列代表词。
(2)由于向量空间的词太多,需要使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重,有了这个数据矩阵之后,我们通过上述公式计算两者的余弦相似度。
(3)然后把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件(最大余弦相似度低过阈值或类别个数小于阈值),即得到文本聚类簇的结果。
(4)最后获取文本聚类簇的中心文本,计算每个文本关于其他文本的余弦相似度,求平均值后计算方差,取最小值,即所有该簇文本中关于其他文本余弦相似度方差最小值的文本,即为该簇中心文本。
不难发现,本发明避免了企业隐私信息无法获取的问题,通过获取网络上大量的企业相关公共信息,来实现针对一个公司的企业异动评估以及异动预警,使监管部门可以在无法获取企业不上报数据的情况下了解到企业发展状况。

Claims (7)

1.一种基于时间序列智能预测的企业异动预警方法,其特征在于,包括以下步骤:
(1)使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;
(2)将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;
(3)使用时间序列智能预测模型进行时间序列预测;
(4)通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻。
2.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(1)中的数据预处理包括去除无用数据、去除重复数据、去除文本与企业名不符数据、统一文本发布时间格式和统一企业名称。
3.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(2)包括以下子步骤:
(21)将新闻按照不同企业和发布时间统计为每个企业每个月的新闻量;
(22)按照滑动窗口的方法划分数据集,并将训练集数据顺序随机化;
(23)将每个数据段进行归一化,预测结束需要反归一化。
4.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)构建网络模型结构,确定网络基本参数,激活函数、舍弃率、误差的计算方式、参数迭代更新的方式、迭代次数和批处理大小;
(32)调整模型参数权值,通过迭代优化模型各隐藏层参数;
(33)使用测试数据进行预测,得到近期一年的预测数据;
(34)用预测数据和测试数据的最后一个标签即实际数据做相关性分析。
5.根据权利要求4所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(34)中使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻量的平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
6.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(4)具体包括以下子步骤:
(41)提取文本的关键词和关键句;
(42)将文本的关键句转化为词向量矩阵;
(43)使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重;
(44)把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件;
(45)提取文本簇中心文本,将其作为预警新闻。
7.根据权利要求6所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(41)包括以下子步骤:
(411)对新闻分句中的每个词语,提取文本的关键词;
(412)计算每个词与10个关键词的余弦相似度并取最大值作为词语重要程度评分;
(413)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(414)提取重要程度评分最高的5个句子共同作为新闻关键句群。
CN201811582052.9A 2018-12-24 2018-12-24 一种基于时间序列智能预测的企业异动预警方法 Active CN109740044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811582052.9A CN109740044B (zh) 2018-12-24 2018-12-24 一种基于时间序列智能预测的企业异动预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811582052.9A CN109740044B (zh) 2018-12-24 2018-12-24 一种基于时间序列智能预测的企业异动预警方法

Publications (2)

Publication Number Publication Date
CN109740044A true CN109740044A (zh) 2019-05-10
CN109740044B CN109740044B (zh) 2023-03-21

Family

ID=66359637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811582052.9A Active CN109740044B (zh) 2018-12-24 2018-12-24 一种基于时间序列智能预测的企业异动预警方法

Country Status (1)

Country Link
CN (1) CN109740044B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417577A (zh) * 2019-06-18 2019-11-05 东华大学 一种混杂数据流分流量峰值预测方法
CN110570012A (zh) * 2019-08-05 2019-12-13 华中科技大学 一种基于Storm的电厂生产设备故障预警方法及系统
CN112100372A (zh) * 2020-08-20 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112199565A (zh) * 2020-09-09 2021-01-08 北京小米松果电子有限公司 数据时效识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956095A (zh) * 2016-04-29 2016-09-21 天津大学 一种基于细粒度情感词典的心理预警模型构建方法
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108197178A (zh) * 2017-12-22 2018-06-22 国云科技股份有限公司 一种企业风险评估方法
US20180248895A1 (en) * 2017-02-27 2018-08-30 Amazon Technologies, Inc. Intelligent security management
CN108584592A (zh) * 2018-05-11 2018-09-28 浙江工业大学 一种基于时间序列预测模型的电梯轿厢振动异常预警方法
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956095A (zh) * 2016-04-29 2016-09-21 天津大学 一种基于细粒度情感词典的心理预警模型构建方法
US20180248895A1 (en) * 2017-02-27 2018-08-30 Amazon Technologies, Inc. Intelligent security management
CN107945024A (zh) * 2017-12-12 2018-04-20 厦门市美亚柏科信息股份有限公司 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN108197178A (zh) * 2017-12-22 2018-06-22 国云科技股份有限公司 一种企业风险评估方法
CN108584592A (zh) * 2018-05-11 2018-09-28 浙江工业大学 一种基于时间序列预测模型的电梯轿厢振动异常预警方法
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATHIASDREHMANN ET AL.: "Evaluating early warning indicators of banking crises: Satisfying policy requirements", 《INTERNATIONAL JOURNAL OF FORECASTING》 *
徐耀宗等: "基于机动车合格证大数据的行业运行异动监控研究", 《中国管理信息化》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417577A (zh) * 2019-06-18 2019-11-05 东华大学 一种混杂数据流分流量峰值预测方法
CN110417577B (zh) * 2019-06-18 2021-11-26 东华大学 一种混杂数据流分流量峰值预测方法
CN110570012A (zh) * 2019-08-05 2019-12-13 华中科技大学 一种基于Storm的电厂生产设备故障预警方法及系统
CN110570012B (zh) * 2019-08-05 2022-05-20 华中科技大学 一种基于Storm的电厂生产设备故障预警方法及系统
CN112100372A (zh) * 2020-08-20 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112100372B (zh) * 2020-08-20 2022-08-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112199565A (zh) * 2020-09-09 2021-01-08 北京小米松果电子有限公司 数据时效识别方法及装置

Also Published As

Publication number Publication date
CN109740044B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN109740044A (zh) 一种基于时间序列智能预测的企业异动预警方法
CN107704637B (zh) 一种面向突发事件的知识图谱构建方法
CN109684440A (zh) 基于层级标注的地址相似度度量方法
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN110377696A (zh) 一种商品期货新闻舆情分析方法及系统
CN109829733B (zh) 一种基于购物行为序列数据的虚假评论检测系统和方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN106326212A (zh) 一种基于层次深度语义的隐式篇章关系分析方法
CN104657350A (zh) 融合隐式语义特征的短文本哈希学习方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN109145260A (zh) 一种文本信息自动提取方法
CN103226554A (zh) 基于新闻数据的股票自动匹配分类方法和系统
Bartolucci et al. An overview of latent Markov models for longitudinal categorical data
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN108108477B (zh) 一种联动的kpi系统及权限管理系统
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN116610816A (zh) 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统
CN116034379A (zh) 使用深度学习和机器学习的活动性水平测量
CN106649726A (zh) 一种社交网络中社团话题演化挖掘方法
Röthlisberger et al. Dialect typology: Recent advances
Berninger et al. Citations and the readers’ information-extracting costs of finance articles
Fan et al. An improved quantum clustering algorithm with weighted distance based on PSO and research on the prediction of electrical power demand
Yu et al. Neural network based transaction classification system for chinese transaction behavior analysis
Hu Analysis of enterprise financial and economic impact based on background deep learning model under business administration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant