CN109740044B - 一种基于时间序列智能预测的企业异动预警方法 - Google Patents
一种基于时间序列智能预测的企业异动预警方法 Download PDFInfo
- Publication number
- CN109740044B CN109740044B CN201811582052.9A CN201811582052A CN109740044B CN 109740044 B CN109740044 B CN 109740044B CN 201811582052 A CN201811582052 A CN 201811582052A CN 109740044 B CN109740044 B CN 109740044B
- Authority
- CN
- China
- Prior art keywords
- data
- news
- text
- early warning
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于时间序列智能预测的企业异动预警方法,包括以下步骤:使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;使用时间序列智能预测模型进行时间序列预测;通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻。本发明能够通过外部公开的数据解决企业异动预警问题。
Description
技术领域
本发明涉及企业异动预警技术领域,特别是涉及一种基于时间序列智能预测的企业异动预警方法。
背景技术
在企业的逐渐发展过程中,自身的运营与外界媒体的报道已经密不可分,越来越多的企业事件都是由媒体向各方面展示,并且通过潜移默化地影响着人们的看法甚至企业的走势。由于目前媒体的报道可以反映出社会各方面对该企业的认知,所以可以通过网络舆情进行企业预警方面的研究。企业异动预警正是在这种形势下产生的,旨在通过对网络信息进行分析,挖掘网络信息对于企业异动的反映,从而对企业异动实现预警,希望有助于监管部门及时发现企业问题,针对企业提出相应措施。
目前主流的企业异动预警是针对企业的内部数据,即财务报表、纳税金额等等,但是这些数据对于公司外部人员和相关监管人员是难以获取的。因此亟需一种通过外部公开数据实现对企业异动预警的方法。
发明内容
本发明所要解决的技术问题是提供一种基于时间序列智能预测的企业异动预警方法,能够通过外部公开的数据解决企业异动预警问题。
本发明解决其技术问题所采用的技术方案是:提供一种基于时间序列智能预测的企业异动预警方法,包括以下步骤:
(1)使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;
(2)将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;
(3)使用时间序列智能预测模型进行时间序列预测;
(4)通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻。
所述步骤(1)中的数据预处理包括去除无用数据、去除重复数据、去除文本与企业名不符数据、统一文本发布时间格式和统一企业名称。
所述步骤(2)包括以下子步骤:
(21)将新闻按照不同企业和发布时间统计为每个企业每个月的新闻量;
(22)按照滑动窗口的方法划分数据集,并将训练集数据顺序随机化;
(23)将每个数据段进行归一化,预测结束需要反归一化。
所述步骤(3)包括以下子步骤:
(31)构建网络模型结构,确定网络基本参数,激活函数、舍弃率、误差的计算方式、参数迭代更新的方式、迭代次数和批处理大小;
(32)调整模型参数权值,通过迭代优化模型各隐藏层参数;
(33)使用测试数据进行预测,得到近期一年的预测数据;
(34)用预测数据和测试数据的最后一个标签即实际数据做相关性分析。
所述步骤(34)中使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻量的平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
所述步骤(4)具体包括以下子步骤:
(41)提取文本的关键词和关键句;
(42)将文本的关键句转化为词向量矩阵;
(43)使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重;
(44)把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件;
(45)提取文本簇中心文本,将其作为预警新闻。
所述步骤(41)包括以下子步骤:
(411)对新闻分句中的每个词语,提取文本的关键词;
(412)计算每个词与10个关键词的余弦相似度并取最大值作为词语重要程度评分;
(413)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(414)提取重要程度评分最高的5个句子共同作为新闻关键句群。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:
本发明避免了企业隐私信息无法获取的问题,通过获取网络上大量的企业相关公共信息,来实现针对一个公司的企业异动评估以及异动预警,使监管部门可以在无法获取企业不上报数据的情况下了解到企业发展状况。
本发明将时间序列智能预测的方法应用到企业异动预警上,满足面对日益复杂的现实情况时的拟合程度。本发明使用层次聚类的方法根据预警结果对预警期间的文档进行数据挖掘获取具体的预警大事件,并计算出大事件的中心事件,得到预警的具体内容,使得预警更为准确。
附图说明
图1是本发明的原理方框图;
图2是本发明中关键句抽取的流程图;
图3是本发明中文本聚类的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于时间序列智能预测的企业异动预警方法,如图1所示,包括以下步骤:
首先,本实施方式是针对企业网络信息的企业异动预警,所以必须用到网络爬虫技术在网络获取数据。采用深度优先策略,通过访问链接直到达到固定深度,每次访问都在网络源代码上,获取网页的正文文本信息和网页发布时时间,并保存到数据库。
其次,将时间序列数据按照一年12个月转化为每段12个数据的数据段,最后一个数据作为标签数据,然后将最后12组数据作为测试集,前面所有数据作为训练集。
关于时间序列预测,本实施方式使用了LSTM长短时记忆模型,是为了在根据过去的新闻量变化趋势,预测出最近一段时间的新闻量变化趋势,来判断近期的新闻量变化是否合理,是否有企业异动的情况,之后挖掘出来。
然后根据文本聚类算法,对预警企业的近期新闻进行关键句抽取,对关键句文本聚类,并提取中心文本,作为预警内容。
最后,可视化展示,包括预警企业名称,企业动态折线图,预警内容链接。具体如下:
1.数据处理
进行时间序列预测前,首先要进行数据获取、数据处理和时间序列转化。对于获取的新闻时间需要转化为统一格式,即将时间形如2017-1-1的时间统一为2017-01-01的格式,否则在时间统计时2017-10-1会在时间排序时出现在2017-2-1之后的情况,影响之后的新闻量统计工作。
2.时间序列转化
对于每个公司近年来的所有新闻,按照时间段统计成各个月份的新闻量,作为企业异动预警的基本数据,用于时间序列预测。
3时间序列预测
首先将时间序列数据按照一年12个月转化为每段12个数据的数据段,最后一个数据作为标签数据,然后将最后12组数据作为测试集,前面所有数据作为训练集。
关于时间序列预测,本实施方式使用了LSTM长短时记忆模型,是为了在根据过去的新闻量变化趋势,预测出最近一段时间的新闻量变化趋势,来判断近期的新闻量变化是否合理,是否有企业异动的情况,之后挖掘出来。Lstm模型步骤如下:
(1)构建网络模型结构,确定网络基本参数,包括确定LSTM模块的激活函数,确定完全连接人工神经网络的激活函数,确定每一层网络节点的舍弃率,确定误差的计算方式,确定参数迭代更新的方式,确定模型的迭代次数和批处理大小。
(2)调整模型参数权值,通过在模型中训练准备好的训练数据集,通过多次迭代,优化模型各隐藏层参数权值,最终结果可以用来进行预测。
(3)使用测试数据进行预测,把测试数据的前一部分作为预测数据输入模型进行预测,得到近期一年的预测数据。
(4)用预测数据和测试数据的最后一个标签即实际数据做相关性分析,相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
本实施方式使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻俩平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
4预警数据挖掘
新闻关键句提取旨在从长篇文档中提取出和文本主题相关性较大的句子,剔除与主题无关的信息,为进一步文本聚类打下基础。关键句提取步骤如下:
(1)对新闻分句中的每个词语,提取文本的关键词;
(3)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(4)提取重要程度评分最高的5个句子共同作为新闻关键句群。
新闻关键句群为长篇新闻的文本摘要,作为本发明倾向性分析的基础,算法流程如图2所示。
文本聚类即是在无监督的情况下用文本的摘要对文本分为多个主题的文本簇,如图3所示,文本聚类算法流程如下:
(1)在文本聚类中,首先使用文档分词、词性标注、实体标注、去除停用词等一系列操作将一篇文章转化为一个由多个词组成的向量。最后根据文档的集合,形成一个词的向量空间矩阵。行代表一篇文章,列代表词。
(2)由于向量空间的词太多,需要使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重,有了这个数据矩阵之后,我们通过上述公式计算两者的余弦相似度。
(3)然后把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件(最大余弦相似度低过阈值或类别个数小于阈值),即得到文本聚类簇的结果。
(4)最后获取文本聚类簇的中心文本,计算每个文本关于其他文本的余弦相似度,求平均值后计算方差,取最小值,即所有该簇文本中关于其他文本余弦相似度方差最小值的文本,即为该簇中心文本。
不难发现,本发明避免了企业隐私信息无法获取的问题,通过获取网络上大量的企业相关公共信息,来实现针对一个公司的企业异动评估以及异动预警,使监管部门可以在无法获取企业不上报数据的情况下了解到企业发展状况。
Claims (5)
1.一种基于时间序列智能预测的企业异动预警方法,其特征在于,包括以下步骤:
(1)使用网络爬虫技术获取网络新闻文本以及新闻的发布时间,并进行数据预处理;
(2)将数据转化为时间序列,并划分为时间序列段,用来进行时间序列预测;
(3)使用时间序列智能预测模型进行时间序列预测;
(4)通过文本聚类进行预警信息的挖掘,找到簇的中心文本作为预警新闻;具体包括以下子步骤:
(41)提取文本的关键词和关键句;具体包括:
(411)对新闻分句中的每个词语,提取文本的关键词;
(412)计算每个词与10个关键词的余弦相似度并取最大值作为词语重要程度评分;
(413)将分句中所有词语的重要程度评分累加取平均值作为句子的重要程度评分;
(414)提取重要程度评分最高的5个句子共同作为新闻关键句群;
(42)将文本的关键句转化为词向量矩阵;
(43)使用PCA降维,根据降维后的特征,采用TF-IDF方式计算每一篇文档中每一个词的权重;
(44)把余弦相似度最大的两个文本合并成一个簇,进入下一次余弦相似度计算之中,直到达到停止条件;
(45)提取文本簇中心文本,将其作为预警新闻。
2.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(1)中的数据预处理包括去除无用数据、去除重复数据、去除文本与企业名不符数据、统一文本发布时间格式和统一企业名称。
3.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(2)包括以下子步骤:
(21)将新闻按照不同企业和发布时间统计为每个企业每个月的新闻量;
(22)按照滑动窗口的方法划分数据集,并将训练集数据顺序随机化;
(23)将每个数据段进行归一化,预测结束需要反归一化。
4.根据权利要求1所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)构建网络模型结构,确定网络基本参数,激活函数、舍弃率、误差的计算方式、参数迭代更新的方式、迭代次数和批处理大小;
(32)调整模型参数权值,通过迭代优化模型各隐藏层参数;
(33)使用测试数据进行预测,得到近期一年的预测数据;
(34)用预测数据和测试数据的最后一个标签即实际数据做相关性分析。
5.根据权利要求4所述的基于时间序列智能预测的企业异动预警方法,其特征在于,所述步骤(34)中使用相关性分析的协方差来评估实际新闻量数据是否和理论预测值相关,若两者相关系数为负,且绝对值大于实际新闻量的平均值,则认为两者差距过大,即实际新闻量数据有异常,企业异动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811582052.9A CN109740044B (zh) | 2018-12-24 | 2018-12-24 | 一种基于时间序列智能预测的企业异动预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811582052.9A CN109740044B (zh) | 2018-12-24 | 2018-12-24 | 一种基于时间序列智能预测的企业异动预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740044A CN109740044A (zh) | 2019-05-10 |
CN109740044B true CN109740044B (zh) | 2023-03-21 |
Family
ID=66359637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811582052.9A Active CN109740044B (zh) | 2018-12-24 | 2018-12-24 | 一种基于时间序列智能预测的企业异动预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740044B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110417577B (zh) * | 2019-06-18 | 2021-11-26 | 东华大学 | 一种混杂数据流分流量峰值预测方法 |
CN110570012B (zh) * | 2019-08-05 | 2022-05-20 | 华中科技大学 | 一种基于Storm的电厂生产设备故障预警方法及系统 |
CN112100372B (zh) * | 2020-08-20 | 2022-08-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 头版新闻预测分类方法 |
CN112199565A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 数据时效识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956095A (zh) * | 2016-04-29 | 2016-09-21 | 天津大学 | 一种基于细粒度情感词典的心理预警模型构建方法 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108197178A (zh) * | 2017-12-22 | 2018-06-22 | 国云科技股份有限公司 | 一种企业风险评估方法 |
CN108584592A (zh) * | 2018-05-11 | 2018-09-28 | 浙江工业大学 | 一种基于时间序列预测模型的电梯轿厢振动异常预警方法 |
CN108900546A (zh) * | 2018-08-13 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | 基于lstm的时间序列网络异常检测的方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10320819B2 (en) * | 2017-02-27 | 2019-06-11 | Amazon Technologies, Inc. | Intelligent security management |
-
2018
- 2018-12-24 CN CN201811582052.9A patent/CN109740044B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956095A (zh) * | 2016-04-29 | 2016-09-21 | 天津大学 | 一种基于细粒度情感词典的心理预警模型构建方法 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108197178A (zh) * | 2017-12-22 | 2018-06-22 | 国云科技股份有限公司 | 一种企业风险评估方法 |
CN108584592A (zh) * | 2018-05-11 | 2018-09-28 | 浙江工业大学 | 一种基于时间序列预测模型的电梯轿厢振动异常预警方法 |
CN108900546A (zh) * | 2018-08-13 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | 基于lstm的时间序列网络异常检测的方法与装置 |
Non-Patent Citations (2)
Title |
---|
Evaluating early warning indicators of banking crises: Satisfying policy requirements;MathiasDrehmann et al.;《International Journal of Forecasting》;20141231;第30卷;全文 * |
基于机动车合格证大数据的行业运行异动监控研究;徐耀宗等;《中国管理信息化》;20161031;第19卷(第19期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109740044A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740044B (zh) | 一种基于时间序列智能预测的企业异动预警方法 | |
US11556992B2 (en) | System and method for machine learning architecture for enterprise capitalization | |
CN111144542A (zh) | 油井产能预测方法、装置和设备 | |
CN113887616A (zh) | 一种epg连接数的实时异常检测系统及方法 | |
Pit-Claudel et al. | Outlier detection in heterogeneous datasets using automatic tuple expansion | |
CN106294319A (zh) | 一种串并案识别方法 | |
CN111522950B (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN116610816A (zh) | 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统 | |
CN108108477B (zh) | 一种联动的kpi系统及权限管理系统 | |
CN114611764B (zh) | 一种特定区域内企业工业用水异常监测预警方法 | |
AU2019101158A4 (en) | A method of analyzing customer churn of credit cards by using logistics regression | |
CN113705188B (zh) | 一种海关进出口商品规范申报智能评估的方法 | |
CN114819260A (zh) | 一种水文时间序列预测模型动态生成方法 | |
Tavakoli et al. | Clustering time series data through autoencoder-based deep learning models | |
CN117971808A (zh) | 企业数据标准层次关系智能构建方法 | |
CN118037332A (zh) | 一种管理营销数据的数据处理方法及系统 | |
CN109582743A (zh) | 一种针对恐怖袭击事件的数据挖掘方法 | |
CN116757881A (zh) | 一种基于二维云模型的隧道施工动态风险预警方法及系统 | |
CN114925975A (zh) | 一种考虑时序曲线特征的源荷功率典型日集生成方法 | |
KR101613397B1 (ko) | 시계열 텍스트 데이터 및 시계열 수치 데이터의 연관 방법 및 그 장치 | |
Xia et al. | Analysis and prediction of telecom customer churn based on machine learning | |
CN113191089A (zh) | 一种基于滑动窗口的尾矿砂液化数据聚类方法 | |
Hu et al. | The outlier interval detection algorithms on astronautical time series data | |
CN116777295B (zh) | 一种基于数据智能的医药追溯系统及其方法 | |
CN117972792B (zh) | 一种银行开发环境中海量用户信息脱敏方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |