CN115080752A - 基于特征领域知识自动获取的数值特征发现方法及系统 - Google Patents

基于特征领域知识自动获取的数值特征发现方法及系统 Download PDF

Info

Publication number
CN115080752A
CN115080752A CN202210989620.7A CN202210989620A CN115080752A CN 115080752 A CN115080752 A CN 115080752A CN 202210989620 A CN202210989620 A CN 202210989620A CN 115080752 A CN115080752 A CN 115080752A
Authority
CN
China
Prior art keywords
feature
field
text
prediction
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210989620.7A
Other languages
English (en)
Other versions
CN115080752B (zh
Inventor
金敏
宁子帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210989620.7A priority Critical patent/CN115080752B/zh
Publication of CN115080752A publication Critical patent/CN115080752A/zh
Application granted granted Critical
Publication of CN115080752B publication Critical patent/CN115080752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于特征领域知识自动获取的数值特征发现方法及系统,包括:获取预测数据所属领域相关的公开信息;构建相关的文本信息库;对文本信息库进行文本挖掘与文本特征聚类;在文本挖掘的信息引导下获取预测数据所属领域的相关数据特征构建多元溯源数据库;对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;结果预测。本发明提供的数值特征发现方法无需领域前置知识,可以应用于电力负荷、新能源负荷、金融股票市场、交通流量等多个领域的波动预测或分类,能够发现大量各领域中隐含的主导特征,显著提高预测的准确率;并可根据该领域内信息的增长而实时更新。

Description

基于特征领域知识自动获取的数值特征发现方法及系统
技术领域
本发明涉及信息发现与特征挖掘领域,特别涉及一种基于特征领域知识自动获取的数值特征发现方法及系统。
背景技术
数据和特征决定着机器学习的上限,信息发现在预测研究中起着至关重要的作用。传统的特征发现主要依靠经验,通过大量先验知识挑选相关特征并进行特征选择。这样的特征选择方式存在两个主要问题:通过经验的筛选具有主观性和片面性,这取决于特征选择者的先验知识,先验知识的偏置会导致特征发现的偏向性;传统意义的特征发现方式缺乏理论依据,大量的相关依据隐藏在以文本为主的定量知识中未被发现。
目前研究往往基于经验选定某一特定领域潜在影响因素的数值型数据库进行相关特征的挖掘与验证,获得的相应特征非常有限。越来越多的公开数据集的收集发布为广泛探索预测研究和应用提供了数据支撑,然而预测对象的理论机理往往未知,如何从海量的各行业数据集中全面有效地挖掘预测对象的主导因素及其关联关系尚缺乏理论路径指导。特征发现亟待发展一种新的方法,以突破当前研究的瓶颈,系统展示预测对象变化特征及其内在规律。
专利文献CN114610894A公开了一种基于篇章语境的多任务联合知识挖掘方法及装置。通过基于包含目标背景知识信息的篇章语境知识图谱构建的篇章知识挖掘模型,能够有效识别文本内容中知识点的关联性,从而提升知识挖掘的精度。
专利文献CN102073647B涉及一种面向e-Science环境的多领域Web文本特征抽取系统及方法,将无词典分词技术引入领域文本的特征发现,有效摆脱传统方法对于领域词典的依赖。
专利文献CN110046590B公开一种基于粒子群优化深度学习特征选择的一维像识别方法,首先使用深度信念网络(DBN)学习到原始高维数据的内部特征,进一步结合粒子群优化(PSO)算法,实现对特征的选择和优化,解决深度学习网络特征维数过高的问题,减少冗余特征对后续分类器的影响,改善对目标的识别率。
但以上算法泛化性较差,很难作为一个通用的波动预测特征发现模型,并且难以应用于机器学习强关联特征发现和波动预测。
发明内容
本发明要解决的技术问题是:提供一种基于特征领域知识自动获取的数值特征发现方法及系统,该方案基于特征领域知识自动获取的数值,其目的在于,通过整合预测数据所属行业领域最新的文字信息,建立文本信息库,通过一种新的特征发现算法,挖掘所属领域相关隐含的主导特征,进而提高所属领域相关预测对象实时变化的预测精度。
为了解决上述技术问题,本发明采用以下技术方案:
首先,提供一种基于特征领域知识自动获取的数值特征发现方法,具体包括如下步骤:
S1、获取预测数据所属领域相关的公开信息,预测数据包括:电力负荷、新能源负荷、交通流量;其所属领域对应为:电力负荷领域、新能源负荷领域、交通流量领域;所述相关的公开信息包括该预测数据所属领域相关的综述性文章、调查报告、新闻、开放论坛以及其相关评论;
S2、将步骤S1获取的公开信息集中存储构建预测数据所属领域相关的文本信息库;
S3、对构建的文本信息库进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类;
S4、在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库,多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择特征;
S5、对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;
S6、采用机器学习算法或深度学习算法对多元溯源数据集动态学习并进行结果预测;具体对应进行电力负荷、新能源负荷、交通流量的预测或分类。
进一步的,
步骤S1中获取预测数据所属领域相关的公开信息的方法具体包括:在遵守ROBOT协议的前提下通过爬虫方式,获取该领域最新的文本信息;所述爬虫方式包括聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫等合法爬虫方式;
信息抽取对象包括所属领域权威开源信息网站、权威分析网站以及相关新闻网站;
步骤S1中可以对爬取的文本信息进行初步的人工提取,以提高后续算法运行效率。
进一步的,
步骤S2构建的文本信息库具有删改能力,方便后续对文本信息库进行升级和更新。
进一步的,
步骤S3中采用如下公式所示的DCW(Dual-Correlated Words)算法对该领域的相关文本信息库进行文本挖掘:
Figure 878591DEST_PATH_IMAGE001
其中:
Figure 216031DEST_PATH_IMAGE002
表示相关的文本信息库中单词word1,word2之间的相似性,通过词向量夹角的余弦值来表现;
Figure 656240DEST_PATH_IMAGE003
表示相关文本信息库中单词word1,word2之间的独立性,通过文本点互信息PMI表示;word1为该领域波动词,word2为遍历文章后的每一个单词。
PMI的优势在于其能从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关,或者主题相关的情况;该方法中word1为该领域波动词,word2为遍历文章后的每一个单词。DCW通过对两个单词相似性和独立性的综合处理,来求解两个单词之间的相关性,从而寻找影响该领域参数预测(如:短期电力负荷预测、新能源负荷预测、交通流量的预测等)的关联特征。
进一步的,
步骤S3中采用K-means算法对该领域的相关文本信息库进行文本特征聚类。
K-means算法,又称 K均值算法,是一种容易实现且应用广泛的聚类算法,关键是确定算法中K的个数。K-means是一个相对成熟的算法,在聚类算法中具有良好的表现。K-means算法通常用如下算法表示:
Figure 273297DEST_PATH_IMAGE004
其中:
Figure 798956DEST_PATH_IMAGE005
代表第i个样本,
Figure 674508DEST_PATH_IMAGE006
Figure 233139DEST_PATH_IMAGE005
所属的簇,
Figure 270366DEST_PATH_IMAGE007
代表簇
Figure 283321DEST_PATH_IMAGE008
对应的中心点,
Figure 182138DEST_PATH_IMAGE009
是样本总数,J 为损失函数,即各个样本距离所属簇中心点的误差平方和。
进一步的,
步骤S5中通过LV-KB方法对多源溯源数据库进行初步评价筛选,具体如下:
首先,利用方差阈值过滤方法进行特征初选,该方法具体是通过方差阈值估计器计算每一项特征在所有样本中重复元素所占的比例,若重复元素占比超过一定阈值则去除该项特征;
通常,手动计算方差和阈值可能需要很多工作。但是Scikit-learn能提供方差阈值估计器,通过方差阈值估计器,只要设置一个临界值,所有低于该临界值的特征都将被删除。具体临界值的设置视具体案例需要而定。
然后,通过SelectKBest方法进行进一步特征提取,具体是选取单变量线性回归函数作为得分函数;由单变量线性回归函数计算每个特征与标签之间的相关性SelectKBest方法能提供三种评价特征的方式:卡方检验,样本方差和离散类别交互信息。本文选择卡方检验作为分类特征评估标准,根据得分排序情况进行,由高到低根据数量需要进行特征选择。
进一步的,
步骤S6中,所述机器学习算法包括SVR算法、GBRT算法、MLPR算法;所属深度学习算法包括LSTM算法、GRU算法、Transformer model算法,选取算法进行模型构建,选择预测案例,学习多元溯源候选数据集并进行结果预测。
为了体现多元溯源数据的有效性,本发明选取具有不同特点的三种典型机器学习算法(SVR、GBRT和MLPR)和三种典型的深度学习算法(LSTM、GRU和Transformer model)进行模型构建。其中:
SVR (support vector regression),是SVM(支持向量机support vectormachine)对回归问题的一种运用。
GBRT (Gradient Boosting Regression Trees),梯度提升回归树。
MLPR (Multi-Layer Perceptron Regressor) ,神经网络多层感知器。
LSTM(Long Short Term Memory)是指长短期记忆网络,其是一种时间循环神经网络。
GRU(Gate Recurrent Unit,循环门单元)是循环神经网络(Recurrent NeuralNetwork, RNN )的一种;
Transformer由编码器(Encoder)和解码器(Decoder)组成,其中Encoder包含多头注意力机制和前馈网络,Decoder包含遮蔽多头注意力机制、注意力机制和前馈网络。Transformer算法的训练过程为:编码器首先流入一个self-attention层,该层可以帮助获取当前参数数据及前后参数误差信息,该层输出作为前馈网络的输入,并在每层之间引入残差来稳定梯度。解码器在编码器的基础上在中间加入了一层获取编码器信息的attention层,可以让解码器更关注到编码器每一层输出的参数误差信息。
选取scikit-learn提供的SVR、GBRT和MLPR库,SVR核函数为Linear,MLPR权重优化的求解器为LBFGS,隐藏层数为两层,节点数分别为5和2,其余相关参数利用网格搜索法确定。深度学习算法调用keras提供的model库中对应的模型,LSTM的结构为“输入层- LSTM(windows=3)- dropout(0.1)-全连接层-输出层”,GRU的结构为“输入层- GRU(windows=3)- dropout(0.1)-全连接层-输出层”,Transformer的encoder为LSTM网络,decoder为全连接神经网络。
进一步地,所述方法还包括将步骤S6得到的预测结果与现有研究进行横向比对,对现有研究进行补充。
本发明还提供一种基于特征领域知识自动获取的数值特征发现系统,采用上述的基于特征领域知识自动获取的数值特征发现方法,具体包括:
网页爬虫模块,用于基于ROBOT协议(爬虫协议/爬虫规则)获取预测数据所属领域相关的公开信息。具体地,爬虫方式包括:聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫等;信息抽取对象包括所属领域权威开源信息网站、权威分析网站以及相关新闻网站;对爬取的文本信息进行初步的人工提取,以提高后续算法运行效率。
文本信息库构建模块,用于对网页爬虫模块获取的文本信息汇集整理,构建文本信息库。后续可以通过实时补充信息,删除旧文本,实现对文本信息库的更新。
文本挖掘与文本特征聚类模块,用于对构建的文本信息库中的信息进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类。
多元溯源数据库构建模块,用于在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库。多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择特征;
多元溯源数据集构建模块,用于对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;
结果预测模块,用于深度学习模型或机器学习模型进行结果预测,并与最新研究进行横向对比,对现有研究进行补充。深度学习模型包括LSTM,GRU,Transformer等深度学习模型;机器学习模型包括SVR、GBRT,MLPR等。
本发明还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被执行器执行时实现上述的基于特征领域知识自动获取的数值特征发现方法。
本发明还提供一种电子设备,包括:
存储器,其上存储一个或多个程序;一个或多个处理器;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的基于特征领域知识自动获取的数值特征发现方法。
本发明具有如下有益效果:
本发明提供一种基于特征领域知识自动获取的数值特征发现方法及系统,其基于特征领域知识自动获取的数值,能突破传统需要特定领域知识进行数值型特征提取的局限,首次提出文本挖掘引导下的数值特征提取方法,能解决预测问题主导特征主要靠经验选择的局限性。文本挖掘引导下的数值特征提取方法在特征选取的初始阶段不需要丰富的领域先验知识、无需耗时的数值特征选择和验证计算开销,通过简单的DCW文本挖掘算法即可从海量公开数据集快速获得较全面的领域特征,且为后续阶段数值型特征的精准选择提供启发式引导,这是在波动预测研究的一次全新尝试。并且该方法是一种通用的特征工程方法,可应用于电力负荷、新能源负荷、交通流量尚不具备海量公开数据集的预测或分类问题的数值特征提取,为打开预测和分类问题的精准之门提供一个新的途径。
与已有的方法相比,本发明提供的特征发现方法具有以下优点:
(1)提出通过构建文本信息库的文本挖掘方式,通过定量研究寻找定性知识,突破传统特征发现主要通过经验选择的局限性。
(2)本发明特征选取的初始阶段不需要丰富的领域先验知识、无需耗时的数值特征选择和验证计算开销,通过简单的DCW文本挖掘算法即可快速获得较全面的领域特征,且为后续阶段数值型特征的精准选择提供启发式引导。
(3)本发明是一种通用的特征工程方法,不仅可用于电力负荷、综合能源负荷的预测研究,而且可应用于其它具尚不具备海量公开数据集的预测或分类问题的数值特征提取,为涉及波动预测各领域提供技术支持。
经过实验验证,本发明的方法能够发现大量各领域中隐含的主导特征,显著提高预测的准确率。
附图说明
图1为本发明实施例1提供的基于特征领域知识自动获取的数值特征发现方法的流程示意图;
图2为本发明实施例2提供的基于特征领域知识自动获取的数值特征发现系统的系统结构框架图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围不受下面公开的具体实施例的限制。
实施例1
提供一种基于特征领域知识自动获取的数值特征发现方法,具体包括如下步骤:
S1、获取预测数据所属领域相关的公开信息,预测数据包括:电力负荷、新能源负荷、交通流量;其所属领域对应为:电力负荷领域、新能源负荷领域、交通流量领域;所述相关的公开信息包括该预测数据所属领域相关的综述性文章、调查报告、新闻、开放论坛以及其相关评论;
步骤S1中获取预测数据所属领域相关的公开信息的方法具体包括:在遵守ROBOT协议的前提下通过聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫等合法爬虫方式,从所属领域权威开源信息网站、权威分析网站以及相关新闻网站,获取该领域最新的文本信息;
为了提高后续算法运行效率,可以对爬取的文本信息进行初步的人工提取。
S2、将步骤S1获取的公开信息集中存储构建预测数据所属领域相关的文本信息库;
构建的文本信息库具有删改能力,方便后续对文本信息库进行升级和更新。可以通过实时补充信息,删除旧文本,实现对文本信息库的更新。
S3、对构建的文本信息库进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类;具体地,
采用如下公式所示的DCW(Dual-Correlated Words)算法对该领域的相关文本信息库进行文本挖掘:
Figure 65780DEST_PATH_IMAGE010
其中:
Figure 805066DEST_PATH_IMAGE011
表示相关的文本信息库中单词word1,word2之间的相似性,通过词向量夹角的余弦值来表现;
Figure 774159DEST_PATH_IMAGE012
表示相关文本信息库中单词word1,word2之间的独立性,通过文本点互信息PMI表示;word1为该领域波动词,word2为遍历文章后的每一个单词。
PMI的优势在于其能从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关,或者主题相关的情况;word1为该领域波动词,word2为遍历文章后的每一个单词。DCW通过对两个单词相似性和独立性的综合处理,来求解两个单词之间的相关性,从而寻找影响该领域参数预测(如:短期电力负荷预测)的关联特征。
采用K-means算法对该领域的相关文本信息库进行文本特征聚类。K-means算法又称 K均值算法,是一种容易实现且应用广泛的聚类算法,关键是确定算法中K的个数。K-means是一个相对成熟的算法,在聚类算法中具有良好的表现。
S4、在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库,多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择特征;
S5、对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;具体地,步骤S5中通过LV-KB方法对多元溯源数据库进行初步评价筛选,具体如下:
首先,利用方差阈值过滤方法进行特征初选,该方法具体是通过方差阈值估计器计算每一项特征在所有样本中重复元素所占的比例,若重复元素占比超过一定阈值则去除该项特征;
通常,手动计算方差和阈值可能需要很多工作。但是Scikit-learn能提供方差阈值估计器,通过方差阈值估计器,只要设置一个临界值,所有低于该临界值的特征都将被删除。具体临界值的设置视具体案例需要而定。
然后,通过SelectKBest方法进行进一步特征提取,具体是选取单变量线性回归函数作为得分函数;由单变量线性回归函数计算每个特征与标签之间的相关性;SelectKBest方法提供了三种评价特征的方式:卡方检验,样本方差和离散类别交互信息。本文选择卡方检验作为分类特征评估标准,根据得分排序情况进行,由高到低根据数量需要进行特征选择。
S6、采用机器学习算法和/或深度学习算法对多元溯源数据集动态学习并进行结果预测;具体对应进行电力负荷、新能源负荷、交通流量的预测或分类。选择预测案例,学习多元溯源候选数据集并进行结果预测。
为了体现多元溯源数据的有效性,可选取具有不同特点的三种典型机器学习算法(SVR、GBRT和MLPR)和三种典型的深度学习算法(LSTM、GRU和Transformer model)进行模型构建。
选取scikit-learn提供的SVR、GBRT和MLPR库,SVR核函数为Linear,MLPR权重优化的求解器为LBFGS,隐藏层数为两层,节点数分别为5和2,其余相关参数利用网格搜索法确定。深度学习算法调用keras提供的model库中对应的模型,LSTM的结构为“输入层- LSTM(windows=3)- dropout(0.1)-全连接层-输出层”,GRU的结构为“输入层- GRU(windows=3)- dropout(0.1)-全连接层-输出层”,Transformer的encoder为LSTM网络,decoder为全连接神经网络。
本方法还可以包括将步骤S6得到的预测结果与现有研究进行横向比对,对现有研究进行补充。
实施例2
如图2所示,本实施例提供一种基于特征领域知识自动获取的数值特征发现发现系统20,采用实施例1提供的基于特征领域知识自动获取的数值特征发现方法,具体包括:
网页爬虫模块21, 用于基于ROBOT协议(爬虫协议/爬虫规则)获取预测数据所属领域相关的公开信息;爬虫方式包括:聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫等;信息抽取对象包括所属领域权威开源信息网站、权威分析网站以及相关新闻网站;对爬取的文本信息进行初步的人工提取,以提高后续算法运行效率。
文本信息库构建模块22,用于对网页爬虫模块获取的文本信息汇集整理,构建文本信息库。后续实时补充信息,删除旧文本,实现对文本信息库的更新。
文本挖掘与文本特征聚类模块23,用于对构建的文本信息库中的信息进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类。
多元溯源数据库构建模块24,用于在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库。多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择特征;
多元溯源数据集构建模块25,用于对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;
结果预测模块26,用于采用LSTM,GRU和Transformer等深度学习模型和/或机器学习模型(SVR、GBRT和MLPR等)进行结果预测,并与最新研究进行横向对比,对现有研究进行补充。
实施例3
本发明实施例提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被执行器执行时实现如图1所示的基于特征领域知识自动获取的数值特征发现方法。
所述计算机可读存储介质可包括但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
实施例4:应用实施例1(短期电力负荷预测)
本实施例提供一种将实施例1提供的基于特征领域知识自动获取的数值特征发现方法应用于短期电力负荷预测领域的应用实施例,包括以下步骤:
S1、通过ROBOTS协议规范下的信息抽取操作,例如聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫等合法爬虫方式,获取电力负荷预测领域相关的公开信息,包括电力负荷预测领域相关的新闻,分析报告,相关综述文章,开放论坛以及其相关评论等。
所述信息抽取操作中,本实施例围绕电力系统的农业、工业、商业和居民四大类主要用电用户,爬取美国能源政府官方网站对四类用户用电行为研究的文字报告,包括农业139篇、工业300篇、商业300篇和居民270篇共1009篇领域最新相关开源文字。
S2、将提取得到的相关公开文本信息进行初步人工提取后,构建电力负荷相关的文本信息库,即电力负荷特征语料库。
S3、对构建的电力负荷特征语料库依照实施例1方法中所述的算法进行文本挖掘与文本特征聚类。本实施例的文本挖掘结果显示,在美国能源政府官方网站的报告中,电力负荷变化的影响因素主要涉及有地理、天文、能源等领域特征。
S4、在步骤S3的文本挖掘的信息引导下获取电力负荷预测领域相关数据特征并构建多元溯源数据库,具体包含与电力负荷预测所有相关的领域暨定特征与文本引导特征以及基于经验所选择特征等全部92项特征,见下表1。本实施例中,在基于特征领域知识自动获取的数值特征发现方法的引导和启发下,结合目前可得的数值型公开数据集,选取了多个与电力负荷波动可能相关的潜在因素,构建多元溯源数据(为数值型)。
S5、对构建的多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集。本实施例选择美国缅因州地区的电力负荷数据进行预测实验。缅因州的电力负荷数据从ISO-New England官网下载,收集从2003年1月1日至2015年12月31日的日最高日负荷数据。基于构建的电力负荷领域的多元溯源数据库,构造包含92项特征的候选特征数据集,详细见表1。
S6、采用经典回归预测算法对动态学习并进行结果预测。具体地,选取具有不同特点的三种典型机器学习算法(SVR、GBRT和MLPR)和两种典型的深度学习算法(LSTM和Transformer model)进行模型构建。SVR核函数为Linear,MLPR权重优化的求解器为LBFGS,隐藏层数为两层,节点数分别为5和2,其余相关参数利用网格搜索法确定。深度学习算法调用keras提供的model库中对应的模型,LSTM的结构为“输入层- LSTM(cell=16,windows=3)- dropout(0.1)-全连接层-输出层”,Transformer的encoder为LSTM网络,decoder为全连接神经网络。
本实施例中将历史负荷数据与经典的基础数据集(温度,天气等)设定为benchmark数据集,与本发明提出的特征领域知识自动获取的数值特征发现系统所发现整合的新数据集进行对比实验。案例实验结果表明,对比benchmark数据集,特征领域知识自动获取的数值特征发现系统提出的案例一的多元溯源数据集预测准确率在所有模型上都有明显提高,平均绝对百分比误差(MAPE)提高可以达到40.00%-42.86%。除此之外,多元溯源数据集在Transformer模型的MAPE可以达到1.60%。结果比对如下表2。
表1 多元溯源数据库包含的特征表
Figure 975202DEST_PATH_IMAGE013
表2 各预测模型的结果分析比对表
Figure 244510DEST_PATH_IMAGE014
综上表明:本发明提供的基于特征领域知识自动获取的数值特征发现方法,通过简单的DCW文本挖掘算法即可从海量公开数据集快速获得较全面的领域特征,且为后续阶段数值型特征的精准选择提供启发式引导,这是在电力负荷预测研究的一次全新尝试,打破了传统领域特征发现主要靠经验选择的限制,为特征发现和信息提取提供了理论基础。并且该方法是一种通用的特征工程方法,不仅可用于电力负荷、综合能源负荷的预测研究,而且可应用于其它具有海量公开数据集的预测或分类问题的数值特征提取。使用基于特征领域知识自动获取的数值特征发现方法,更多的主导特征被发现,各领域的波动预测精度取得了显著提升。
以上所述仅为本发明的部分较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于特征领域知识自动获取的数值特征发现方法,其特征在于,具体包括如下步骤:
S1、获取预测数据所属领域相关的公开信息,预测数据包括:电力负荷、新能源负荷、交通流量;其所属领域对应为:电力负荷领域、新能源负荷领域、交通流量领域;所述相关的公开信息包括该预测数据所属领域相关的综述性文章、调查报告、新闻、开放论坛以及其相关评论;
S2、将步骤S1获取的公开信息集中存储构建预测数据所属领域相关的文本信息库;
S3、对构建的文本信息库进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类;
S4、在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库,多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择的特征;
S5、对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;
S6、采用机器学习算法或深度学习算法对多元溯源数据集动态学习并进行结果预测;具体对应进行电力负荷、新能源负荷、交通流量的预测或分类。
2.根据权利要求1所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,
步骤S1中获取预测数据所属领域相关的公开信息的方法具体包括:在遵守ROBOT协议的前提下通过爬虫方式,获取该领域最新的文本信息;爬虫方式包括聚焦爬虫、通用爬虫、增量爬虫以及深层网络爬虫;
信息抽取对象包括所属领域权威开源信息网站、权威分析网站以及相关新闻网站;
步骤S1中还包括对爬取的文本信息进行初步的人工提取,以提高后续算法运行效率。
3.根据权利要求1所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,
步骤S2构建的文本信息库具有删改能力,方便后续对文本信息库进行升级和更新。
4.根据权利要求3所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,
步骤S3中采用如下公式所示的DCW算法对该领域的相关文本信息库进行文本挖掘:
Figure 34825DEST_PATH_IMAGE001
其中:
Figure 89369DEST_PATH_IMAGE002
表示相关的文本信息库中单词word1,word2之间的相似性,通过词向量夹角的余弦值来表现;
Figure 801104DEST_PATH_IMAGE003
表示相关文本信息库中单词word1,word2之间的独立性,通过文本点互信息PMI表示;word1为该领域的波动词,word2为遍历文章后的每一个单词。
5.根据权利要求4所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,
步骤S3中采用K-means算法对该领域的相关文本信息库进行文本特征聚类。
6.根据权利要求5所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,步骤S5中通过LV-KB方法对多源溯源数据库进行初步评价筛选,具体如下:
首先,利用方差阈值过滤方法进行特征初选,该方法具体是通过方差阈值估计器计算每一项特征在所有样本中重复元素所占的比例,若重复元素占比超过一定阈值则去除该项特征;
然后,通过SelectKBest方法进行进一步特征提取,具体是选取单变量线性回归函数作为得分函数;由单变量线性回归函数计算每个特征与标签之间的相关性;
最后、根据得分排序情况进行,由高到低根据数量需要进行特征选择。
7.根据权利要求6所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,步骤S6中,所述机器学习算法包括SVR算法、GBRT算法、MLPR算法;所属深度学习算法包括LSTM算法、GRU算法、Transformer model算法,选取算法进行模型构建,选择预测案例,学习多元溯源候选数据集并进行结果预测。
8.根据权利要求1-7任一所述的基于特征领域知识自动获取的数值特征发现方法,其特征在于,还包括将步骤S6得到的预测结果与现有研究进行横向比对,对现有研究进行补充。
9.一种基于特征领域知识自动获取的数值特征发现系统,其特征在于,采用权利要求1-8任一所述的基于特征领域知识自动获取的数值特征发现方法,具体包括:
网页爬虫模块, 用于获取预测数据所属领域相关的公开信息;
文本信息库构建模块,用于对网页爬虫模块获取的文本信息汇集整理,构建文本信息库;
文本挖掘与文本特征聚类模块,用于对构建的文本信息库中的信息进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类;
多元溯源数据库构建模块,用于在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库,多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择特征;
多元溯源数据集构建模块,用于对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;
结果预测模块,用于采用机器学习算法模型或深度学习算法模型进行结果预测。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中所述计算机程序被执行器执行时实现如权利要求1-8中任一所述的基于特征领域知识自动获取的数值特征发现方法。
CN202210989620.7A 2022-08-18 2022-08-18 基于特征领域知识自动获取的数值特征发现方法及系统 Active CN115080752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989620.7A CN115080752B (zh) 2022-08-18 2022-08-18 基于特征领域知识自动获取的数值特征发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989620.7A CN115080752B (zh) 2022-08-18 2022-08-18 基于特征领域知识自动获取的数值特征发现方法及系统

Publications (2)

Publication Number Publication Date
CN115080752A true CN115080752A (zh) 2022-09-20
CN115080752B CN115080752B (zh) 2022-12-02

Family

ID=83245366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989620.7A Active CN115080752B (zh) 2022-08-18 2022-08-18 基于特征领域知识自动获取的数值特征发现方法及系统

Country Status (1)

Country Link
CN (1) CN115080752B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法
CN112487991A (zh) * 2020-12-02 2021-03-12 国网湖南综合能源服务有限公司 一种基于特征自学习的高精度负荷辨识方法及系统
CN112966447A (zh) * 2021-03-25 2021-06-15 北京化工大学 一种基于自动机器学习的化学材料吸附性能预测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106649662A (zh) * 2016-12-13 2017-05-10 成都数联铭品科技有限公司 一种领域词典的构建方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN111737495A (zh) * 2020-06-28 2020-10-02 福州数据技术研究院有限公司 基于领域自分类的中高端人才智能推荐系统及其方法
CN112487991A (zh) * 2020-12-02 2021-03-12 国网湖南综合能源服务有限公司 一种基于特征自学习的高精度负荷辨识方法及系统
CN112966447A (zh) * 2021-03-25 2021-06-15 北京化工大学 一种基于自动机器学习的化学材料吸附性能预测方法及装置

Also Published As

Publication number Publication date
CN115080752B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN113723632A (zh) 一种基于知识图谱的工业设备故障诊断方法
CN111553479A (zh) 一种模型蒸馏方法、文本检索方法及装置
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN115578137A (zh) 一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114579739B (zh) 文本数据流的话题检测与追踪方法
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN111723021B (zh) 一种基于知识库和表示学习的缺陷报告自动分派方法
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN117290404A (zh) 一种主配网故障处理方法快速检索实用方法及系统
CN115080752B (zh) 基于特征领域知识自动获取的数值特征发现方法及系统
Jafery et al. Classification of patents according to industry 4.0 pillars using machine learning algorithms
CN112069379A (zh) 一种基于lstm-cnn的高效舆情监测系统
Kravets et al. Development of a module for predictive modeling of technological development trends
Sun et al. An application of decision tree and genetic algorithms for financial ratios' dynamic selection and financial distress prediction
Volkov et al. Towards automated identification of technological trajectories
Porwal et al. Citation Classification Prediction Implying Text Features Using Natural Language Processing and Supervised Machine Learning Algorithms
CN113268647B (zh) 一种网络安全情报数据的分类方法、系统及装置
CN116720786B (zh) 一种融合kg和plm的装配质量稳定性预测方法、系统及介质
CN115829400A (zh) 基于大数据的企业环境社会治理画像构建方法及系统
Omondiagbe et al. Evaluating simple and complex models’ performance when predicting accepted answers on stack overflow
Tirea et al. Text mining news system-quantifying certain phenomena effect on the stock market behavior
CN117114005A (zh) 评论数据的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant