CN116595371A - 话题热度预测模型训练方法、话题热度预测方法及装置 - Google Patents
话题热度预测模型训练方法、话题热度预测方法及装置 Download PDFInfo
- Publication number
- CN116595371A CN116595371A CN202310565476.9A CN202310565476A CN116595371A CN 116595371 A CN116595371 A CN 116595371A CN 202310565476 A CN202310565476 A CN 202310565476A CN 116595371 A CN116595371 A CN 116595371A
- Authority
- CN
- China
- Prior art keywords
- training
- topic
- combination
- attribute data
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 390
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000003062 neural network model Methods 0.000 claims abstract description 68
- 238000012216 screening Methods 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 208000035473 Communicable disease Diseases 0.000 description 18
- 208000015181 infectious disease Diseases 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 241000700605 Viruses Species 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000556 factor analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种话题热度预测模型训练方法、话题热度预测方法及装置,涉及时序数据分析技术领域,尤其涉及人工智能技术领域。具体实现方案包括:获取多个训练样本以及每个训练样本的训练标签。之后按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据。然后基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度。再利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。从而实现了提高对话题热度预测的准确度。
Description
技术领域
本公开涉及时序数据分析技术领域,尤其涉及人工智能技术领域。
背景技术
随着互联网信息技术的迅猛发展,在互联网平台参与话题讨论的用户越来越多。用户在互联网平台上传的视频、发表的评论以及参与的投票等互动数据,均可能与一个或多个话题相关,用户对话题的关注度反映了话题的热度。
发明内容
本公开提供了一种话题热度预测模型训练方法、话题热度预测方法及装置。
本公开实施例的第一方面,提供了一种话题热度预测模型训练方法,包括:
获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
本公开实施例的第二方面,提供了一种话题热度预测方法,包括:
获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
将获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于第一方面任一项所述的方法训练得到的模型。
本公开实施例的第三方面,提供了一种话题热度预测模型训练装置,包括:
获取模块,用于获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
组合模块,用于按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
筛选模块,用于基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
训练模块,用于利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
本公开实施例的第四方面,提供了一种话题热度预测装置,包括:
获取模块,用于获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
预测模块,用于将所述获取模块获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于第一方面任一项所述的方法训练得到的模型。
本公开实施例的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
本公开实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面中任一项所述的方法。
本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种话题热度预测模型训练方法的流程图;
图2是本公开实施例提供的一种LSTM中的一个重复模块的结构示意图;
图3是本公开实施例提供的一种隐因子分析方法的流程图;
图4是本公开实施例提供的一种筛选目标组合维度的方法流程图;
图5是本公开实施例提供的一种话题热度预测方法的流程图;
图6是本公开实施例提供的一种话题热度预测模型训练装置的结构示意图;
图7是本公开实施例提供的一种话题热度预测装置的结构示意图;
图8是用来实现本公开实施例的话题热度预测模型训练方法和话题热度预测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
对于话题热度的预测方法,主要包括基于时间序列的预测方法和基于机器学习的预测方法。其中,基于时间序列的预测方法所使用的预测模型主要为:自回归移动平均模型(Autoregressive Integrated Moving Average model,ARIMA)、自回归条件异方差模型(Autoregressive conditional heteroskedasticity model,ARCH)或者广义自回归条件异方差模型(Generalized Autoregressive Conditional Heteroskedasticity model,GARCH)。基于机器学习的预测方法所使用的预测模型主要为:人工神经网络(ArtificialNeural Network,ANN)或者支持向量回归机(Support Vector Regression,SVR)等。
传统的基于时间序列的预测方法难以对话题数据和话题热度进行精准建模,因此目前主要采用基于机器学习的预测方法。而直接使用话题的相关信息对机器学习模型进行训练,得到的话题预测模型存在话题热度预测准确度低的问题。
为了提高对话题热度预测的准确度,本公开实施例提供了一种话题热度预测模型训练方法,该方法应用于电子设备,例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备数据处理能力的设备。如图1所示,本公开实施例提供的话题热度预测模型训练方法,包括如下步骤:
S101、获取多个训练样本以及每个训练样本的训练标签。
其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为该话题在多个周期的下一个周期内的话题热度。
可以以一天为一个周期,并针对每个话题,统计该话题在每天的多维度的话题属性数据,将连续预设天数统计的多维度的话题属性数据作为一个训练样本,并将预设天数的后一天该话题的话题热度,作为该训练样本的训练标签。
其中,多维度的话题属性数据包括话题的话题基本信息和话题搜索数据。例如,话题基本信息包括:话题的类型、相关人物、创建时间、评论量和被引用量等。话题搜索数据包括话题在单个周期内多个时刻的搜索量和多个时间段的搜索量等。
S102、按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据。
例如,预设的组合维度大小为2,即对两个维度进行组合,则可以对每两个维度进行组合,以及将每个维度与自身进行组合。或者,预设的组合维度大小可以为其他值,本公开实施例对此不作具体限定。
生成组合属性数据时,可以针对每个训练样本,确定每个候选组合维度包括的各维度,在该训练样本中对应的话题属性数据,并将确定的话题属性数据相乘,将乘积作为该候选组合维度的组合属性数据。
S103、基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度。
可以基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中,筛选出与训练标签之间的相关性高于阈值的候选组合维度,作为目标组合维度。
S104、利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
通过上述方法,本公开实施例能够对话题属性数据进行组合,得到组合属性数据,并基于组合属性数据与训练标签之间的相关性,对组合属性数据所属的组合维度进行筛选,从而筛选出与训练标签相关性更强的目标组合维度的组合属性数据。由于与训练标签相关性较弱的数据,不但对模型预测准确度提高较小,还可能影响模型对于其他数据的处理,因此本公开实施例将与训练标签相关性较弱的组合属性数据剔除,利用与训练标签相关性较强的组合属性数据进行模型训练,能够提高话题热度预测模型的预测准确度。以便后续基于话题热度预测模型能够对话题热度进行更准确的预测。
以下对本公开实施例提供的话题热度预测模型训练方法进行详细说明:
在本公开的一些实施例中,首先进行训练样本和训练标签的收集。
以一天为一个周期为例,采集每个话题每天的多维度话题属性数据,其中包括多维度的话题基本信息、话题搜索数据和标签(label)数据。话题基本信息的维度数记为N基本,例如N基本=122;话题搜索数据的维度数记为N搜索,例如N搜索=28,label数据的维度数记为Nlabel,例如Nlabel=4。即针对每个话题每天共收集N基本+N搜索+Nlabel个数据。其中,label数据包括单个话题在单个周期内多个时刻的话题热度。
即,本公开实施例能够使话题预测模型基于单个话题在D天内的话题基本信息、话题搜索数据和话题热度,预测该话题在(D+1)天的热度,具体可以为预测该话题在(D+1)天内多个时刻的热度。例如,D=10。
可以将针对每个话题采集的多维度的话题属性数据按照日期的顺序,并记录在一张表内。之后,删除采集的天数低于天数阈值的话题所在的表项。对于采集的天数高于或等于天数阈值的话题,若该话题的多维度话题属性数据中存在缺失,则用指定数据补齐,例如指定数据为0。
为了消除同维度数据采用不同量纲而产生的奇异数据导致的不良影响,还可以对同维度的数据进行归一化。由于每个训练样本包括D天针对一个话题收集的话题属性数据,为了减少在训练样本中泄露未来的信息,即D天后的话题属性数据,可以仅对采集时间最早的预设天数内的话题属性数据进行归一化。之后将各训练样本和每个训练样本的训练标签,组成数据集。
对数据集按照预设比例划分为训练集和测试集。例如,将包括的话题属性数据对应的日期处于指定时间段的训练样本,以及该训练样本的训练标签,作为测试集,其余训练样本和训练标签作为训练集。其中指定时间段为:(收集的最后一天-Dtest)~收集的最后一天,例如Dtest=360。并从测试集中选取f%的训练样本和训练标签作为验证集。
本公开实施例除了可以应用于话题热度预测场景之外,还可以应用于股票收益预测场景或传染病预测等场景。
在股票收益预测场景下,训练样本为一只股票在连续多个周期内的多维度的股票属性数据。其中,股票属性数据包括股票基本数据、股票搜索数据和股票label数据。例如,股票基本数据包括:股票的成交量、价格、达到该成交量所用的时间、达到该价格所用的时间和价格波动范围等;股票搜索数据包括:股票在单个周期内多个时刻的搜索量和多个时间段的搜索量等。股票label数据包括股票在单个周期内多个时刻的收益。
相应的,训练样本的训练标签为该股票在多个周期的下一个周期内多个时刻的股票收益。并按照上述方法构建训练集、验证集和测试集,并训练得到股票收益预测模型。
在股票收益预测场景下,本公开实施例能够通过股票收益预测模型为用户提供预测到的股票收益,从而实现了为用户提供股票的历史数据之外,还能提供未来数据,丰富了为用户提供的数据类型,从而为用户选择股票提供更多参考依据。
在传染病预测场景下,训练样本为一种传染病在连续多个周期内的多维度的病毒属性数据。其中,病毒属性数据包括病毒基本数据、病毒搜索数据和病毒label数据。例如,病毒基本数据包括:传染病的类型、已传播时间、已传播地点、传播途径、变异次数和是否被管控等。病毒搜索数据包括:传染病在单个周期内多个时刻的搜索量和多个时间段的搜索量等。病毒label数据包括病毒在单个周期内多个时刻的感染人数。
相应的,训练样本的训练标签为该传染病在多个周期的下一个周期内多个时刻的感染人数。并按照上述方法构建训练集、验证集和测试集,并训练得到传染病预测模型。
在传染病预测场景下,本公开实施例能够通过传染病预测模型为用户提供预测到的感染人数,从而在预测的感染人数超过阈值时,及时发出预警,以便管理人员能够提前对传染病进行管控。
另外,本公开实施例还可以预先构建预设神经网络模型。
在本公开实施例中,预设神经网络模型包括一层输入线性层、一层长短期记忆(Long Short-Term Memory,LSTM)层和一层输出线性层。
构建预设神经网络模型之后,采用交叉验证的方法,利用训练集和验证集,训练预设神经网络模型;当验证集损失累积在一定数量次(epoch)都不再下降时,预设神经网络模型训练停止,保留当前的预设神经网络模型。可选的,训练时可以采用Adam优化器,并采用均方误差损失(Mean Squared Error,MSE)作为损失函数,学习率lr=0.001,并采用等间隔学习率衰减策略调整学习率,采用epoch=1000。
利用保留的预设神经网络模型对测试集中的训练样本进行预测,得到预测的话题热度,根据训练样本的训练标签,对预测的话题热度进行测评,得到测评结果。测评时可以使用信息系数(Information Ratio,IC)、信噪比(Signal to Interference plus NoiseRatio,SNR)、相对误差(relative error,RE)和MSE作为测评指标。若测评结果满足预设需求,则将当前的预设神经网络模型作为初始神经网络模型;若测评结果满足不预设需求,则对当前的预设神经网络模型继续训练,直至获得初始神经网络模型。
其中,输入预设神经网络模型的输入线性层的输入数据维度V输入in为:批数量*D*(N基本+N搜索+Nlabel),批数量为每轮迭代时输入模型的训练样本数量,可以预先设置,例如批数量=128。经输入线性层对输入数据降维后,输入至LSTM层的输入数据维度为VLSTM-in;之后经LSTM层处理后,输入至输出线性层的数据维度为VLSTM-out;输出线性层的输出数据维度为V输出out,其中,V输出out=Nlabel。
本公开实施例中的预设神经网络模型基于LSTM构建,以下结合图2,对LSTM进行简要介绍。
LSTM是循环神经网络(Recurrent Neural Network,RNN)的一种变体,利用门控机制控制信息的流入和损失,可以利用到较远的历史记忆。LSTM为重复模块链结构,每个重复模块结构相同,图2为其中一个重复模块。图2中的“σ”表示sigmoid函数,“tanh”表示tanh函数,“×”表示逐点相乘,“+”表示逐点相加。
如图2所示,LSTM中包括3个门,分别为输入门(input gate)、遗忘门(forgetgate)和输出门(output gate)。
遗忘门用于决定需丢弃或保留的数据。通过遗忘门将来自前一个隐藏状态ht-1和当前输入的数据xt传递到第一个sigmoid函数,通过第一个sigmoid函数计算输出值ft,其中ft表示ht-1和xt中每个数据被保留的概率。其中,输出值介于0~1之间,输出值越接近0,表示越应该丢弃,输出值越接近1表示越应该保留。
ft=σ(Wf·[ht-1,xt]+bf) (1)
其中,Wf和bf是遗忘门中需要在训练过程中调整的网络参数,Wf和bf的初始值可以随机设置或者根据实际需求预先设置。
输入门用于更新细胞状态。将来自前一个隐藏状态ht-1和当前输入的数据xt传递到第二个sigmoid函数,通过第二个sigmoid函数计算输出值it,其中it表示ht-1和xt中每个数据被保留的概率,输出值it介于0~1之间,输出值越接近0,表示数据越不重要,因此越应该丢弃,输出值越接近1,表示数据越重要,因此越应该保留。同时将ht-1和xt传递到第一个tanh函数,通过第一个tanh函数输出候选值向量之后将第二个sigmoid函数的输出值it与第一个tanh函数输出的候选值向量/>相乘,得到输入门的输出值。
it=σ(Wi·[ht-1,xt]+bi) (2)
其中,Wi、bi、WC和bC是输入门中需要在训练过程中调整的网络参数,Wi、bi、WC和bC的初始值可以随机设置或者根据实际需求预先设置。
图2中Ct-1表示前一个细胞状态,Ct表示当前的细胞状态。将Ct-1与遗忘门的输出向量ft逐点相乘,将乘积与输入门的输出值相加,将相加结果作为新的细胞状态Ct。
其中,⊙表示逐点相乘。
输出门用于更新隐藏状态。将前一个隐藏状态ht-1和当前输入的数据xt传递到第三个sigmoid函数,通过第三个sigmoid函数计算输出值ot,其中输出值ot表示ht-1和xt中每个数据被保留的概率。将更新后的细胞状态Ct传递到第二个tanh函数,并将第二个tanh函数的输出结果与第三个sigmoid函数的输出值ot逐点相乘,得到新的隐藏状态ht。新的隐藏状态ht是当前重复模块的输出,也可以输入下一个重复模块。
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot⊙tanh(Ct) (6)
其中,⊙表示逐点相乘,Wo和bo是输出门中需要在训练过程中调整的网络参数,Wo和bo的初始值可以随机设置或者根据实际需求预先设置。
由于ANN模型存在过拟合、容易陷入局部最优解、泛化能力不强等问题。SVR模型虽具有较强的泛化能力且不易陷入局部最优,但输入数据的特征维度过高时模型的预测性能会受到影响,因此需要在预测之前对输入数据进行降维,这就需要借助特征工程的降维方法来提升模型的预测性能,缺陷是对先验知识依赖程度大,适用性不强。
而本公开实施例中,基于LSTM构建初始神经网络模型,既能够提高模型的泛化能力,又具有更强的适用性。
在本公开的一些实施例中,在上述S102进行维度组合之前,还可以对各话题属性数据进行隐因子分析,从而分析出对于预测话题热度更有价值的话题属性数据。参见图3,隐因子分析过程包括如下步骤:
S301、多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集。
每次从各训练样本包括的各话题属性数据中,随机抽取话题属性数据,得到一个特征子集。其中,每次抽取的话题属性数据的数量可以相同或者不同,抽取数据的次数可以预先设置。
各训练样本包括的每个话题属性数据,均可以称为一个特征。假设各训练样本共包括M个特征,则理论上生成的特征子集存在2M种。
S302、针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集。
针对M个特征中的每个特征F,将S301生成的各特征子集,分为包括特征F的第一特征子集,以及不包括特征F的第二特征子集。从而构成是否包含特征F的特征子集对。对于M个特征,共具有2M-1对特征子集。
例如,M=2时,各话题属性数据为[a,b],S301生成的特征子集包括:[a,0]、[a,b]、[0,b]、[0,0]。对于话题属性数据a,包括话题属性数据a的第一特征子集为:[a,0]、[a,b],不包括话题属性数据a的第二特征子集为:[0,b]、[0,0]。
S303、基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果,确定该话题属性数据的特征贡献。
本公开实施例中,可以利用初始神经网络模型对第一特征子集进行识别,得到第一识别结果ywithF,并利用初始神经网络对第二特征子集进行识别,得到第二识别结果ywithoutF。之后基于第一识别结果与第二识别结果之间的差值,确定该话题属性数据的特征贡献。
由于第一特征子集和第二特征子集均存在多个,可以将第一特征子集和第二特征子集两两结合,作为一个特征子集对。针对每一对特征子集,计算ywithF-ywithoutF,将计算结果作为该话题属性数据F的边际贡献。将每一对特征子集得到的边际贡献求和,将求和结果作为该话题属性数据F的特征贡献。
通过上述方法,本公开实施例能够基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果的差距,得到有/无该话题属性数据对于识别结果的影响。从而区分不同的话题属性数据,对识别结果的影响程度,方便后续能够从各话题属性数据中,筛选出对识别结果影响更大的话题属性数据。
S304、将多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到多个更新后的训练样本。
例如预设贡献阈值为0,从而筛选出特征贡献为负数的话题属性数据,作为待删除的话题属性数据,并将待删除的话题属性数据从所属训练样本中删除。
S305、利用多个更新后的训练样本和多个训练样本的训练标签,对初始神经网络模型进行训练,得到指定神经网络模型。
可以将更新后的各训练样本输入初始神经网络模型,得到识别结果,基于预设的损失函数,计算识别结果与各训练样本的训练标签之间的误差,得到损失值。在初始神经网络模型未收敛时,利用损失值调整初始神经网络模型的网络参数,并进行下一轮训练。在初始神经网络模型收敛时,将当前的初始神经网络模型作为指定神经网络模型。
可选的,可以通过在初始神经网络模型的迭代次数达到预设次数时,确定初始神经网络模型收敛,否则确定初始神经网络模型未收敛。或者,在本次计算的损失值小于预设损失值时,确定初始神经网络模型收敛,否则确定初始神经网络模型未收敛。或者还可以通过其他方式判断初始神经网络模型是否收敛,本公开实施例对此不作具体限定。
通过上述方法,本公开实施例基于沙普利加和解释(SHapley AdditiveexPlanations,SHAP)算法的思想,对各训练样本包括的每个话题属性数据,即每个特征,进行隐因子分析,从而分析出每个特征对于预测话题热度的重要性,即特征贡献。以便筛选出对话题热度预测更具有代表性的特征,并删除对预测话题热度的特征贡献较小的特征。这样既能够减少训练样本中包括的特征数量,又能够提高训练得到的指定神经网络的话题热度预测能力。
在本公开的一些实施例中,图1中的多维度包括多个第一维度和多个第二维度,其中,第一维度为话题基本信息的维度,第二维度为话题搜索数据的维度。
上述S102中按照预设的组合维度大小,对各维度进行组合的方式,可以实现为:将多个第一维度划分为多个分组,并将多个第二维度分别加入每个分组。之后在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
第一维度共有X个,即一个训练样本中单个周期内包括X个话题基本信息;第二维度共有N个,即一个训练样本中单个周期内包括N个话题搜索数据。将第一维度划分为k组,每个分组共包括X/k个第一维度,将多个第二维度分别加入每个分组,使得每个分组共包括X/k+N个维度。例如X=122,N=58,k=2。
之后,对于每个分组包括的X/k+N个维度,按照预设的组合维度大小,各维度进行组合,将每个组合结果作为一个候选组合维度。例如,预设的组合维度大小为2,则将每个分组包括的X/k+N个维度中,每两个维度组合为一个候选组合维度。
由于第一维度是话题基本信息维度,使得第一维度数量较多,因此对第一维度进行分组,再分别结合第二维度,并在组内进行维度组合,能够提高第一维度与第二维度的组合概率。使得在模型训练过程中,使模型能够从组合维度的组合属性数据中,学习到更复杂的非线性特征,从而提升话题预测模型的预测能力。
参见图4,在本公开的一些实施例中,上述S103从各候选组合维度中筛选出目标组合维度的方式,包括以下步骤:
S401、针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将指定数量的候选组合维度作为该训练样本的候选组合维度集合。
可选的,可以针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度。
或者,在计算第一相关度之前,还可以对候选组合维度进行筛选,得到保留的候选组合维度,然后确定该训练样本的每个保留的候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度。筛选方式可以实现为:针对每个候选组合维度,确定各训练样本的该候选组合维度的组合属性数据之间的方差,并删除方差小于预设方差阈值的候选组合维度。例如,预设方差阈值为4。由于方差小于预设方差预设时,候选组合维度的组合属性数据变化较小,因此对于模型预测话题热度的贡献较小,可以将这个候选组合维度删除。
可以针对每个训练样本,计算该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间斯皮尔曼(spearman)相关系数的绝对值,作为第一相关度。
之后,按照第一相关度从高到低的顺序,选择前Mspm个候选组合维度。以Mspm=700为例,则按照第一相关度从大到小的顺序,选择前700个候选组合维度,这些候选组合维度是与该训练样本的训练标签相关性较高的维度。
S402、基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
可以理解的,训练样本的候选组合维度集合中的各候选组合维度,与该训练样本的训练标签之间具有较高的相关度。因此各训练样本的候选组合维度集合之间的交集,与每个训练样本的训练标签之间均具有较高的相关度。
通过上述方法,本公开实施例可以从各候选组合维度中,筛选出与各训练样本的训练标签均具有较高相关度的组合维度,从而确定出目标组合维度。利用与训练标签相关度较高的组合维度的数据进行模型训练,不但能够降低使用的训练数据的数据量,还能够提高模型预测话题热度的能力。而且,还减少了与训练标签相关度较低的候选组合维度的组合属性数据,对话题热度预测模型的预测准确性的影响。
在本公开实施例中,上述S402确定目标组合维度的方式,包括如下步骤:
步骤一、基于交集内的候选组合维度的组合属性数据,确定交集内的各候选组合维度之间的第二相关度。
可以针对交集内每两个候选组合维度,计算这两个候选组合维度的组合属性数据之间的spearman相关系数的绝对值,作为第二相关度。
步骤二、依次针对交集内的每个候选组合维度,若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除。
若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,说明交集内存在与该候选组合维度相似度较高的其他候选组合维度,可以删除该候选组合维度。
步骤三、若该候选组合维度与交集内的其他候选维度之间的第二相关度均小于预设相关度阈值,则将该候选组合维度作为目标组合维度。
如果存在候选组合维度之间的第二相关度大于预设相关度阈值,说明这些候选组合维度的组合属性数据之间高度相关,而高度相关的组合属性数据可能导致模型预测失真或者难以预测,即影响模型预测准确性。同时,高度相关的组合数据数据之间存在冗余信息。因此,本公开实施例从交集中高度相关的候选组合维度中,保留其中一个候选组合维度,从而减少训练指定神经网络模型所使用的冗余数据,减少训练时基于的训练样本的数据量,提高模型训练的效率,还能提高指定神经网络模型预测的准确性。
在筛选出目标组合维度之后,还可以使用预设的降维算法,对于k组内的目标组合维度,将每组目标组合维度降低到MPCA维,例如预设的降维算法为主成分分析(PrincipalComponentAnalysis,PCA)算法,MPCA=80。对目标组合维度进行降维,能减少训练指定神经网络模型所使用的数据量。
本公开实施例中,上述多维度的话题属性数据还包括label数据,label数据包括话题在多个时刻的热度。
在执行S104时,可以将每个训练样本中的目标组合维度的组合属性数据与label数据输入指定神经网络模型,得到指定神经网络模型的输出结果。基于预设的损失函数,计算输出结果与该训练样本的训练标签之间的误差,得到损失值。在指定神经网络模型未收敛时,利用损失值调整指定神经网络模型,并进行下一轮训练。在指定神经网络模型收敛时,将当前的指定神经网络模型作为话题热度预测模型。
在本公开实施例中,在上述S104训练指定神经网络模型,得到话题热度预测模型之后,还可以对话题热度预测模型进行进一步更新,从而优化话题热度预测模型。更新方式包括以下两种:
方式一、确定各组合属性数据的特征贡献,删除多个更新后的训练样本中,特征贡献小于预设贡献阈值的组合属性数据;利用多个更新后的训练样本中保留的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题预测模型。
其中,确定每个组合属性数据的特征贡献的方式,与上述隐因子分析中确定每个话题属性数据的特征贡献的方式相同,可参考上述描述,此处不再赘述。
训练话题热度预测模型的方式,与上述隐因子分析中对初始神经网络模型的训练方式相同,可参考上述描述,此处不再赘述。
通过对组合属性数据进行进一步的隐因子挖掘,能够从各组合属性数据中,挖掘出对预测话题热度更具有代表性的组合属性数据。从而减少组合属性数据的数量,提高模型训练的效率,并提高以此训练得到的更新后的话题预测模型的话题热度预测能力。
方式二、按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用多个更新后的训练样本的目标二次组合维度的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题热度预测模型。
其中,筛选目标二次组合维度的方式,与上述筛选组合维度的方式相同,可参考上述描述,此处不再赘述。
训练话题热度预测模型的方式,与上述S104中对指定神经网络模型的训练方式相同,可参考上述描述,此处不再赘述。
通过对目标组合维度进行组合,并从中筛选出与各训练样本的训练标签均具有较高相关度的目标二次组合维度。利用与训练标签相关度较高的目标二次组合维度的组合属性数据进行模型训练,不但能够进一步降低使用的训练数据的数据量,还能够进一步提高话题热度预测模型的话题热度预测能力。而且,还减少了与训练标签相关度相对较低的二次组合维度的组合属性数据,对话题热度预测模型的预测准确性的影响。
基于相同的发明构思,本公开实施例还提供了一种话题热度预测方法,该方法可以应用于电子设备。例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备数据处理能力的设备。上述话题热度预测模型训练方法应用的电子设备,与话题热度预测方法应用的电子设备可以相同或者不同。如图5所示,本公开实施例还提供的话题热度预测方法,包括如下步骤:
S501、获取待预测话题在连续多个历史周期内的多维度的话题属性数据。
其中,收集的话题属性数据包括:话题基本信息、话题搜索数据和label数据。
S502、将获取的话题属性数据输入话题热度预测模型,得到话题热度预测模型输出的多个历史周期的下一个周期内的待预测话题的话题热度。
其中,话题热度预测模型为基于上述话题热度预测模型训练方法训练得到的模型。
以一天为一个周期为例,本公开实施例能够基于待预测话题在今天以及今天之前的多天内的话题属性数据,预测明天的话题热度。其中,预测得到的话题热度可以包括明天的多个时刻的话题热度。
由于本公开实施例在训练话题热度预测模型时,能够对话题属性数据进行组合,得到组合属性数据,并基于组合属性数据与训练标签之间的相关性,对组合属性数据所属的组合维度进行筛选,从而筛选出与训练标签相关性更强的目标组合维度的组合属性数据。由于与训练标签相关性较弱的数据,不但对模型预测准确度提高较小,还可能影响模型对于其他数据的处理,因此本公开实施例将与训练标签相关性较弱的组合属性数据剔除,利用与训练标签相关性较强的组合属性数据进行模型训练,能够提高话题热度预测模型的预测准确度。从而使得利用话题热度预测模型能够对待预测话题的热度进行更准确的预测。
由上述可知,本公开实施例还可以应用在股票收益预测场景或者传染病预测场景。
在股票收益预测场景下,可以获取待预测股票在连续多个历史周期内的多维度的股票属性数据,并将获取的股票属性数据输入股票收益预测模型,得到股票收益预测模型输出的多个历史周期的下一个周期内的待预测股票的收益。
其中,股票收益预测模型的训练方法与上述话题热度预测模型的训练方法相同。
由于本公开实施例中能够提高股票收益预测模型的预测准确度,使得在实际应用中能够更准确地进行股票收益预测,从而为用户选择股票提供更多更准的参考依据。
在传染病预测场景下,可以获取待预测传染病在连续多个历史周期内的多维度的病毒属性数据,并将获取的病毒属性数据输入传染病预测模型,得到传染病预测模型输出的多个历史周期的下一个周期内的待预测传染病的感染人数。
其中,传染病预测模型的训练方法与上述话题热度预测模型的训练方法相同。
由于本公开实施例中能够提高传染病预测模型的预测准确度,使得在实际应用中能够更准确地进行感染人数的预测,从而在预测的感染人数超过阈值时,及时发出预警,以便管理人员能够提前对待预测传染病进行管控。
本公开的技术方案中,所涉及的训练样本和训练标签的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
需要说明的是,本实施例中的话题属性数据、股票属性数据和传染病属性数据均可以来自于公开数据集。
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种话题热度预测模型训练装置,如图6所示,该装置包括:获取模块601、组合模块602、筛选模块603和训练模块604;
获取模块601,用于获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为话题在多个周期的下一个周期内的话题热度;
组合模块602,用于按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
筛选模块603,用于基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
训练模块604,用于利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
在本公开的一些实施例中,其中,筛选模块603,具体用于:
针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将指定数量的候选组合维度作为该训练样本的候选组合维度集合;
基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
在本公开的一些实施例中,其中,筛选模块603,具体用于:
基于交集内的候选组合维度的组合属性数据,确定交集内的各候选组合维度之间的第二相关度;
依次针对交集内的每个候选组合维度,若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除;
若该候选组合维度与交集内的其他候选维度之间的第二相关度均小于预设相关度阈值,则将该候选组合维度作为目标组合维度。
在本公开的一些实施例中,该装置还可以包括:
抽取模块,用于在按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度之前,多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集;
确定模块,用于针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集;
确定模块,还用于基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果,确定该话题属性数据的特征贡献;识别结果为预测的话题热度;
删除模块,用于将多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到多个更新后的训练样本;
训练模块604,还用于利用多个更新后的训练样本和多个训练样本的训练标签,对初始神经网络模型进行训练,得到指定神经网络模型。
在本公开的一些实施例中,其中,确定模块,具体用于:
利用初始神经网络模型对第一特征子集进行识别,得到第一识别结果;
利用初始神经网络对第二特征子集进行识别,得到第二识别结果;
基于第一识别结果与第二识别结果之间的差值,确定该话题属性数据的特征贡献。
在本公开的一些实施例中,该装置还可以包括更新模块,更新模块,用于:
在利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,确定各组合属性数据的特征贡献,删除多个更新后的训练样本中,特征贡献小于预设贡献阈值的组合属性数据;利用多个更新后的训练样本中保留的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题预测模型;或者,
在利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用多个更新后的训练样本的目标二次组合维度的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题热度预测模型。
在本公开的一些实施例中,其中,多维度包括多个第一维度和多个第二维度,第一维度为话题基本信息的维度,第二维度为话题搜索数据的维度;组合模块602,具体用于:
将多个第一维度划分为多个分组;
将多个第二维度分别加入每个分组;
在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种话题热度预测装置,如图7所示,该装置包括:获取模块701和预测模块702;
获取模块701,用于获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
预测模块702,用于将获取模块701获取的属性数据输入话题热度预测模型,得到话题热度预测模型输出的多个历史周期的下一个周期内的待预测话题的话题热度;其中,话题热度预测模型为基于上述话题热度预测模型训练方法训练得到的模型。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如话题热度预测模型训练方法和话题热度预测方法。例如,在一些实施例中,话题热度预测模型训练方法和话题热度预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的话题热度预测模型训练方法和话题热度预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行话题热度预测模型训练方法和话题热度预测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种话题热度预测模型训练方法,包括:
获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
2.根据权利要求1所述的方法,其中,所述基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度,包括:
针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将所述指定数量的候选组合维度作为该训练样本的候选组合维度集合;
基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
3.根据权利要求2所述的方法,其中,所述基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度,包括:
基于所述交集内的候选组合维度的组合属性数据,确定所述交集内的各候选组合维度之间的第二相关度;
依次针对所述交集内的每个候选组合维度,若该候选组合维度与所述交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除;
若该候选组合维度与所述交集内的其他候选维度之间的第二相关度均小于所述预设相关度阈值,则将该候选组合维度作为目标组合维度。
4.根据权利要求1-3任一项所述的方法,在所述按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度之前,所述方法还包括:
多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集;
针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集;
基于初始神经网络模型分别对所述第一特征子集和所述第二特征子集的识别结果,确定该话题属性数据的特征贡献;所述识别结果为预测的话题热度;
将所述多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到多个更新后的训练样本;
利用所述多个更新后的训练样本和所述多个训练样本的训练标签,对所述初始神经网络模型进行训练,得到所述指定神经网络模型。
5.根据权利要求4所述的方法,其中,所述基于初始神经网络模型分别对所述第一特征子集和所述第二特征子集的识别结果,确定该话题属性数据的特征贡献,包括:
利用所述初始神经网络模型对所述第一特征子集进行识别,得到第一识别结果;
利用所述初始神经网络对所述第二特征子集进行识别,得到第二识别结果;
基于所述第一识别结果与所述第二识别结果之间的差值,确定该话题属性数据的特征贡献。
6.根据权利要求4所述的方法,在所述利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,所述方法还包括:
确定各组合属性数据的特征贡献,删除所述多个更新后的训练样本中,特征贡献小于所述预设贡献阈值的组合属性数据;利用所述多个更新后的训练样本中保留的组合属性数据,和所述多个训练样本的训练标签,训练所述话题热度预测模型,得到更新后的话题预测模型;或者,
按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用所述多个更新后的训练样本的目标二次组合维度的组合属性数据,和所述多个训练样本的训练标签,训练所述话题热度预测模型,得到更新后的话题热度预测模型。
7.根据权利要求1-3任一项所述的方法,其中,所述多维度包括多个第一维度和多个第二维度,所述第一维度为话题基本信息的维度,所述第二维度为话题搜索数据的维度;所述按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,包括:
将所述多个第一维度划分为多个分组;
将所述多个第二维度分别加入每个分组;
在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
8.一种话题热度预测方法,包括:
获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
将获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于权利要求1-7任一项所述的方法训练得到的模型。
9.一种话题热度预测模型训练装置,包括:
获取模块,用于获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
组合模块,用于按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
筛选模块,用于基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
训练模块,用于利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
10.根据权利要求9所述的装置,其中,所述筛选模块,具体用于:
针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将所述指定数量的候选组合维度作为该训练样本的候选组合维度集合;
基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
11.根据权利要求10所述的装置,其中,所述筛选模块,具体用于:
基于所述交集内的候选组合维度的组合属性数据,确定所述交集内的各候选组合维度之间的第二相关度;
依次针对所述交集内的每个候选组合维度,若该候选组合维度与所述交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除;
若该候选组合维度与所述交集内的其他候选维度之间的第二相关度均小于所述预设相关度阈值,则将该候选组合维度作为目标组合维度。
12.根据权利要求9-11任一项所述的装置,所述装置还包括:
抽取模块,用于在所述按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度之前,多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集;
确定模块,用于针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集;
所述确定模块,还用于基于初始神经网络模型分别对所述第一特征子集和所述第二特征子集的识别结果,确定该话题属性数据的特征贡献;所述识别结果为预测的话题热度;
删除模块,用于将所述多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到更新后的多个训练样本;
所述训练模块,还用于利用更新后的多个训练样本和所述多个训练样本的训练标签,对所述初始神经网络模型进行训练,得到所述指定神经网络模型。
13.根据权利要求12所述的装置,其中,所述确定模块,具体用于:
利用所述初始神经网络模型对所述第一特征子集进行识别,得到第一识别结果;
利用所述初始神经网络对所述第二特征子集进行识别,得到第二识别结果;
基于所述第一识别结果与所述第二识别结果之间的差值,确定该话题属性数据的特征贡献。
14.根据权利要求12所述的装置,所述装置还包括更新模块,所述更新模块,用于:
在所述利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,确定各组合属性数据的特征贡献,删除所述多个更新后的训练样本中,特征贡献小于所述预设贡献阈值的组合属性数据;利用所述多个更新后的训练样本中保留的组合属性数据,和所述多个训练样本的训练标签,训练所述话题热度预测模型,得到更新后的话题预测模型;或者,
在所述利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用所述多个训练样本的目标二次组合维度的组合属性数据,和所述多个训练样本的训练标签,训练所述话题热度预测模型,得到更新后的话题热度预测模型。
15.根据权利要求9-11任一项所述的装置,其中,所述多维度包括多个第一维度和多个第二维度,所述第一维度为话题基本信息的维度,所述第二维度为话题搜索数据的维度;所述组合模块,具体用于:
将所述多个第一维度划分为多个分组;
将所述多个第二维度分别加入每个分组;
在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
16.一种话题热度预测装置,包括:
获取模块,用于获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
预测模块,用于将所述获取模块获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于权利要求1-7任一项所述的方法训练得到的模型。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7或8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7或8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7或8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565476.9A CN116595371A (zh) | 2023-05-18 | 2023-05-18 | 话题热度预测模型训练方法、话题热度预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565476.9A CN116595371A (zh) | 2023-05-18 | 2023-05-18 | 话题热度预测模型训练方法、话题热度预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595371A true CN116595371A (zh) | 2023-08-15 |
Family
ID=87604121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310565476.9A Withdrawn CN116595371A (zh) | 2023-05-18 | 2023-05-18 | 话题热度预测模型训练方法、话题热度预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595371A (zh) |
-
2023
- 2023-05-18 CN CN202310565476.9A patent/CN116595371A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766929B (zh) | 模型分析方法及装置 | |
CN110928993A (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
CN109145114B (zh) | 基于Kleinberg在线状态机的社交网络事件检测方法 | |
CN110910004A (zh) | 一种多重不确定性的水库调度规则提取方法及系统 | |
CN109615129A (zh) | 房地产客户成交概率预测方法、服务器及计算机存储介质 | |
CN109902859B (zh) | 基于大数据和机器学习算法的排队高峰时段预估方法 | |
CN113326852A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN110909230A (zh) | 一种网络热点分析方法及系统 | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN116307215A (zh) | 一种电力系统的负荷预测方法、装置、设备及存储介质 | |
CN116308854A (zh) | 一种基于概率扩散的信息级联流行度预测方法及系统 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN116362823A (zh) | 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置 | |
AU2021106200A4 (en) | Wind power probability prediction method based on quantile regression | |
CN113642727B (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
CN113392920A (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN111957053A (zh) | 游戏玩家匹配方法、装置、存储介质与电子设备 | |
WO2020151017A1 (zh) | 一种可扩展的领域人机对话系统状态跟踪方法及设备 | |
CN113283589B (zh) | 事件预测系统的更新方法及装置 | |
CN116595371A (zh) | 话题热度预测模型训练方法、话题热度预测方法及装置 | |
Ji et al. | A probabilistic approach for extracting design preferences from design team discussion | |
CN113326885A (zh) | 训练分类模型和数据分类的方法及装置 | |
CN112183814A (zh) | 一种短期风速预测方法 | |
CN110796561A (zh) | 基于三跳速度衰减传播模型的影响力最大化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230815 |