CN114386394A - 平台舆论数据主题的预测模型训练方法、预测方法及装置 - Google Patents
平台舆论数据主题的预测模型训练方法、预测方法及装置 Download PDFInfo
- Publication number
- CN114386394A CN114386394A CN202011107203.2A CN202011107203A CN114386394A CN 114386394 A CN114386394 A CN 114386394A CN 202011107203 A CN202011107203 A CN 202011107203A CN 114386394 A CN114386394 A CN 114386394A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- platform public
- theme
- topic
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002688 persistence Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 239000010410 layer Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种平台舆论数据主题的预测模型训练方法、预测方法及装置,其中该训练方法包括:根据平台舆论文本集得到平台文本数据集;利用主题模型对平台舆论文本数据集中每个数据主题分类,得到相应主题;对每个时间片内所有平台舆论文本数据的主题进行统计,得到包含时间片信息的平台舆论主题向量;根据节假日信息对包含各时间片的时间片序列编码,得到节假日向量;拼接包含时间片信息的平台舆论主题向量和节假日向量,得到包含节假日信息的平台舆论主题向量;利用包含节假日信息的平台舆论主题向量形成训练数据集对初始神经网络进行训练,得到平台舆论数据主题的时间序列预测模型。通过上述方案能够实现主题的时间序列预测并提高预测效果。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种平台舆论数据主题的预测模型训练方法、预测方法及装置。
背景技术
近年来,微博凭借着自身的特点发展成为社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响。微博热点问题基本上也是当前社会的热点问题,因此对于微博未来热点的预测就显得极为重要。
发明内容
本发明提供了一种平台舆论数据主题的预测模型训练方法、预测方法及装置,以实现对类似于微博数据的社会化平台的舆论数据的主题进行时间序列分布预测,并提高预测效果。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种平台舆论数据主题的预测模型训练方法,包括:
获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集;
利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题;
对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量;
根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量;
将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量;
利用包含节假日信息的平台舆论主题向量形成训练数据集,并利用所述训练数据集对初始神经网络进行训练,得到平台舆论数据主题的时间序列预测模型。
在一些实施例中,获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集,包括:获取平台舆论的初始文本集;对所述初始文本集中的初始文本按设定属性进行聚合,得到聚合后文本集;对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集。
在一些实施例中,所述设定属性为作者;和/或,对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集,包括:对所述聚合后文本集中的各聚合后文本进行分词处理以及去停用词和去特殊符号处理,得到平台舆论文本数据集。
在一些实施例中,所述设定模型为LDA主题模型。
在一些实施例中,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题,包括:利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
在一些实施例中,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题,包括:利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并利用perplexity方法优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
在一些实施例中,时间片为天,时间片信息为以天为单位的信息,时间序列为以天为单位的时间序列;和/或,对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量,包括:对每个时间片内所有平台舆论文本数据对应的主题按主题进行平台舆论文本数量统计,得到包含时间片信息的平台舆论主题向量。
在一些实施例中,根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量,包括:根据节假日信息并按one-hot编码方式对包含所述各时间片的时间片序列进行编码,得到节假日向量。
在一些实施例中,将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量,包括:将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,并利用最近的数据补齐所述包含时间片信息的平台舆论主题向量相对于所述节假日向量缺失的数据,得到包含节假日信息的平台舆论主题向量。
在一些实施例中,所述初始神经网络包括LSTM网络。
在一些实施例中,所述LSTM网络为双向LSTM网络;和/或,所述初始神经网络还包括卷积层、池化层及全连接层;其中,所述LSTM网络的输出连接所述卷积层的输入,所述卷积层的输出连接所述池化层的输入,所述池化层的输出连接所述全连接层的输入。
根据本发明实施例的另一个方面,提供了一种平台舆论数据主题的预测方法,包括:将待预测时间片序列输入利用上述任一实施例所述的平台舆论数据主题的预测模型训练方法得到的平台舆论数据主题的时间序列预测模型,得到所述待预测时间片序列对应的平台舆论数据主题的时间序列数据。
根据本发明实施例的另一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
本发明实施例的平台舆论数据主题的预测模型训练方法、平台舆论数据主题的预测方法、电子设备及计算机可读存储介质,通过对平台舆论文本数据进行主题分类,按时间片进行统计,并将平台舆论数据主题和时间序列数据相结合,能够实现对平台舆论数据主题的时间序列分布进行预测。而且,通过考虑节假日信息,能够考虑节假日对平台舆论文本的影响,从而可以提高平台舆论数据主题的时间序列的预测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的平台舆论数据主题的预测模型训练方法的流程示意图;
图2是本发明一具体实施例的平台舆论数据主题的预测模型训练方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
时间序列是随时间变化的某种现象的数字序列。时间序列预测就是对这一数字序列进行处理,分析并发现其变化规律。利用时间序列并可以对未来的发展趋势进行预估。时间序列预测对于做决策具有重要的意义。现有的时间序列预测方法以统计学方法为主,应用最为广泛的就是ARIMA(差分自回归移动平均模型)。该方法实现简单,训练速度快,但是要求时间序列数据是平稳的,若不平稳,会导致预测效果不好。
然而,类似于微博数据的社会化平台的舆论数据,其时间序列数据基本上都是不平稳的,因此,难以利用统计学方法达到很好的预测其时间序列的效果。
为了实现对类似于微博数据的社会化平台的舆论数据的主题进行时间序列预测,并提高预测的效果,本发明提供了一种平台舆论数据主题的预测模型训练方法,以得到平台舆论数据主题的时间序列预测模型,从而利用该预测模型实现较好的预测效果。
需要预先说明的是,下述实施例或示例的描述或其中所提及的特征可以以相同或类似的方式,与其他实施例或示例中的特征组合,或替换其他实施例或示例中的特征,以形成可能的实施方式。另外,本文所使用的术语“包括/包含”是指特征、要素、步骤或组件的存在,但并不排除还存在一个或多个其他特征、要素、步骤或组件。
图1是本发明一实施例的平台舆论数据主题的预测模型训练方法的流程示意图。如图1所示,一些实施例的平台舆论数据主题的预测模型训练方法可包括以下步骤S110~步骤S160。
步骤S110:获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集。
该步骤S110中,该平台可以是各种社会化平台,允许发表文本,例如,微博等。该平台舆论文本集可以是在平台上发表的文本集合,或者可以是经过预处理的文本集合。
在从平台直接获取的文本较短的情况下,可以对相似文本进行聚合,以得到较长文本。具体实施时,该步骤S110,即,获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集,可包括步骤:S111,获取平台舆论的初始文本集;S112,对所述初始文本集中的初始文本按设定属性进行聚合,得到聚合后文本集;S113,对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集。
上述步骤S111中,该平台舆论的初始文本集例如可以是从微博平台直接得到的微博文本集,其中,该微博文本集可以包括各时间各作者各类型的微博文本。另外,微博文本通常较短。
上述步骤S112中,所述设定属性可以是具有该属性的多个文本具有一定程度的相似性。例如,所述设定属性可以为作者。按属性对较短的初始文本进行聚合,可以得到较长的文本。
上述步骤S113,即,对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集,更具体地,可包括步骤:对所述聚合后文本集中的各聚合后文本进行分词处理以及去停用词和去特殊符号处理,得到平台舆论文本数据集。其中,微博文本数据中有很多特殊符号,以此可以删除特殊符号。具体地,例如,可以通过正则化删除特殊符号。另外,平台舆论文本集中的平台舆论文本与平台舆论文本数据集中的平台舆论文本数据可以认为是一一对应,前者在于说明是一个个单独的文本,后者在于说明文本经处理,可以作为后续处理的数据。
通过上述步骤S111和步骤S112可以得到模型训练所需的基本文本,通过上述步骤S113可以对基础文本进行预处理,得到能够用于进行后续主题分类的数据。
步骤S120:利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题。
该步骤S120中,可以对平台舆论文本数据集每个平台舆论文本数据(对应一个平台舆论文本)进行主题归类,可以得到相应平台舆论文本数据所述主题的类别。
其中,该设定主题模型可以是各种可行的主题分类模型,例如,可以为LDA(隐含狄利克雷函数)主题模型,在此情况下,上述步骤S120,具体可包括:S121,利用LDA主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题。
为了得到更优的主题分类效果,可以对主题分类的个数进行优化。
示例性地,上述步骤S120,即,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题,具体可包括步骤:S122,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
该实施例中,对于需要设定或确定主题分类个数的主题模型而言,可以利用各种可行的优化方法对所述的设定主题模型进行评估,得到较佳的主题分类个数。
进一步地,可以利用各种算法优化主题分类的个数。例如,可以利用perplexity方法进行优化。在此情况下,上述步骤S122,即,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题,具体可包括步骤:S1221,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并利用perplexity方法优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
在设定主题模型为LDA主题模型的情况下,上述步骤S122,即,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题,具体可包括步骤:S1222,利用LDA主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题;更具体地,可包括步骤:利用LDA主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并利用perplexity方法优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。以此可以优化LDA主题模型的主题分类个数。
步骤S130:对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量。
前述平台舆论文本数据集中平台舆论文数据可以是采集的各个时间片发表的文本数据,例如,可以是某分、某时、某天内的数据。该步骤S130中,可以根据一定的时间片(或称时间段)对平台舆论文本数据集中的平台舆论文本数据的主题进行统计。例如,此处的时间片可以为天,即,可以按天对平台舆论文本数据的主题进行统计。相应的,后续步骤S140中,所述的时间序列可以为以天为单位的时间序列,后续步骤S150中,所述的时间片信息可以为以天为单位的信息。聚合后的文本数据对应的时间片,可以取聚合所用文本的所有数据的范围所在的时间片段来确定,或者可以根据聚合所用文本的所有数据的范围中间值确定所述时间片。
具体实施时,该步骤S130,即,对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量,具体可包括步骤:对每个时间片内所有平台舆论文本数据对应的主题按主题进行平台舆论文本数量统计,得到包含时间片信息的平台舆论主题向量。其中,利用设定主题模型可以得到一定数量的主题类别,不同文本数据对应的主题类别可能相同或不同,可以统计每个主题类别下的文本数据的个数,不同主题类别对应各自的文本数据的个数,以此可以形成主题向量。进一步,在统计每个主题类别对应的文本数据的个数时,可以区分该主题类别下不同时间片对应的文本数据的个数,从而,所得到的主题向量可以包含时间片信息。
步骤S140:根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量。
该步骤S140中,该节假日信息可以包括周六日、节假日等的日期,其他日期可以认为是工作日。该节假日向量可以包含该时间片序列对应的时间范围内的节假日信息。平台文本数据集可以包含对应多个时间片的数据,例如,包含多天的数据,所以,可以对包含这些时间片的时间片序列进行编码。通过对时间片序列进行编码,可以得到节假日信息的向量表示。例如,一年中所包含的所有天可以构成时间片为天的时间片序列,根据一年内的周六日和节假日信息,可以对该时间片序列进行编码,可以得到这一年的节假日向量,该节假日向量可以反映该年的节假日信息和工作日信息。
可以采用各种可能的编码方式进行编码,例如,可以按one-hot编码方式进行编码,在此情况下,上述步骤S140,即,根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量,可包括步骤:根据节假日信息并按one-hot编码方式对包含所述各时间片的时间片序列进行编码,得到节假日向量。
步骤S150:将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量。
该步骤S150中,平台舆论主题向量中的时间片信息在节假日向量中可以找到对应的信息,可以两个向量对应的信息可以拼接起来,对于一个文本数据而言,增加了节日信息的维度,以此得到的平台舆论主题向量可以包含节假日信息。
在文本数据集所涉及的时间片范围不能覆盖节假日向量对应的时间片范围的情况下,有的时间片对应的节假日向量没有文本数据与之对应,两种向量在拼接时有数据空缺,在此情况下,可以使用就近时间片对应的文本数据的向量进行数据补充。示例性地,上述步骤S150,即,将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量,具体可包括步骤:将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,并利用最近的数据补齐所述包含时间片信息的平台舆论主题向量相对于所述节假日向量缺失的数据,得到包含节假日信息的平台舆论主题向量。
时间片就是一个时间段,例如,时间段是一天。舆论主题向量可能会存在缺失,例如,当天的数据获取失败,如果无法计算,可以直接用前一天的舆论主题向量进行填充就可以。节假日向量一般存在缺失,所以可以基于节假日向量确定舆论主题向量是否缺失。舆论向量可以是一个多维向量,维数可以是所确定的主题的个数,例如,每天(以天为时间片时)都有一个舆论主题向量,舆论主题向量的每个维度可以代表该主题的文本的数量。节假日向量可以是多维向量,每一维可以代表该时间片(如该天)的属性,比如,工作日、休息日、国际节日(妇女节,劳动节等)、中国特殊的日子(如国庆节、建军节、元旦、春节、中秋节、9.18等)。通过拼接,可以简单地将两个向量首尾相连,成为一个向量。
例如,x1到xi是当天每个主题的个数,y1到yn是节假日向量,比如,y1代表的是是否为工作日(是就为1,不是就为2),y2代表的是是否为休息日(是就为1,不是就为2),y3代表的是是否为中国传统节日(是就为1,不是就为2)等等,所以最后拼接完的向量为:
{x1 k,x2 k,…xm k,y1 k,y2 k,…yn k}
其中,k表示的是第k天,也就是日期,xi代表的是主题,m表示一个共m个主题,yi代表的是节假日等信息,n表示我们对节假日工作日的编码一共分为n个大类。
其中1至n之间的整数没有对应的包含时间片信息的平台舆论主题向量时,可以用就近的数据补齐,例如,第k个包含节假日信息的平台舆论主题向量用就近数据补齐,如用第k-1个(如前一天)包含节假日信息的平台舆论主题向量或第k+1个(如后一天)包含节假日信息的平台舆论主题向量补齐,可表示为或
步骤S160:利用包含节假日信息的平台舆论主题向量形成训练数据集,并利用所述训练数据集对初始神经网络进行训练,得到平台舆论数据主题的时间序列预测模型。
该步骤S160中,训练数据集中的每个样本可以包含主题向量的信息和对应的时间片信息,时间片信息作为神经网络的输入,神经网络的输出为预测的主题向量,训练样本中的主题向量的信息可以用来和预测的主题向量进行比较,并可以用于计算损失,对神经网络进行训练。可以根据实际主题向量和预测的主题向量的差异或根据训练次数确定神经网络是否完成训练。
其中,所述初始神经网络可包括LSTM(Long Short-Term Memory,长短期记忆网络,一种时间循环神经网络)网络。进一步地,为使预测结果更加准确,选用的所述LSTM网络可以为双向LSTM网络。
在文本(如微博)噪声比较多的情况下,进一步地,所述初始神经网络除了包括LSTM网络,还可包括卷积层、池化层及全连接层;其中,所述LSTM网络的输出连接所述卷积层的输入,所述卷积层的输出连接所述池化层的输入,所述池化层的输出连接所述全连接层的输入。利用卷积层和池化层有助于针对噪声较多的文本提取主要信息,降低过拟合风险。此外,经过全连接层后,还可以连接有输出层。
上述实施例的平台舆论数据主题的预测模型训练方法,通过对平台舆论文本数据进行主题分类,按时间片进行统计,并将平台舆论数据主题和时间序列数据相结合,能够实现对平台舆论数据主题的时间序列分布进行预测。而且,通过考虑节假日信息,能够考虑节假日对平台舆论文本的影响,从而可以提高平台舆论数据主题的时间序列的预测效果。
另外,本发明实施例还提供了一种平台舆论数据主题的预测方法,该预测方法可包括:将待预测时间片序列输入利用上述任一实施例所述的平台舆论数据主题的预测模型训练方法得到的平台舆论数据主题的时间序列预测模型,得到所述待预测时间片序列对应的平台舆论数据主题的时间序列数据。
此外,基于与图1所示方法相同的构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
为使本领域技术人员更好地了解本发明,下面将以具体实施例说明本发明的实施方式。
图2是本发明一具体实施例的平台舆论数据主题的预测模型训练方法的流程示意图。参见图2,以微博文本数据为例,平台舆论数据主题的预测模型训练方法可包括以下步骤:
步骤S210:对微博文本基于作者以周作为时间单位进行聚合;
步骤S220:对聚合后的微博文本进行预处理;
步骤S230:利用LDA主题模型对聚合后的文博文本进行主题提取,并采用perplexity方法确定主题的个数;
步骤S240:统计每个主题对应的微博文本的个数,得到主题向量;
步骤S250:对工作日、休息日以及节假日的信息进行编码处理,生成节假日向量;
步骤S260:将主题向量和节假日向量进行拼接;
步骤S270:利用拼接后的向量对包含双向LSTM网络、卷积层、池化层及全连接层的初始网络进行训练,得到时间序列预测模型。
其中,由于微博文本都是短文本,对于利用LDA主题模型的主题提取有一定的干扰。认为同一作者在相近的时间段内所发的微博主题基本重合,因此,在进行主题提取之前,可以先对微博文本基于作者例如以周作为时间单位进行聚合,然后,对聚合后微博文本数据利用LDA主题模型进行主题提取,并可采用perplexity方法确定主题的个数L,然后,可以根据提取后的主题分别对每条微博文本数据进行主题归类。根据时间片信息分别得到长度为L的向量,向量中的每个位置对应的是相应主题对应的所发微博文本的个数。
因为工作日、休息日以及国家规定的节假日信息等对于微博文本数据具有一定的影响,所以除了每天的微博主题数据,对工作日、休息日以及节假日的信息做编码处理,生成一个向量,用于与主题向量进行拼接,从而获得一个新的数据集矩阵,行为时间序列数据,列为主题向量与节假日向量。
搭建LSTM网络,可以选用双向LSTM网络,因为双向LSTM对于结果的预测更加准确。同时,由于微博数据的噪声比较多,所以在LSTM之后接了一个卷积层和一个池化层,利用在卷积层和池化层有助于提取主要信息,同时降低过拟合的风险。之后接全连接层,最后接输出层。
将新的数据集作为训练集,输入到搭建好的LSTM网络中进行训练,训练完成后得到能够用于对微博文本主题的时间序列进行预测的模型。
通过上述步骤S220~步骤S260得到每个时间片对应的微博主题向量以及节假日向量。上述步骤S220中,可以对聚合后每个作者所发的微博文本数据进行分词处理,并去掉停用词;由于微博文本数据具有很多的特殊符号,因此也需要使用正则化删掉特殊符号。上述步骤S230中,对预处理之后的微博文本数据进行LDA主题提取,采用perplexity方法确定主题的个数。根据时间片信息提取微博文本数据,并根据LDA主题模型确定每个文本对应的主题。上述步骤S240中,通过该时间片下的所有微博文本数据的主题向量相加,得到该时间片下的主题向量。上述步骤S250中,对于节假日工作日等进行编码处理,采用one-hot编码方式。上述步骤S260中,将编码后的节假日向量与主题向量进行拼接,从而获得新的数据集;对于数据集中缺失的时间片数据,可采用最近的数据进行填充。上述步骤S270中,将新的数据集归一化后输入到LSTM网络中进行训练。其中,时间片信息可以天为单位的,输入的历史特征的时间片选择的可以是4,LSTM可为单层,卷积层可为一维,池化层可为最大池化层,全连接层可为两层,学习速率例如可以为0.003。
要预测的时间片对应的时间信息也可作为LSTM网络的输入。在预测模型的应用阶段,可以将待预测的时间序列数据输入到训练好的LSTM网络中,得到预测的目标信息。
本实施例中,提供了基于LDA主题模型的微博数据的时间序列预测模型训练方法和预测方法,具体地,根据LDA模型获取每条微博对应的主题,并计算每个时间片对应的微博主题向量,将微博主题向量与时间序列数据构成新的数据集,将新的数据集以及节假日、工作日、周末等信息输入到LSTM网络中进行训练,LSTM网络是一个一个双向LSTM,后面接一个一维卷积层和一个池化层以及两个全连接层,池化层与卷积层主要是用来提取主要信息。其中使用了三个技术对微博未来的主题分布进行预测,第一个是LDA主题模型,LDA模型主要用于对微博文本数据进行分类,第二个是双向LSTM模型,主要是用于时间序列的预测,第三个是卷积层和池化层,主要是针对微博数据噪声过多的情况,卷积层和池化层有助于提取主要信息,降低过拟合。对于微博文本数据首先进行了LDA主题提取,从而获得了主题向量;在利用LSTM对数据进行预测的时候为了应对微博数据噪声过多的情况,采用池化层,有效的提取了主要信息,降低了过拟合,提高了模型的预测精度。通过结合微博数据与时序数据,能够对未来微博主题的发展方向进行有效的预测。利用循环神经网络模型进行时间序列预测,能够取得比统计学方法更好的预测效果,可以对微博舆情数据未来的走势进行预测。
综上所述,本发明实施例的平台舆论数据主题的预测模型训练方法、平台舆论数据主题的预测方法、电子设备及计算机可读存储介质,通过对平台舆论文本数据进行主题分类,按时间片进行统计,并将平台舆论数据主题和时间序列数据相结合,能够实现对平台舆论数据主题的时间序列分布进行预测。而且,通过考虑节假日信息,能够考虑节假日对平台舆论文本的影响,从而可以提高平台舆论数据主题的时间序列的预测效果。进一步地,利用双向LSTM网络进行能够在文本数据噪声过多时也能准确预测。利用池化层能够提取主要信息,降低过拟合,提高预测精度。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种平台舆论数据主题的预测模型训练方法,其特征在于,包括:
获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集;
利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题;
对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量;
根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量;
将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量;
利用包含节假日信息的平台舆论主题向量形成训练数据集,并利用所述训练数据集对初始神经网络进行训练,得到平台舆论数据主题的时间序列预测模型。
2.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,获取平台舆论文本集,并根据所述平台舆论文本集得到平台文本数据集,包括:
获取平台舆论的初始文本集;
对所述初始文本集中的初始文本按设定属性进行聚合,得到聚合后文本集;
对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集。
3.如权利要求2所述的平台舆论数据主题的预测模型训练方法,其特征在于,
所述设定属性为作者;
和/或,
对所述聚合后文本集中的各聚合后文本进行分词处理,得到平台舆论文本数据集,包括:
对所述聚合后文本集中的各聚合后文本进行分词处理以及去停用词和去特殊符号处理,得到平台舆论文本数据集。
4.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,所述设定模型为LDA主题模型。
5.如权利要求1或4所述的平台舆论数据主题的预测模型训练方法,其特征在于,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,得到相应平台舆论文本数据对应的主题,包括:
利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
6.如权利要求5所述的平台舆论数据主题的预测模型训练方法,其特征在于,利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题,包括:
利用设定主题模型对所述平台舆论文本数据集中的每个平台舆论文本数据进行主题分类,并利用perplexity方法优化所述设定主题模型的主题分类个数,得到相应平台舆论文本数据对应的主题。
7.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,
时间片为天,时间片信息为以天为单位的信息,时间序列为以天为单位的时间序列;
和/或,
对每个时间片内所有平台舆论文本数据对应的主题进行统计,得到包含时间片信息的平台舆论主题向量,包括:
对每个时间片内所有平台舆论文本数据对应的主题按主题进行平台舆论文本数量统计,得到包含时间片信息的平台舆论主题向量。
8.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,根据节假日信息对包含所述各时间片的时间片序列进行编码,得到节假日向量,包括:
根据节假日信息并按one-hot编码方式对包含所述各时间片的时间片序列进行编码,得到节假日向量。
9.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,得到包含节假日信息的平台舆论主题向量,包括:
将所述包含时间片信息的平台舆论主题向量和所述节假日向量拼接在一起,并利用最近的数据补齐所述包含时间片信息的平台舆论主题向量相对于所述节假日向量缺失的数据,得到包含节假日信息的平台舆论主题向量。
10.如权利要求1所述的平台舆论数据主题的预测模型训练方法,其特征在于,所述初始神经网络包括LSTM网络。
11.如权利要求10所述的平台舆论数据主题的预测模型训练方法,其特征在于,
所述LSTM网络为双向LSTM网络;
和/或,
所述初始神经网络还包括卷积层、池化层及全连接层;其中,所述LSTM网络的输出连接所述卷积层的输入,所述卷积层的输出连接所述池化层的输入,所述池化层的输出连接所述全连接层的输入。
12.一种平台舆论数据主题的预测方法,其特征在于,包括:
将待预测时间片序列输入利用如权利要求1至11任一项所述的平台舆论数据主题的预测模型训练方法得到的平台舆论数据主题的时间序列预测模型,得到所述待预测时间片序列对应的平台舆论数据主题的时间序列数据。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至12任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至12任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107203.2A CN114386394A (zh) | 2020-10-16 | 2020-10-16 | 平台舆论数据主题的预测模型训练方法、预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011107203.2A CN114386394A (zh) | 2020-10-16 | 2020-10-16 | 平台舆论数据主题的预测模型训练方法、预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114386394A true CN114386394A (zh) | 2022-04-22 |
Family
ID=81194107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011107203.2A Pending CN114386394A (zh) | 2020-10-16 | 2020-10-16 | 平台舆论数据主题的预测模型训练方法、预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386394A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052753A1 (en) * | 2010-12-21 | 2014-02-20 | Peking University Founder Group Co., Ltd. | Method, device and system for processing public opinion topics |
CN104992247A (zh) * | 2015-07-10 | 2015-10-21 | 国家电网公司 | 基于cma/smo的支持向量机电力负荷预测方法 |
US20160180218A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Automated opinion prediction based on indirect information |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107038156A (zh) * | 2017-04-28 | 2017-08-11 | 北京清博大数据科技有限公司 | 一种基于大数据的舆论热点预测方法 |
US20190180327A1 (en) * | 2017-12-08 | 2019-06-13 | Arun BALAGOPALAN | Systems and methods of topic modeling for large scale web page classification |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
-
2020
- 2020-10-16 CN CN202011107203.2A patent/CN114386394A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052753A1 (en) * | 2010-12-21 | 2014-02-20 | Peking University Founder Group Co., Ltd. | Method, device and system for processing public opinion topics |
US20160180218A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Automated opinion prediction based on indirect information |
CN104992247A (zh) * | 2015-07-10 | 2015-10-21 | 国家电网公司 | 基于cma/smo的支持向量机电力负荷预测方法 |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107038156A (zh) * | 2017-04-28 | 2017-08-11 | 北京清博大数据科技有限公司 | 一种基于大数据的舆论热点预测方法 |
US20190180327A1 (en) * | 2017-12-08 | 2019-06-13 | Arun BALAGOPALAN | Systems and methods of topic modeling for large scale web page classification |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647251B (zh) | 基于宽深度门循环联合模型的推荐排序方法 | |
CN104679743B (zh) | 一种确定用户的偏好模式的方法及装置 | |
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110310114B (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN110263152A (zh) | 基于神经网络的文本分类方法、系统及计算机设备 | |
CN116594748B (zh) | 针对任务的模型定制处理方法、装置、设备和介质 | |
CN111599219B (zh) | 一种基于排序学习的多数据源航班起飞时间预测方法 | |
CN111611488A (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN115935245B (zh) | 一种政务热线案件自动分类分拨方法 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN115456421A (zh) | 工单的分派方法及装置、处理器和电子设备 | |
CN118093962A (zh) | 数据检索方法、装置、系统、电子设备及可读存储介质 | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN111967973B (zh) | 银行客户数据处理方法及装置 | |
CN116484105B (zh) | 业务处理方法、装置及计算机设备、存储介质、程序产品 | |
CN117370650A (zh) | 基于服务组合超图卷积网络的云计算数据推荐方法 | |
CN116562284B (zh) | 一种政务文本自动分拨模型训练方法及装置 | |
CN114386394A (zh) | 平台舆论数据主题的预测模型训练方法、预测方法及装置 | |
CN109145207B (zh) | 一种基于分类指标预测的信息个性化推荐方法及装置 | |
CN110413782B (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 | |
CN113220947A (zh) | 对事件特征进行编码的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |