CN110633410A - 信息处理方法及装置、存储介质、电子装置 - Google Patents
信息处理方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN110633410A CN110633410A CN201810644005.6A CN201810644005A CN110633410A CN 110633410 A CN110633410 A CN 110633410A CN 201810644005 A CN201810644005 A CN 201810644005A CN 110633410 A CN110633410 A CN 110633410A
- Authority
- CN
- China
- Prior art keywords
- data
- topic
- structured data
- structured
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 15
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 35
- 239000000203 mixture Substances 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 43
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 44
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 241000677647 Proba Species 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013481 data capture Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种信息处理方法及装置、存储介质、电子装置,其中,该方法包括:获取话题数据;对所述话题数据进行预处理得到结构化数据;将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息。通过本发明,解决了相关技术中分析话题流行度效率低下的技术问题。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种信息处理方法及装置、存储介质、电子装置。
背景技术
每个人的工作与生活都与计算机、互联网息息相关,人们可以在互联网上获取各种各样的信息,甚至娱乐,消费,人与人之间的交流和沟通方式也已渗透到互联网中。以微博、微信朋友圈为代表的社会化媒体平台出现,更加使得基于网络的社交深入人心。在这个互联网时代,随时随地都会产生大量的数据,这些数据如浪潮一般,会随时间不停的产生新的内部巅峰值,在微博领域中即热点动态,在贴吧则可能是流行语,在音乐领域则构成流行音乐榜,更细节的说,在筛选出关于一件事的评论中,可能构成这件事的大众心理状态。这个获取流行信息的过程,称为流行度分析,针对个人用户分析流行度,可以作为推荐系统的一个维度起到举足轻重的作用,根据所有用户的数据进行总体分析流行度,则可以预判事务的发展趋势。
信息化社会,相关技术中,相关部门在收集人民大众的意愿时往往会选择电子意见箱,手机App省长信箱等方式收集人民的诉求,了解不足和人民迫切希望改变的重点,在这样一种方式下,每一条信息很可能在反应一件事或一种心理状态,但是这种通过被动的接收来手机舆情的方式,效率非常低下。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种信息处理方法及装置、存储介质、电子装置。
根据本发明的一个实施例,提供了一种信息处理方法,包括:获取话题数据;对所述话题数据进行预处理得到结构化数据;将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息。
根据本发明的另一个实施例,提供了一种信息处理装置,包括:获取模块,用于获取话题数据;处理模块,用于对所述话题数据进行预处理得到结构化数据;计算模块,用于将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过对话题数据进行预处理得到结构化数据,然后根据模型文件计算得到话题数据的热度信息,解决了相关技术中分析话题流行度效率低下的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的信息处理方法的流程图;
图2是根据本发明实施例的信息处理装置的结构框图;
图3为本发明实施例的系统结构图;
图4为本发明实施例的系统模块图;
图5为本发明实施例中elbow算法确定K值的原理图;
图6为本发明实施例中的初始化点确定过程示例图;
图7为本发明实施例中的整体预测流程举例图;
图8为本发明实例中训练前的处理流程举例图;
图9为本发明实例中的微博数据流行度分析总体流程图;
图10为本发明实例中的音乐数据流行度分析示例图;
图11为本发明实例中音频信号转特征向量示意图;
图12为本发明实例中的商品流行度分析示例图;
图13为本发明实例中的预处理及商品流行度预测流程图;
图14为本发明实例中的新闻数据流行度分析总体流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
在本实施例中提供了一种信息处理方法,图1是根据本发明实施例的信息处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取话题数据;
步骤S104,对话题数据进行预处理得到结构化数据;
步骤S106,将结构化数据输入至模型文件,计算得到话题数据的热度信息。
通过上述步骤,通过对话题数据进行预处理得到结构化数据,然后根据模型文件计算得到话题数据的热度信息,解决了相关技术中分析话题流行度效率低下的技术问题。
可选地,上述步骤的执行主体可以为服务器,终端等,但不限于此。
可选地,在计算得到话题数据的热度信息之后,方法还包括:在前端界面展示话题数据的热度信息。可以按照热度的高低来按序排列,该热度信息可以具体是分数。
可选地,在将结构化数据输入至模型文件之前,方法还包括以下之一:训练模型文件;预设模型文件。在预设模型文件时,该模型文件已经训练完毕,可以直接使用,当然也可以在使用过程进行反馈再训练。
可选地,训练模型文件包括:
S11,对样本文本数据进行分词,去掉样本文本数据中指定类型的字符,得到第一数据;去掉样本文本数据中指定类型的字符包括:去掉符号,数字,空格等特殊符号,去停止词;
S12,对第一数据进行单词嵌入处理(word embedding),得到第二数据;
S13,对第二数据的词向量进行加和并取平均值,得到第三数据;
S14,对第三数据按照类别对原始模型进行高斯混合模型训练,得到模型文件。
可选地,将结构化数据输入至模型文件,计算得到话题数据的热度信息,包括:
S21,对结构化数据进行分词,去掉结构化数据中指定类型的字符,得到第一结构化数据;去掉结构化数据中指定类型的字符包括:去掉符号,数字,空格等特殊符号,去停止词。
S22,对第一结构化数据进行单词嵌入处理,得到第二结构化数据;
S23,对第二结构化数据的词向量进行加和并取平均值,得到第三结构化数据;
S24,将第三结构化数据输入至模型文件,得到每条数据的归类和类别概率;
S25,计算类别概率得到话题数据的热度信息。
可选地,对话题数据进行预处理得到结构化数据包括:
按照数据类型拆分话题数据;清洗数据中包含的图片,语音,表情等数据;
删除话题数据中包含的特定类型的数据,得到候选数据,其中,特定类型包括以下至少之一:图片,语音,表情;
将候选数据规整为结构化数据。
可选地,获取话题数据包括:从互联网上抓取话题数据,其中,话题数据包括以下至少之一:话题内容,评论信息。话题数据可以从微信朋友圈,微博,贴吧,网站,应用软件等获取。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种信息处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的信息处理装置的结构框图,如图2所示,该装置包括:
获取模块20,用于获取话题数据;
处理模块22,用于对话题数据进行预处理得到结构化数据;
计算模块24,用于将结构化数据输入至模型文件,计算得到话题数据的热度信息。
可选地,计算模块包括:第一处理单元,用于对结构化数据进行分词,去掉结构化数据中指定类型的字符,得到第一结构化数据;第二处理单元,用于对第一结构化数据进行单词嵌入处理,得到第二结构化数据;第一计算单元,用于对第二结构化数据的词向量进行加和并取平均值,得到第三结构化数据;第二计算单元,用于将第三结构化数据输入至模型文件,计算得到每条数据的归类和类别概率;第三计算单元,用于计算类别概率得到话题数据的热度信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本实施例是本申请的可选实施例,用于结合具体的场景对本申请的方案进行详细说明:
本发明的目的是提供一种基于高斯混合模型的流行度分析系统及方法的实现。提出一种从语料话题信息爬取,语料信息预处理,高斯混合建模,流行度分析预测,到输出流行度评分结果的系统,该系统基于高斯混合模型(Gaussian Mixture Model,简记为GMM)的流行度分析方法,本篇重点讨论基于高斯混合模型方式的舆情话题流行度分析预测方法,并以此为基础延伸到多领域,建立基于混合高斯聚类技术的流行度分析系统。
本发明要解决的技术问题是讨论基于高斯混合聚类(Mixture of Gaussian,简记为MoG)的流行度分析方法,本实施例讨论基于高斯混合模型方式的舆情话题流行度分析预测方法,并以此为基础延伸到多领域,建立基于混合高斯聚类技术的流行度分析系统。
本实施例的“基于高斯混合模型的面向舆情内容的流行度分析系统”结构图如图3所示,图3为本发明实施例的系统结构图。
图3系统结构图描述了本发明的系统处理流程,即分布式数据抓取模块抓取舆情内容数据,通过预处理流程过滤原始数据,将预处理后的数据存储在分布式文件系统中。定时启动流行度分析任务,载入本发明所述的流行度分析算法训练后所得的模型文件,输入样本数据,得到每条样本文本信息的流行度打分并排名,在门户界面展示。
本发明采用的技术方案如图4所示,图4为本发明实施例的系统模块图。
分布式数据抓取模块:负责从互联网上抓取舆情话题数据。微博话题数据包括微博话题,话题下所包含的文本内容以及每条文本下的评论信息。最重要的是抓取文本本身的内容。
数据预处理模块:负责预处理抓取的原始数据,清洗数据中包含的图片,语音,表情等数据,并将非结构化数据规整为结构化数据。
结构化数据的存储格式如下表1所示,表1用于说明结构化数据字段。
表1
一、分布式文件系统模块:负责存储数据。
二、算法训练分析模块:负责建立一个混合高斯分析算法模型,通过训练数据(由于属于聚类操作,训练数据无需标注)训练算法模型,并将模型保存,供预测分析时使用。
三、预测打分计算模块:根据高斯混合模型预测测试样本的分类和属于某类别概率,该类别总样本数,K值,计算打分。
训练分析模块算法建立思想如下:
1)对所有文本信息数据进行分词,去掉符号,数字,空格等特殊符号,去停止词。
2)设置维度,对1)得到的词语进行word embedding(单词嵌入)处理。
3)对2)得到的词向量进行加和并取平均值并保存。
4)确定有几个类别,既有几个高斯分布。
5)针对每一个高斯分布,使用k-means算法给均值赋值,随机给方差进行赋值。
6)针对每一个样本,计算其在各个高斯分布下的概率。
7)针对每一个高斯分布,每一个样本对该高斯分布的贡献可以由其下的概率表示,如概率大则表示贡献大,反之亦然。这样把样本对该高斯分布的贡献作为权重来计算加权的均值和方差。之后替代其原本的均值和方差。
8)重复6)-7)直到每一个高斯分布的均值和方差收敛。
对于第1)步,使用开源分词器ansj,hanlp等均可解决,这里采用hanlp分词器。
对于第2)步,采用已经训练好的word2vec或Glove模型直接生成。
其中第4)步确定几个类别即确定K值使用elbow算法,给出聚类算法的一些符号表示:
聚类算法的m个输入样本:x1,x2,...,xm
聚类算法在聚类过程中,会寻找每个样本到聚类中心距离最小的点作为聚类中心。所以聚类算法的优化目标为:
其中ci表示最接近xi的聚类中心下标,μk表示聚类中心
优化目标J的值就表示每个样本到聚类中心的距离之和,所以J在某种程度上表示了误差,J最小则聚类误差最小。当K取值不同,得到的J值也不同。
elbow法认为,K值应该取拐点上的那个值,如图5所示,图5为本发明实施例中elbow算法确定K值的原理图,K取3或6比较合适。
第5)步使用K-Means算法找到初始化点:由于该算法仅仅用于找到高斯混合聚类训练的初始化点,提高MoG的准确度和收敛效率,具体的算法细节在这里不做过多讨论。以二维数据为例,K-Means算法找到高斯混合聚类初始化点的过程示例如图6所示,图6为本发明实施例中的初始化点确定过程示例图。
第6)7)8)步涉及高斯混合聚类和EM算法(Expectation-Maximizationalgorithm)下面对每个关键步骤做描述性说明:
设有随机变量X,则混合高斯模型可以用下式表示:
其中N(x|μk,Σk)称为混合模型中的第k个分量(component)。如前面图6中的例子,有四个聚类,可以用四个二维高斯分布来表示,那么分量数K=4.πk是混合系数(mixturecoefficient),且满足:
0≤πk≤1
可以看到πk相当于每个分量N(x|μk,Σk)的权重。
引入一个新的K维随机变量z,zk(1≤k≤K)只能取0或1两个值;zk=1表示第k类被选中,即:p(zk=1)=πk;如果zk=0表示第k类没有被选中。更数学化一点,zk要满足以下两个条件:
zk∈{0,1}
例如图6中的例子,有四类,则z的维数是4.如果从第一类中取出一个点,则z=(1,0,0,0),如果从第二类中取出一个点,则z=(0,1,0,0)。zk=1的概率就是πk,假设zk之间是独立同分布的,我们可以写出z的联合概率分布形式:
因为zk只能取0或1,且z中只能有一个zk为1而其它全为0,所以上式是成立的。
图6中的数据可以分为四类,假设每一类中的数据都是服从高斯分布的。这个叙述可以用条件概率来表示:
p(x|zk=1)=N(x|μk,Σk)
即第k类中的数据服从高斯分布。进而上式可以写成如下形式:
上面(2)(3)式分别给出了p(z)和p(x|z)的形式,根据概率的乘积规则与加和规则公式,可以求出p(x)的形式:
可以看到GMM模型的(1)式与(4)式有一样的形式,且(4)式中引入了一个新的变量z,通常称为隐含变量(latent variable)。对于图6中的数据,“隐含”的意义是:我们知道数据可以分成四类,但是随机抽取一个数据点,我们不知道这个数据点属于哪一类,它的归属我们观察不到,因此引入一个隐含变量z来描述这个归属。
注意到在贝叶斯的思想下,p(z)是先验概率,p(x|z)是似然概率,很自然我们会想到求出后验概率p(z|x):
上式中我们定义符号γ(zk)来表示第k个分量的后验概率。在贝叶斯的观点下,πk可视为zk=1的先验概率。
上述内容改写了GMM的形式,并引入了隐含变量z和已知x后的的后验概率γ(zk),这样做是为了方便使用EM算法来估计GMM的参数。
接下来使用EM算法计算参数,EM算法分两步,第一步先求出要估计参数的粗略值,第二步使用第一步的值最大化似然函数。因此要先求出GMM的似然函数。
假设X={x1,x2,...,xn},对于图6,X是图中所有点(每个点在二维平面上有两个坐标,是二维向量)。GMM的概率模型如(1)式所示。GMM模型中有三个参数需要估计,分别是π,μ和Σ.将(1)式写成连乘的形式:
为了估计这三个参数,需要分别求解出这三个参数的最大似然函数。先求解μk的最大似然函数,对(6)式左右两边取对数后得到似然函数:
再对μk求导并令导数为0即得到:
其中:
(9)式和(10)式中,N表示点的数量。γ(znk)表示点xn属于聚类k的后验概率。则Nk可以表示属于第k个聚类的点的数量。那么μk表示所有点的加权平均,每个点的权值是跟第k个聚类有关。
同理求Σk的最大似然函数,可以得到:
求上式关于πk的最大似然函数,得到:
上式两边同乘πk,可以得到λ=-N,进而可以得到πk更简洁的表达式:
至此,我们就可以利用(5)(7)(9)(10)(11)(12)式子使用EM算法计算模型参数了。
EM算法过程:
1.定义分量数目K,此例中K为4,对每个分量k设置πk,μk和Σk的初始值,然后计算(6)式的对数似然函数(7)。
2.E-step
根据当前的πk、μk、Σk计算后验概率γ(znk):
3.M-step
根据E step中计算的γ(znk)再计算新的πk、μk、Σk:
其中:
4.计算(6)式的对数似然函数
5.检查参数是否收敛或对数似然函数是否收敛,若不收敛,则返回第2步。
为了好理解,容易可视化,此前的举例都以图6所示的二维数据为基础,实际情况中,在对文本信息进行分词、word embedding、向量加和取平均值后(前面的1)2)3)步),输入的训练数据会远远大于二维,但是算法原理是完全相同的。训练模块需要确定的参数仅仅为一个K值,不需要设定其它参数,而K值可以用elbow算法来确定,因此本系统的特点之一是获取训练数据后就可以直接进行训练。表2用于说明训练语料输入。
表2
高斯混合聚类不需要划分训练集,验证集和测试集,训练完成后可以直接得到参数,此时保存参数集即可。
输入新的语料(输入语料格式类型与训练语料一致)进行预测推理,得出类型结果和类型概率。输入语料的格式为表3所示,表3用于说明预测输入语料格式。
表3
对流行度进行打分的过程也属于本实施例的方案,通过打分,可方便的对数据进行排序和比对。为了保证准确度和统一性,本专利采用了基于高斯聚类的结果,将类别数目和类别的样本数量反应在流行度打分中的方法。具体如下:
取某条文本作为测试样本输入到训练好的高斯混合模型中进行流行度预测,需要先按照前面提到的1)2)3)步骤将文本内容转化成特征向量,然后输入模型进行预测,设此特征向量为x,根据高斯混合模型的特点,对x做预测可以得到两个值,x所属的聚类k和x属于聚类k的概率proba(x),得到这两个值,即可通过以下公式计算打分,假设测试样本x被分到了第i类中,则打分计算方法记为:
其中amount(k=i)为被分到第i类的训练样本总数,amount(X)为全部训练样本总数,proba(x)是样本x属于第i类的概率,由高斯混合模型预测得到。
根据高斯混合模型的性质,聚类中样本量较大的样本组成的类型k=i必然流行度较高,故采用计算样本数量比的方式可以大体定位测试样本在本模型中的得分,使用proba(x)和这个得分相乘,再通过K的数量来平衡得分(这样计算是因为K值较大时,得到的值会较小,导致不同模型给出的评分差异过大,不利于横向比较),通过这样的计算,我们就可以对每个样本进行流行度打分,并且可以方便的添加新数据到训练数据中,优化模型。
在前端展示时,可以按照自己的需求做变化,如可以显示某条投诉信息的流行度打分,或按打分排名先后依次显示内容,或者直接作为参数输入到推荐系统的算法中。
如图3所示,本实施一个面向话题的情感分析系统,包括一个分布式数据抓取模块、一个数据预处理模块、一个分布式存储模块、一个算法分析模块、一个预测打分模块和一个可选的前端展示模块。算法分析模块内部包含专门的参数训练子模块和模型加载子模块。
本实施所提供的方法主要包括以下步骤:
步骤1:分布式数据抓取模块抓取互联网数据,如舆情话题及其内容,微信公众号及其回复等;
步骤2:数据预处理模块将收到的数据处理规整。按照技术方案的要求,结构化的数据格式为如表1所示。
步骤3:将结构化后的数据存储在分布式存储系统中,如HDFS(Hadoop分布式文件系统),MongoDB等;
步骤4:算法训练模块定时加载训练数据训练算法参数,并得到算法模型文件。具体实施方式为:
步骤4-1:对所有文本数据进行分词,去掉符号,数字,空格等特殊符号,去停止词;
步骤4-2:对4-1得到的词语进行word embedding处理;
步骤4-3:对4-2得到的词向量进行加和并取平均值并保存;
步骤4-4:进行高斯混合模型训练;
步骤4-5:根据算法训练得到最优参数,保存为算法模型文件;
步骤5:系统加载算法模型文件,对存储于分布式文件系统中的待预测数据进行计算,得到每条数据的流行度打分;
步骤5-1:对待预测的文本数据进行分词,去掉符号,数字,空格等特殊符号,去停止词;
步骤5-2:对5-1得到的词语进行word embedding处理;
步骤5-3:对5-2得到的词向量进行加和并取平均值并保存;
步骤5-4:启动平台,加载步骤4中训练得到的算法模型文件;
步骤5-5:对待预测数据进行计算,得到每条数据的归类和类别概率;
步骤5-6:对待5-5数据进行计算,得到每条数据的流行度打分;
步骤6:将步骤5中的聚合结果在前端界面展示。
本实施例还包括以下实施场景:
实施场景1
在大众日常生活中使用的微博,微信朋友圈和互联网网站当中会产生丰富的互联网资料。实时分析和追踪大众关注点和社会实时舆论流行动态是非常必要的。在微博微信公众号流行度趋向分析中,使用本实例中的基于高斯混合模型的流行度分析系统,当一条新的微博出现时,能够准确计算分析一这条微博的流行度,以便进行下一步推荐决策。
步骤一:使用分布式爬虫爬取微博内容以及微博下的评论,微信朋友圈内容以及评论;
步骤二:数据预处理清洗数据,将数据结构化存储在HDFS中,存储的格式如表4所示。
表4
步骤三:对数据进行分词后做word embedding,加和取平均得到一个多维向量,流程举例如图8所示,图8为本发明实例中训练前的处理流程举例图。
步骤四:将训练数据输入算法平台训练得出算法模型,训练平台选用sklearn。
步骤五:输入待预测语料,整体流程如图7所示,图7为本发明实施例中的整体预测流程举例图,调用步骤四中得到的算法模型进行流行度评分,推送呈现分析结果,整体流程如图9所示,图9为本发明实例中的微博数据流行度分析总体流程图。
实施场景2
音乐播放器是很常见的软件,在各类平台中都存在各式各样的客户端,这类软件对音乐进行推荐非常常见,如根据热度进行排名的音乐排行榜,根据用户个人习惯进行的音乐推荐等,这类问题可以通过本系统给出答案。以总的音乐排行榜为例。从图10的示例可以看出,热门推荐内容和流行度直接挂钩,图10为本发明实例中的音乐数据流行度分析示例图。
步骤一:收集音乐文件,无需标注。
步骤二:将音乐文件录入系统;
步骤三:数据预处理模块预处理数据,将数据转化为特征向量,这里给出一种思路,不做具体分析,见图11所示,图11为本发明实例中音频信号转特征向量示意图。
步骤四:启动算法训练建立预测模型。按照本发明中的技术方案构建高斯混合模型模型;
步骤五:分析预测音乐,整体流程和图9类似,只是数据获取和预处理有些许不同。
实施场景3
网购平台需要对现有商品进行分析,更好的了解市场的情况和变化,对新上架的商品有相对准确的流行度预估,这种场景下商品流行度分析变得极其重要。运用本实例中的流行度分析系统,可以对特定的商品类型进行流行度分析,并给新上架的商品提供流行度估值评分。示例如图12所示,图12为本发明实例中的商品流行度分析示例图。
步骤一:收集某一类商品的基本信息,其中名称,品牌,点击量(或销量),点击用户(或购买用户)为必须字段。
步骤二:对每个用户的每次点击(购买)看做一个训练样本组成样本集(同一用户的重复点击或购买不计),存入分布式持久化系统中如HDFS。
步骤三:对样本进行预处理,转化为特征向量,方式如图13中虚线箭头部分,图13为本发明实例中的预处理及商品流行度预测流程图。
步骤3-1:运用word2vec或Glove算法做word embedding,将文本词语转化为词向量,属性类型为参数的保持不变;
步骤3-2:利用one-hot方式将品牌标注出来;
步骤3-3:将上两部的结果和其余数字参数结合成一个向量;
步骤四:启用本发明中的流行度分析系统进行训练,得到GMM模型。
步骤五:对待预测商品进行预测,流程见图13。
步骤5-1:运用word2vec算法做计算,将文本词语转化为词向量,属性类型为参数的保持不变;
步骤5-2:利用one-hot方式将品牌标注出来;
步骤5-3:将上两部的结果和其余数字参数结合成一个向量;
步骤5-4:利用本发明中的预测方法得到类别i和所属类别概率proba;
步骤5-5:利用本发明的计算方法计算流行度分数;
实施场景4
当今在互联网上看新闻早已不是什么新鲜事,新闻消息不断地从互联网网站当中更新出来。为了实时分析和追踪大众关注点和社会实时舆论流行动态,使用本实例中的基于高斯混合模型的流行度分析系统,对每条新闻都可以做热度评分,当一条新的新闻出现时,能够准确计算分析一这条新闻的流行度,以便进行下一步决策。
步骤一:使用分布式爬虫爬取新闻内容;
步骤二:数据预处理清洗数据,将数据结构化存储在HDFS中,存储的格式为表5所示:
表5
步骤三:对数据进行分词后做word embedding,加和取平均得到一个多维向量,流程举例类似图7所示;
步骤四:将训练数据输入算法平台训练得出算法模型,训练平台选用sklearn。
步骤五:输入待预测语料,调用步骤四中得到的算法模型进行流行度评分,推送呈现分析结果,整体流程如图14所示,图14为本发明实例中的新闻数据流行度分析总体流程图。
本发明的目的是提供一种基于高斯混合模型的流行度分析系统及方法的实现。提出一种从语料话题信息爬取,语料信息预处理,高斯混合建模,流行度分析预测,到输出流行度评分结果的系统,该系统基于高斯混合模型的流行度分析方法,本篇重点讨论基于高斯混合模型方式的舆情话题流行度分析预测方法,并以此为基础延伸到多领域,建立基于混合高斯聚类技术的流行度分析系统。
实施例4
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取话题数据;
S2,对话题数据进行预处理得到结构化数据;
S3,将结构化数据输入至模型文件,计算得到话题数据的热度信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取话题数据;
S2,对话题数据进行预处理得到结构化数据;
S3,将结构化数据输入至模型文件,计算得到话题数据的热度信息。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种信息处理方法,其特征在于,包括:
获取话题数据;
对所述话题数据进行预处理得到结构化数据;
将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息。
2.根据权利要求1所述的方法,其特征在于,在计算得到所述话题数据的热度信息之后,所述方法还包括:
在前端界面展示所述话题数据的热度信息。
3.根据权利要求1所述的方法,其特征在于,在将所述结构化数据输入至模型文件之前,所述方法还包括以下之一:
训练所述模型文件;
预设所述模型文件。
4.根据权利要求3所述的方法,其特征在于,训练所述模型文件包括:
对样本文本数据进行分词,去掉所述样本文本数据中指定类型的字符,得到第一数据;
对所述第一数据进行单词嵌入处理,得到第二数据;
对所述第二数据的词向量进行加和并取平均值,得到第三数据;
对所述第三数据按照类别对原始模型进行高斯混合模型训练,得到所述模型文件。
5.根据权利要求1所述的方法,其特征在于,将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息,包括:
对结构化数据进行分词,去掉所述结构化数据中指定类型的字符,得到第一结构化数据;
对所述第一结构化数据进行单词嵌入处理,得到第二结构化数据;
对所述第二结构化数据的词向量进行加和并取平均值,得到第三结构化数据;
将所述第三结构化数据输入至所述模型文件,得到每条数据的归类和类别概率;
计算所述类别概率得到所述话题数据的热度信息。
6.根据权利要求1所述的方法,其特征在于,对所述话题数据进行预处理得到结构化数据包括:
按照数据类型拆分所述话题数据;
删除所述话题数据中包含的特定类型的数据,得到候选数据,其中,所述特定类型包括以下至少之一:图片,语音,表情;
将所述候选数据规整为结构化数据。
7.根据权利要求1所述的方法,其特征在于,获取话题数据包括:
从互联网上抓取所述话题数据,其中,所述话题数据包括以下至少之一:话题内容,评论信息。
8.一种信息处理装置,其特征在于,包括:
获取模块,用于获取话题数据;
处理模块,用于对所述话题数据进行预处理得到结构化数据;
计算模块,用于将所述结构化数据输入至模型文件,计算得到所述话题数据的热度信息。
9.根据权利要求8所述的装置,其特征在于,所述计算模块包括:
第一处理单元,用于对结构化数据进行分词,去掉所述结构化数据中指定类型的字符,得到第一结构化数据;
第二处理单元,用于对所述第一结构化数据进行单词嵌入处理,得到第二结构化数据;
第一计算单元,用于对所述第二结构化数据的词向量进行加和并取平均值,得到第三结构化数据;
第二计算单元,用于将所述第三结构化数据输入至所述模型文件,计算得到每条数据的归类和类别概率;
第三计算单元,用于计算所述类别概率得到所述话题数据的热度信息。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810644005.6A CN110633410A (zh) | 2018-06-21 | 2018-06-21 | 信息处理方法及装置、存储介质、电子装置 |
PCT/CN2019/088435 WO2019242453A1 (zh) | 2018-06-21 | 2019-05-24 | 信息处理方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810644005.6A CN110633410A (zh) | 2018-06-21 | 2018-06-21 | 信息处理方法及装置、存储介质、电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110633410A true CN110633410A (zh) | 2019-12-31 |
Family
ID=68966243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810644005.6A Pending CN110633410A (zh) | 2018-06-21 | 2018-06-21 | 信息处理方法及装置、存储介质、电子装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110633410A (zh) |
WO (1) | WO2019242453A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112379842A (zh) * | 2020-11-18 | 2021-02-19 | 深圳安捷丽新技术有限公司 | 一种预测数据冷热属性的方法和装置 |
CN113515494A (zh) * | 2020-04-09 | 2021-10-19 | 中国移动通信集团广东有限公司 | 基于分布式文件系统的数据库处理方法和电子设备 |
CN117078341A (zh) * | 2023-08-18 | 2023-11-17 | 时趣互动(北京)科技有限公司 | 一种品牌营销活动分析展示方法、系统、终端及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256970B (zh) * | 2020-10-28 | 2024-06-25 | 四川金熊猫新媒体有限公司 | 一种新闻文本推送方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN105787049A (zh) * | 2016-02-26 | 2016-07-20 | 浙江大学 | 一种基于多源信息融合分析的网络视频热点事件发现方法 |
WO2017076205A1 (zh) * | 2015-11-04 | 2017-05-11 | 陈包容 | 一种获取聊天发起句的回复提示内容的方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8566067B2 (en) * | 2009-05-29 | 2013-10-22 | Daniel P. Johnson | Method of modeling the socio-spatial dynamics of extreme urban heat events |
TW201044298A (en) * | 2009-06-12 | 2010-12-16 | Univ Nat Taiwan Science Tech | Hot video prediction system based on user interests social network |
CN104731857B (zh) * | 2015-01-27 | 2018-01-12 | 南京烽火星空通信发展有限公司 | 一种舆情热度的快速计算方法 |
CN106257449B (zh) * | 2015-06-19 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种信息确定方法和装置 |
CN107766360B (zh) * | 2016-08-17 | 2021-01-29 | 北京神州泰岳软件股份有限公司 | 一种视频热度预测方法和装置 |
CN107885793A (zh) * | 2017-10-20 | 2018-04-06 | 江苏大学 | 一种微博热点话题分析预测方法及系统 |
-
2018
- 2018-06-21 CN CN201810644005.6A patent/CN110633410A/zh active Pending
-
2019
- 2019-05-24 WO PCT/CN2019/088435 patent/WO2019242453A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
WO2017076205A1 (zh) * | 2015-11-04 | 2017-05-11 | 陈包容 | 一种获取聊天发起句的回复提示内容的方法及装置 |
CN105787049A (zh) * | 2016-02-26 | 2016-07-20 | 浙江大学 | 一种基于多源信息融合分析的网络视频热点事件发现方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515494A (zh) * | 2020-04-09 | 2021-10-19 | 中国移动通信集团广东有限公司 | 基于分布式文件系统的数据库处理方法和电子设备 |
CN113515494B (zh) * | 2020-04-09 | 2024-03-22 | 中国移动通信集团广东有限公司 | 基于分布式文件系统的数据库处理方法和电子设备 |
CN112379842A (zh) * | 2020-11-18 | 2021-02-19 | 深圳安捷丽新技术有限公司 | 一种预测数据冷热属性的方法和装置 |
CN117078341A (zh) * | 2023-08-18 | 2023-11-17 | 时趣互动(北京)科技有限公司 | 一种品牌营销活动分析展示方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019242453A1 (zh) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
CN110633410A (zh) | 信息处理方法及装置、存储介质、电子装置 | |
KR20160055930A (ko) | 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법 | |
CN110990683B (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
Liang | Collaborative, dynamic and diversified user profiling | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
CN117764669A (zh) | 物品推荐方法、装置、设备、介质及产品 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
Arai et al. | Predicting quality of answer in collaborative Q/A community | |
Das | A multimodal approach to sarcasm detection on social media | |
CN118035056A (zh) | 一种面向多模态数据查询的基准测试方法和测试框架 | |
Kanavos et al. | Integrating User's Emotional Behavior for Community Detection in Social Networks. | |
US20210224303A1 (en) | Searching device and searching program | |
CN114548263A (zh) | 标注数据的校验方法、装置、计算机设备及存储介质 | |
Prakash | Utilizing Social Media For Lead Generation | |
CN111126033A (zh) | 文章的回应预测装置及方法 | |
CN118132818B (zh) | 基于意象差异的旅游区域资源评估方法 | |
Xu et al. | Collaborative filtering algorithm based on multi-factors | |
KR102624636B1 (ko) | 자체 피드백 기반의 설문지 생성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191231 |
|
RJ01 | Rejection of invention patent application after publication |