具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的舆情分析方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104上部署了舆情分析平台。舆情分析平台用于对预设平台发布的舆情信息进行分析,得到对应的情感指数。用户可以通过终端102访问舆情分析平台。舆情分析平台按照预设时间频率在预设平台爬取新闻等舆情信息,对爬取到的舆情信息进行拆分,得到多个短文本。舆情分析平台在舆情信息中提取能够表征其可能影响的对象(以下称“影响对象”)的关键词,根据提取到的关键词,确定该舆情信息对应的影响对象类型。服务器104部署了舆情分析平台对应的数据库,在数据库存储了多种影响对象类型以及每种影响对象类型对应的舆情因子和舆情分析模型。舆情分析平台在数据库中读取影响对象类型对应的舆情因子,根据舆情因子在多个短文本中分别提取目标关键词,将提取到的目标关键词输入该影响对象类型对应的舆情分析模型,计算得到舆情信息对应的情感指数。舆情分析平台可以对虚拟资源、通信设备等多种影响对象类型的舆情信息进行分析。当影响对象类型为虚拟资源时,舆情分析平台还用于根据情感指数测算虚拟资源对应的舆情指数,并基于舆情指数对用户的虚拟资源获取行为进行指导。上述舆情分析过程,自动进行舆情信息的爬取,识别舆情信息对应的影响对象类型,并基于预置的不同影响对象类型对应的舆情因子和舆情分析模型对舆情信息进行自动分析,可以及时高效的对舆情信息进行准确分析。
在一个实施例中,如图2所示,提供了一种舆情分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,在预设平台爬取舆情信息。
预设平台可以是预设的多种新闻阅读器或社交平台,如浏览器、今日头条等新闻阅读器,或者微信、微博、贴吧或知乎等社交平台。服务器按照预设时间频率对预设平台发布的舆情信息进行爬取。不同预设平台对应爬取的预设时间频率可以不同。舆情信息具有对应的影响对象。舆情信息会影响人们的情感态度,进而对影响对象造成良性或恶性影响,如客源流失、资源贬值等。影响对象类型可以是通信设备、房产建筑、虚拟资源等。
步骤204,确定舆情信息对应的影响对象类型。
服务器部署了数据库,在数据库存储了多种影响对象类型以及每种影响对象类型对应的关键词集合。关键词集合包括一个或多个用于表征该影响对象特性的关键词,如影响对象类型“通信设备”对应的关键词集合可以是{集成芯片、交换机、通信设备…设备维护}等。
服务器对爬取到的多个舆情信息分别进行文本分类,得到每个舆情信息对应的一个或多个舆情标签。舆情标签能够表征该舆情信息可能的影响对象类型,可以是舆情信息中的关键词。服务器将提取到的舆情标签与预存储的多个影响对象类型分别对应的关键词集合分别进行匹配,根据与舆情标签相匹配的关键词集合,确定舆情信息对应的影响对象类型。“相匹配”可以是指关键词集合中包含与舆情标签对应的关键词。当与舆情标签相匹配的关键词集合有多个时,根据包含舆情标签数量最多的一个关键词集合,确定舆情信息对应的影响对象类型。
步骤206,对舆情信息拆分,得到多个短文本。
舆情信息可以是文本、语音、视频或图片等。若舆情信息为语音、视频或图片,则将其先转换为文本。转换后的舆情信息为包括多个拆分标识符的长文本。服务器将每个拆分标识符所在位置确定为拆分位置,在长文本的每个拆分位置进行拆分,得到多个短文本。拆分标识符可以语句结束符,如句号、感叹号等。
步骤208,获取影响对象类型对应的舆情因子,根据舆情因子在多个短文本中分别提取目标关键词。
服务器在每个短文本提取目标关键词。具体的,服务器对短文本中的多个词汇和标点符号进行词性标注,根据标注结果对短文本进行拆分,将短文本拆分为多个分词。分词可以是词汇、汉字或标点符号中的一种。
若分词包括停用词或标点符号,服务器对多个分词进行过滤,删除停用词和标点符号。具体的,数据库中预先存储了停用词表。停用词表记录了多个停用词。停用词是指对于问题分类作用较小的词汇或汉字,如“我”、“啊”、“的”、“就”等。服务器获取停用词表,利用停用词表在拆分得到的多个分词中筛选停用词和标点符号,将筛选出的停用词和标点符号删除。对停用词和标点符号进行过滤,即可以节省服务器的存储空间,也可以提高服务器基于目标关键词进行舆情分析的效率和准确率。
服务器对过滤后的多个分词进行同义词替换及命名实体替换。服务器预先存储了同义词表和命名实体。同义词表记录了多个标准词以及每个标准词对应的同义词。同义词不仅包括与标准词采用相同字体和相同语言的近义词或等义词,还可以包括与标准词采用不同字体或不同语言的近义词或等义词。命名实体表记录了多个命名实体以及每个命名实体对应的实体词。命名实体包括人名、机构名或地名等,还可以包括其他以名称为标识的实体,如数字、日期、货币或地址等。服务器识别多个目标分词中的命名实体,将识别出的命名实体替换为对应的实体词,例如,可以将目标分词中所有的人名替换为“人物”,将目标分词中所有的地名替换为“地点”。同义词替换可以对同一个概念的多种表达方式进行统一,使得短文的关键概念更未凸显,降低服务器根据目标关键词进行舆情分析的难度,从而可以提高舆情分析效率和准确率。命名实体的替换可以降低舆情分析的粒度,可以进一步提高舆情分析的效率。
数据库中还存储了多种影响对象类型分别对应的舆情因子。舆情因子是指该类舆情信息中可能影响用户情感态度的因素。服务器根据舆情因子将替换后的一个或多个分词确定为目标关键词。
步骤210,获取影响对象类型对应的舆情分析模型,将提取到的目标关键词输入舆情分析模型,计算得到舆情信息对应的情感指数。
数据库中还存储了多种影响对象类型分别对应的舆情分析模型。舆情分析模型可以对机器学习分类模型训练得到的。具体的,服务器基于word2vec模型将多个目标关键词分别转化为对应的词向量,并对每个词向量添加对应的分类标签。词向量及对应的分类标签构成训练集,基于训练集对机器学习分类模型进行训练,得到舆情分析模型。需要说明的是,不同的影响对象类型对应的舆情分析模型是基于不同训练集以及机器学习分类模型训练得到的。机器学习分类模型可以是GBDT模型或XGBOOST模型等。
服务器将提取到的目标关键词输入相应影响对象类型对应的舆情分析模型,计算得到舆情信息对应的情感指数。
本实施例中,在预设平台可以爬取舆情信息对舆情信息拆分,可以得到多个短文本;根据确定的舆情信息对应的影响对象类型,可以获取影响对象类型对应的舆情因子和舆情分析模型;根据舆情因子可以在多个短文本中分别提取目标关键词;将提取到的目标关键词输入舆情分析模型,可以计算得到舆情信息对应的情感指数。自动进行舆情信息的爬取和分析,可以提高舆情分析效率;基于舆情信息预置多种影响对象类型,并预存储每种影响对象类型对应的舆情因子和舆情分析类型,在识别出爬取到的舆情信息对应的影响对象类型后,直接根据该影响对象类型对应的舆情因子和舆情分析模型可以实现舆情信息自动分析,可以及时高效的对舆情信息进行准确分析。
在一个实施例中,如图3所示,舆情分析模型的生成步骤包括:
步骤302,获取多个样本舆情信息以及每个样本舆情信息对应的类别标注。
步骤304,对各个样本舆情信息进行分词和同义扩展处理,得到每个样本舆情信息分别对应的扩展舆情信息集合。
步骤306,将每个扩展舆情信息集合转化为对应的特征向量。
步骤308,根据各个扩展舆情信息集合对应的特征向量和类别标注,通过支持向量机算法对初始模型进行训练,得到舆情分析模型。
训练样本数据可以是已发布的多种样本舆情信息。每种样本舆情信息都有对应的类别标注,用于描述样本舆情信息的实际类别。训练样本数据包括所有可能的类别对应的样本舆情信息,以保证各个类别确定的准确性。在一个具体的实施例中,训练样本数据包括476个样本舆情信息,类别标注总数为57。
服务器通过分词算法对各个训练样本信息进行分词得到各个词语,各个词语组成各个训练样本信息对应的原始训练词语集合。服务器获取每个原始训练词语的同义词,将原始训练词语与对应的同义词形成扩展训练词语集合。扩展训练词语集合包括多组
服务器先获取其中一个训练样本信息作为当前训练样本信息,获取当前训练样本信息对应的各个原始训练词语,获取各个原始训练词语对应的扩展训练词语集合,然后按与当前训练样本信息中各个原始训练词语出现的顺序,从各个原始训练词语对应的扩展训练词语集合中任意选择一个词语,按顺序形成一个扩展舆情信息。不同的扩展舆情信息组成扩展舆情信息集合。各个样本舆情信息都有对应的扩展舆情信息集合。在一个实施例中,服务器对各个原始训练词语对应的扩展训练词语集合求笛卡尔积,形成得到每个样本舆情信息分别对应的扩展舆情信息集合。
支持向量机算法是一种用来进行模式识别,模式分类的机器学习算法。支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,支持向量机算法在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类,支持向量机算法是一种有监督的训练方法。在一个实施例中,舆情分析模型由多个子模型连接形成。
本实施例中,对大量已发布舆情信息进行分词和同义扩展处理,处理得到的扩展舆情信息集合,大大提高了样本舆情信息的有效覆盖范围;将扩展舆情信息集合输入初始模型,并基于支持向量机算法对舆情分析模型进行训练,可提高舆情分析模型的分类精准性。
在一个实施例中,情感指数包括每个短文本对应的情感指数;如图4所示,该方法还包括舆情指数计算的步骤,具体包括:
步骤402,当影响对象类型为虚拟资源时,确定多个短文本分别对应的影响力权重;目标关键词包括资源标识。
步骤404,将资源标识与相应短文本相关联。
步骤406,根据相关的短文本的情感指数和影响力权重,计算相应资源标识对应的舆情指数。
每个舆情信息具有对应的简介信息,如发布时间、发布媒体、发布作者等。服务器基于舆情信息的简介信息,计算每个舆情信息的影响力权重。例如,影响力权重可以是时间权重、媒体权重与作者权重等的累加和。容易理解,同一舆情信息拆分得到的多个短文本对应的影响力权重相同。
服务器可以对虚拟资源、通信设备等多种影响对象类型的舆情信息进行分析。当影响对象类型为虚拟资源时,服务器计算得到的舆情信息的情感指数包括相应多个短文本分别对应的情感指数。服务器通过字典树(trie)算法在短文本中提取资源标识。资源标识可以是虚拟资源的名称或编号等。换言之,服务器在某些短文本中提取到的目标关键词包括资源标识。服务器在不同短文本中可以提取到相同或不同的资源标识。服务器将资源标识与相应短文本进行关联。容易理解,同一资源标识可能与来自多个舆情信息的多个短文本关联。服务器根据资源标识对应的短文本的情感指数以及对应影响力权重,计算相应虚拟资源的舆情指数。例如,每个资源标识对应的舆情指数可以是与该资源标识关联的全部短文本的情感指数的加权和,如资源A舆情指数=短文本11*影响力权重11+短文本12*影响力权重12+...+短文本21*影响力权重21。
本实施例中,结合舆情信息的影响力权重计算不同舆情信息对不同虚拟资源的影响,即舆情指数,可以提高舆情分析准确性。
在一个实施例中,如图5所示,该方法还包括资源获取策略生成的步骤,具体包括:
步骤502,接收终端发送的策略获取请求;策略获取请求包含用户标识。
步骤504,获取用户标识对应的用户信息,根据用户信息预测用户资源偏好。
步骤506,根据资源偏好和舆情指数,在虚拟资源池筛选预设数量虚拟资源。
步骤508,获取筛选得到的虚拟资源对应的属性信息。
步骤510,根据属性信息生成资源获取策略,将资源获取策略返回至终端。
若影响对象类型为虚拟资源,当接收到用户通过终端触发的策略获取请求时,服务器还可以根据计算得到的多个资源标识对应的舆情指数向终端返回资源获取策略。具体的,服务器根据策略获取请求写到的用户标识,获取对应的用户信息,根据用户信息预测用户的资源偏好。在一个实施例中,服务器根据用户信息建立用户画像,获取用户在舆情分析平台对一个或多个虚拟资源的浏览记录,根据用户画像和浏览记录确定用户的偏好矩阵,根据偏好矩阵预测用户的资源偏好。在另一个实施例中,服务器根据用户信息确定用户信息对应的用户类别,获取用户类别对应的资源列表。资源列表中记录了多个资源标识及每个资源标识对应的推荐热度值。服务器根据推荐热度值,预测与用户信息相匹配的资源标识。资源偏好包括一个或多个资源标识。
服务器获取资源偏好中资源标识对应的舆情指数,根据舆情指数在虚拟资源池中筛选预设数量的虚拟资源。预设数量可以是固定数量,也可以是动态变量。例如,筛选舆情指数超过阈值的一个或多个资源标识。阈值可以基于用户信息动态生成的,以充分考虑不同用户具有不同承受风险能力的因素。其中,虚拟资源池可以是用于存放多个虚拟资源的属性信息的存储模块,如数据库或消息队列等。不同资源发布方分别具有对应的资源池构建接口。服务器调用相应的资源池构建接口,按照预设时间频率在相应资源发布方服务器提取对应的虚拟资源的属性信息,将提取到的虚拟资源的属性信息存储至预先构建的虚拟资源池。
服务器读取筛选得到的资源标识对应的虚拟资源的属性信息。属性信息包括多个字段。服务器获取策略模板,利用读取到的属性信息进行模板填充,得到资源获取策略,将资源获取策略返回至终端。
传统的通过计算机获取虚拟资源时,用户可以在计算机平台基于不同获取逻辑获取自己满意的虚拟资源。然而,获取逻辑的设计则不仅需要用户具备相关领域背景,还需要用户具有编码能力,已经获取逻辑在计算机平台实现,使得虚拟资源获取门槛比较高。
本实施例中,用户只需要在终端触发策略获取请求,服务器即可自动根据用户信息以及计算得到的多个资源标识对应的舆情指数,自动生成对应的资源获取策略(即获取逻辑),不仅满足用户的个性化需求,同时降低用户变更虚拟资源获取逻辑的技术门槛,从而提高虚拟资源获取效率。
在一个实施例中,如图6所示,该方法还包括虚拟资源获取的步骤,具体包括:
步骤602,基于终端发送的资源获取请求,向终端返回配置页面;配置页面包括多个配置项。
步骤604,监测终端对配置项的配置操作,获取对应的配置参数。
步骤606,基于配置参数生成相应配置项对应的目标代码。
步骤608,将多个目标代码分别添加至模板代码,得到获取虚拟资源的执行代码。
步骤610,运行执行代码,在虚拟资源池中筛选与配置参数对应的虚拟资源。
步骤612,基于筛选得到的虚拟资源对应的舆情指数,对多个虚拟资源进行排序。
步骤614,根据排序将筛选得到的多个虚拟资源返回至终端。
若影响对象类型为虚拟资源,当接收到用户通过终端触发的资源获取请求时,服务器还可以根据计算得到的多个资源标识对应的舆情指数向终端返回虚拟资源。具体的,服务器根据资源获取请求向终端返回配置页面。配置页面包括多个配置项。配置项包括资源池过滤条件和资源筛选条件。其中,资源池过滤条件包括资源发布方的多种属性信息,如行业、规模等。资源筛选条件包括资源的多种指标信息,如技术指标或增值指标等。具体的构成资源筛选条件的指标内容和数量,用户可以根据需求自由增删。
用户可以在配置页面增删配置项,并对每个配置项分别进行配置,即设置配置项对应的配置参数,进而配置对应的资源获取策略。配置参数包括运算符、阈值或指标区间等。运算符可以是比较运算符。在另一个实施例中,全部或部分配置项在配置页面预置了对应的配置参数选项,用户只需从中选择即可完成配置,减少用户配置工作量,也提高配置效率。例如,配置项“行业”对应阈值的配置参数选项可以包括建筑、传媒、通信、银行等。在又一个实施例中,服务器按照上述方式基于资源获取请求生成推荐的资源获取策略,在配置页面展示该资源获取策略。换言之,配置页面中全部或部分配置项具有对应的初始配置参数,用户只需在初始配置参数基础上修改即可完成配置,减少用户配置工作量,进一步提高配置效率。
服务器在数据库存储了每个配置项对应的基础代码。服务器捕获用户在终端对配置页面的配置操作,基于配置操作对应的配置参数对基础代码进行更新,得到对应的目标代码。
数据库中还预先存储了模板代码。模板代码是能够实现虚拟资源获取的基本逻辑代码。换言之,模块代码包括不同执行代码中均会用到的相同的部分代码。配置不同虚拟资源获取逻辑采用的模板代码可以相同,也可以不同。模板代码包括配置页面中每个配置项对应的标签。标签用于记录相应配置项对应目标代码在模板代码中的填充位置。需要说明的是,初始的模板代码中每个标签均处于无效状态,例如作为注释部分存放在模板代码中。
当监听到对某个配置项的配置操作时,服务器在初始的模板代码中将相应配置项对应的标签激活。激活的方式可以是将标签前后的注释标志删除,使标签转化为可执行语句。服务器将该标签替换为相应的目标代码。当用户完成获取逻辑的配置,即完成对关注的多个配置项的配置操作时,按照上述方式将每个配置项对应目标代码均已添加至模板代码中,得到该获取逻辑对应的执行代码。
服务器运行上述执行代码,基于执行代码蕴含的获取逻辑确定满足用户配置的资源池过滤条件的资源发布方。在另一个实施例中,可以将满足资源池过滤条件的资源发布方对应的虚拟资源的属性信息提取出来,单独形成子资源池。基于执行代码蕴含的获取逻辑,在子资源池中筛选满足用户配置的资源筛选条件的虚拟资源,将筛选得到的虚拟资源的属性信息返回至终端。
本实施例中,由于用户可以基于配置页面对不同配置项进行配置操作,进而自定义虚拟资源的获取逻辑,可以提高虚拟资源获取灵活性;此外,根据用户自定义的获取逻辑自动生成对应的执行代码,减少开发人员编写代码的工作量,从而提高虚拟资源获取效率。
在一个实施例中,向终端返回配置页面,包括:获取用户信息,根据用户信息建立用户画像,获取用户的浏览记录;根据用户画像和浏览记录确定用户的偏好矩阵;根据偏好矩阵预测用户的资源偏好;根据资源偏好预测多个配置项分别对应的初始配置参数;根据多个配置项及分别对应的初始配置参数,生成配置页面。
为了减少用户在配置页面对每个配置项逐一进行配置的负担,服务器预先根据用户信息向用户进行虚拟资源推荐,并将推荐的虚拟资源的属性信息展示在配置页面。换言之,配置页面中多个配置项分别具有对应的初始配置参数,用户可以在初始配置参数基础上进行获取逻辑配置,提高配置效率。
传统的主要通过协同过滤技术进行虚拟资源推荐。协同过滤技术是根据用户进行虚拟资源转移的历史情况去推荐。虚拟资源转移是指将资金资源进行转换,获取与该资金资源等值的虚拟资源。但是对于新用户来说往往面临冷启动问题,很难得到精确的推荐,并且对于有些虚拟资源用户的兴趣可能是一次性的,如果只是根据用户进行虚拟资源转移的历史情况进行推荐,推荐的准确率往往不高。
为了提高虚拟资源推荐准确率,服务器根据用户录入的用户标识获取对应的用户信息。用户标识可以是平台账号等。用户信息多个标签信息。标签信息包括用户的年龄、性别、职业、婚姻状况、文化程度、职业、财产保障、健康状况等属性。服务器将获取的多个标签信息组成为一个文本向量,将组成的文本向量作为该用户的用户画像。用户画像作为实际用户的虚拟代表,其往往是根据产品和市场来构建出来的,反应了真实用户的特征和需求。
服务器还捕获用户的浏览记录。用户的浏览记录可以是对某虚拟资源的点击操作或查询操作。例如,可以将浏览记录设为是否点选过某虚拟资源,如果点选了则为1,如果没有点选则为0。当然也可以同时将用户对多个虚拟资源的点选情况或者浏览情况作为浏览记录。
服务器根据用户画像和浏览记录确定用户的偏好矩阵。具体的,通过将用户画像和浏览记录一起组合为一个长的文本向量,将该文本向量作为一个输入变量代入随机森林模型,进而预测用户期望获取到各类虚拟资源的概率。比如,假设目前虚拟资源池有100个虚拟资源(A1到A100),我们需要根据用户画像和用户的浏览记录预测用户期望获取各个虚拟资源的概率。
服务器根据期望得到虚拟资源的概率得到用户的偏好矩阵。对于每个用户来说,都满足P(A2)+P(A3)+…+P(An)=1。接下来,依次考虑点选了A2虚拟资源之后可能的获取概率,生成如上表所示的概率表,依次类推,直到建立100个虚拟资源(A1-A100)的随机森林模型,最终根据建立的随机森林模型得到用户期望得到各虚拟资源的偏好矩阵。采用随机森林的算法预测用户的偏好矩阵是通过以已有下一步获取行为的用户作为样本来预测的。换言之,该方法是结合整体人群的概率、个人属性和当前状态来进行推荐的,提高了推荐的准确率。
服务器根据偏好矩阵得到用户的感兴趣列表,这里的感兴趣列表可以是该用户对各类虚拟资源感兴趣的概率,也可以是经过感兴趣的概率筛选得到的用户感兴趣的虚拟资源,也可以是能够体现用户资源偏好的其他表现形式。服务器根据该用户的感兴趣列表中一个或多个虚拟资源的属性信息确定预测配置页面中多个配置项分别对应的初始配置参数。例如,将预测的用户可能最感兴趣的一个虚拟资源的属性信息写入配置页面。服务器根据多个配置项及分别对应的初始配置参数,生成并展示配置页面。
本实施例中,预先根据用户信息向用户进行虚拟资源推荐,并将推荐的虚拟资源的属性信息展示在配置页面,减少用户在配置页面对每个配置项逐一进行配置的负担,提高虚拟资源获取效率。
在一个实施例中,向终端返回配置页面,包括:获取用户信息,确定用户信息对应的用户类别;获取用户类别对应的资源列表;资源列表中记录了多个资源标识及每个资源标识对应的推荐热度值;根据推荐热度值,预测与用户信息相匹配的目标资源标识;根据目标资源标识对应的资源信息,确定多个配置项分别对应的初始配置参数;根据多个配置项及分别对应的初始配置参数,生成配置页面。
为了减少用户在配置页面对每个配置项逐一进行配置的负担,服务器预先根据用户信息向用户进行虚拟资源推荐,并将推荐的虚拟资源的属性信息展示在配置页面。本实施例服务器根据用户类别进行虚拟资源推荐。具体的,用户类别是指预先根据用户信息划分的类别。不同用户类别所对应的感兴趣的虚拟资源不同。根据当前用户的用户信息(以下简称“当前用户信息”)与样本用户的用户信息之间的相似度确定与当前用户信息对应的用户类别,为了与一般的用户类别进行区分,称为“目标用户类别”。
相似度的计算可以采用距离度量的方式,比如,可以采用欧式距离,也可以采用曼哈顿距离。在一个实施例中,相似度的计算是根据当前用户的用户信息对应的当前用户特征向量与用户信息对应的客户特征向量之间的距离计算得到的。为了计算相似度,首先,需要获取与当前用户信息对应的当前用户特征向量。当前用户特征向量是指将各个用户信息的指标转换为可以衡量的数字表示的形式。比如,年龄可以直接用实际的年龄数字表示,性别分别采用0表示女,1表示男,婚姻状况可以分为未婚、已婚、离异三种状态,分别采用1、2和3表示。健康状况可以简单分为健康、不健康以及亚健康三种状态,当然也可以细分为0-100的健康数值。职业按照行业类别分为多个类,并设置每一类对应的数字。在另一个实施例中,相似度也可以通过获取用户信息中每个元素与样本用户的用户信息相应元素之间的相似度,然后进行加权求和得到的。
服务器获取目标用户类别对应的资源列表,资源列表中记录了每个待推荐虚拟资源对应的推荐热度值。其中,资源列表是与用户类别对应的,不同的用户类别对应不同的待推荐虚拟资源类别,资源列表中记录了每个待推荐虚拟资源对应的推荐热度值。推荐热度值反映了用户对待推荐虚拟资源的感兴趣程度,推荐热度值与用户的感兴趣程度成正相关,即推荐热度值越大,表明待推荐虚拟资源所对应的感兴趣程度越大。在一个实施例中,推荐热度值是动态变化的。
服务器根据资源列表中各个待推荐虚拟资源的推荐热度值确定与当前用户信息对应的目标资源标识。在其中一个实施例中,将资源列表中的待推荐虚拟资源按照推荐热度值从大到小进行排序,获取前预设个数的待推荐虚拟资源的资源标识作为目标资源标识。服务器根据目标资源标识对应虚拟资源的属性信息确定预测配置页面中多个配置项分别对应的初始配置参数。服务器根据多个配置项及分别对应的初始配置参数,生成并展示配置页面。
本实施例中,预先根据用户信息向用户进行虚拟资源推荐,并将推荐的虚拟资源的属性信息展示在配置页面,减少用户在配置页面对每个配置项逐一进行配置的负担,提高虚拟资源获取效率。此外,根据用户信息确定用户类别,根据用户类别所对应的资源列表中待推荐虚拟资源对应的推荐热度值进行推荐,即有针对性地对用户进行推荐,提高推荐的准确度,减少推荐资源的浪费。
应该理解的是,虽然图2~6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2~6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种舆情分析系统,包括:服务器702和终端704,其中:
服务器702,用于在预设平台爬取舆情信息;确定舆情信息对应的影响对象类型;获取影响对象类型对应的舆情因子,根据舆情因子在舆情信息中提取目标关键词;获取影响对象类型对应的舆情分析模型,将提取到的目标关键词输入舆情分析模型,计算得到舆情信息对应的情感指数;当影响对象类型为虚拟资源时,获取舆情信息的影响力权重;基于情感指数和影响力权重计算相应虚拟资源对应的舆情指数;基于终端发送的资源获取请求,向终端返回配置页面。
终端704,用于获取在配置页面录入的配置参数。
服务器702还用于基于配置参数在虚拟资源池中筛选虚拟资源;基于筛选得到的虚拟资源对应的舆情指数对多个虚拟资源排序,根据排序将筛选得到的多个虚拟资源返回至终端。
在一个实施例中,服务器702还用于获取多个样本舆情信息以及每个样本舆情信息对应的类别标注;对各个样本舆情信息进行分词和同义扩展处理,得到每个样本舆情信息分别对应的扩展舆情信息集合;将每个扩展舆情信息集合转化为对应的特征向量;根据各个扩展舆情信息集合对应的特征向量和类别标注,通过支持向量机算法对初始模型进行训练,得到舆情分析模型。
在一个实施例中,情感指数包括每个短文本对应的情感指数;服务器702还用于当影响对象类型为虚拟资源时,确定多个短文本分别对应的影响力权重;目标关键词包括资源标识;将资源标识与相应短文本相关联;根据相关的短文本的情感指数和影响力权重,计算相应资源标识对应的舆情指数。
在一个实施例中,服务器702还用于接收终端发送的策略获取请求;策略获取请求包含用户标识;获取用户标识对应的用户信息,根据用户信息预测用户的资源偏好;根据资源偏好和舆情指数,在虚拟资源池筛选预设数量的虚拟资源;获取筛选得到的虚拟资源对应的属性信息;根据属性信息生成资源获取策略,将资源获取策略返回至终端。
在一个实施例中,服务器702还用于基于终端发送的资源获取请求,向终端返回配置页面;配置页面包括多个配置项;监测终端对配置项的配置操作,获取对应的配置参数;基于配置参数生成相应配置项对应的目标代码;将多个目标代码分别添加至模板代码,得到获取虚拟资源的执行代码;运行执行代码,在虚拟资源池中筛选与配置参数对应的虚拟资源;基于筛选得到的虚拟资源对应的舆情指数,对多个虚拟资源进行排序;根据排序将筛选得到的多个虚拟资源返回至终端。
在一个实施例中,服务器702还用于获取用户信息,根据用户信息建立用户画像,获取用户的浏览记录;根据用户画像和浏览记录确定用户的偏好矩阵;根据偏好矩阵预测用户的资源偏好;根据资源偏好预测多个配置项分别对应的初始配置参数;根据多个配置项及分别对应的初始配置参数,生成配置页面。
在一个实施例中,服务器702还用于获取用户信息,确定用户信息对应的用户类别;获取用户类别对应的资源列表;资源列表中记录了多个资源标识及每个资源标识对应的推荐热度值;根据推荐热度值,预测与用户信息相匹配的目标资源标识;根据目标资源标识对应的资源信息,确定多个配置项分别对应的初始配置参数;根据多个配置项及分别对应的初始配置参数,生成配置页面。
关于舆情分析系统的具体限定可以参见上文中对于舆情分析方法的限定,在此不再赘述。上述舆情分析系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多种影响对象类型以及每种影响对象类型对应的舆情因子和舆情分析模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舆情分析方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在预设平台爬取舆情信息;确定舆情信息对应的影响对象类型;对舆情信息拆分,得到多个短文本;获取影响对象类型对应的舆情因子,根据舆情因子在多个短文本中分别提取目标关键词;获取影响对象类型对应的舆情分析模型,将提取到的目标关键词输入舆情分析模型,计算得到舆情信息对应的情感指数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取多个样本舆情信息以及每个样本舆情信息对应的类别标注;对各个样本舆情信息进行分词和同义扩展处理,得到每个样本舆情信息分别对应的扩展舆情信息集合;将每个扩展舆情信息集合转化为对应的特征向量;根据各个扩展舆情信息集合对应的特征向量和类别标注,通过支持向量机算法对初始模型进行训练,得到舆情分析模型。
在一个实施例中,情感指数包括每个短文本对应的情感指数;处理器执行计算机程序时还实现以下步骤:当影响对象类型为虚拟资源时,确定多个短文本分别对应的影响力权重;目标关键词包括资源标识;将资源标识与相应短文本相关联;根据相关的短文本的情感指数和影响力权重,计算相应资源标识对应的舆情指数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收终端发送的策略获取请求;策略获取请求包含用户标识;获取用户标识对应的用户信息,根据用户信息预测用户的资源偏好;根据资源偏好和舆情指数,在虚拟资源池筛选预设数量的虚拟资源;获取筛选得到的虚拟资源对应的属性信息;根据属性信息生成资源获取策略,将资源获取策略返回至终端。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于终端发送的资源获取请求,向终端返回配置页面;配置页面包括多个配置项;监测终端对配置项的配置操作,获取对应的配置参数;基于配置参数生成相应配置项对应的目标代码;将多个目标代码分别添加至模板代码,得到获取虚拟资源的执行代码;运行执行代码,在虚拟资源池中筛选与配置参数对应的虚拟资源;基于筛选得到的虚拟资源对应的舆情指数,对多个虚拟资源进行排序;根据排序将筛选得到的多个虚拟资源返回至终端。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在预设平台爬取舆情信息;确定舆情信息对应的影响对象类型;对舆情信息拆分,得到多个短文本;获取影响对象类型对应的舆情因子,根据舆情因子在多个短文本中分别提取目标关键词;获取影响对象类型对应的舆情分析模型,将提取到的目标关键词输入舆情分析模型,计算得到舆情信息对应的情感指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取多个样本舆情信息以及每个样本舆情信息对应的类别标注;对各个样本舆情信息进行分词和同义扩展处理,得到每个样本舆情信息分别对应的扩展舆情信息集合;将每个扩展舆情信息集合转化为对应的特征向量;根据各个扩展舆情信息集合对应的特征向量和类别标注,通过支持向量机算法对初始模型进行训练,得到舆情分析模型。
在一个实施例中,情感指数包括每个短文本对应的情感指数;计算机程序被处理器执行时还实现以下步骤:当影响对象类型为虚拟资源时,确定多个短文本分别对应的影响力权重;目标关键词包括资源标识;将资源标识与相应短文本相关联;根据相关的短文本的情感指数和影响力权重,计算相应资源标识对应的舆情指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收终端发送的策略获取请求;策略获取请求包含用户标识;获取用户标识对应的用户信息,根据用户信息预测用户的资源偏好;根据资源偏好和舆情指数,在虚拟资源池筛选预设数量的虚拟资源;获取筛选得到的虚拟资源对应的属性信息;根据属性信息生成资源获取策略,将资源获取策略返回至终端。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于终端发送的资源获取请求,向终端返回配置页面;配置页面包括多个配置项;监测终端对配置项的配置操作,获取对应的配置参数;基于配置参数生成相应配置项对应的目标代码;将多个目标代码分别添加至模板代码,得到获取虚拟资源的执行代码;运行执行代码,在虚拟资源池中筛选与配置参数对应的虚拟资源;基于筛选得到的虚拟资源对应的舆情指数,对多个虚拟资源进行排序;根据排序将筛选得到的多个虚拟资源返回至终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。