CN110020159B - 基于数据特征的舆情分析方法和系统 - Google Patents
基于数据特征的舆情分析方法和系统 Download PDFInfo
- Publication number
- CN110020159B CN110020159B CN201711307180.8A CN201711307180A CN110020159B CN 110020159 B CN110020159 B CN 110020159B CN 201711307180 A CN201711307180 A CN 201711307180A CN 110020159 B CN110020159 B CN 110020159B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- event
- category
- events
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本发明提供了基于数据特征的舆情分析方法和系统,涉及数据分析技术领域,包括获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。
Description
技术领域
本发明涉及数据分析技术领域,尤其是涉及基于数据特征的舆情分析方法和系统。
背景技术
随着信息技术的不断发展,网络信息的舆情分析进入大众视野,通过舆情分析能够获知用户对网络信息的喜爱程度,因此现今舆情分析方法受到广泛关注。
但是,现有技术中的网络舆情分析方法通过事件数据的关联匹配,导致所查找的事件下数据较杂,数据量众多,且在此查找关联的过程中,操作繁琐复杂。
发明内容
有鉴于此,本发明的目的在于提供基于数据特征的舆情分析方法和系统,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。
第一方面,本发明实施例提供了基于数据特征的舆情分析方法,包括:
获取用户终端发送的舆情分析请求,并根据所述舆情分析请求分别筛选预设事件类和所述预设事件类中的事件,所述舆情分析请求中包括至少一个检索目标;
根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别;
获取各个所述类别的数据特征,其中,所述数据特征用于表征所述用户终端对应用户对舆情信息的关心情况。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别包括:
将所述检索目标按照预设顺序进行排序;
于所述预设事件类中分别抽取所述事件;
将抽取的所述事件依次与所述检索目标进行比较验证,并在验证成功的情况下归入所述检索目标所在的类别,其中,所述检索目标包括标题、正文、信息类型和信息出处中的一种或几种。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,获取各个所述类别的数据特征包括:
获取各个所述类别的转载特征值;
将各个所述类别下的议题包含的事件数进行比较,选取最大的所述事件数作为各个所述类别的事件数特征值;
获取各个所述类别的金句特征值;
将所述转载特征值、所述事件数特征值和所述金句特征值进行加和,得到各个所述类别的所述数据特征。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述获取各个所述类别的转载特征值包括,重复执行以下处理,直至所述预设事件类中的所述类别都被遍历:
获取所述类别下各个所述事件单位时间内的转载量;
将所述转载量按照数值大小进行排重排行,选取第一排名的所述转载量作为转载特征值。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述将各个所述类别下的议题包含的事件数进行比较,选取最大的所述事件数作为各个所述类别的事件数特征值包括:
按照聚类实现算法在各个所述类别下提取议题;
获取各个所述议题包含的事件数;
将所述事件数按照数值大小进行排重排行,选取第一排名的所述事件数作为各个所述类别的事件数特征值。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述获取各个所述类别的金句特征值包括,重复执行以下处理,直至所述预设事件类中的所述类别都被遍历:
按照预设规则将所述类别下各个所述事件中句子拆分为单元句;
统计各个所述单元句出现的次数;
将大于重要性阈值的次数按照数值大小进行排重排行,选取第一排名的所述次数作为金句特征值。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述获取用户终端发送的舆情分析请求,并根据所述舆情分析请求筛选预设事件类和所述预设事件类中的事件包括:
获取用户终端发送的舆情分析请求,其中,所述舆情分析请求还包括筛选规则和至少一个第一关键词;
基于所述至少一个第一关键词查找与所述至少一个第一关键词对应的预设事件类;
根据所述筛选规则对所述预设事件类中包含有所述第一关键词的事件进行筛选,得到筛选后的所述事件,所述筛选规则包括逻辑运算与、或、非和事件时间范围中的一种或几种。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述基于所述至少一个第一关键词查找与所述至少一个第一关键词对应的预设事件类包括:
判断所述至少一个第一关键词与所述至少四个第二关键词中的任意一个第二关键词是否匹配;
在为是时,基于所述至少四个第二关键词与所述预设事件类的映射关系查找与所述至少一个第一关键词对应的预设事件类。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,在所述获取用户终端发送的舆情分析请求之前,还包括:
获取具有影响力的事件,将所述事件进行配置生成所述事件对应的事件类;
将所述事件类进行存储作为所述预设事件类;
在所述预设事件类下配置至少四个第二关键词,并生成所述至少四个第二关键词和所述预设事件类的映射关系。
第二方面,本发明实施例还提供基于数据特征的舆情分析系统,包括:
筛选模块,用于获取用户终端发送的舆情分析请求,并根据所述舆情分析请求分别筛选预设事件类和所述预设事件类中的事件,所述舆情分析请求中包括至少一个检索目标;
分类模块,用于根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别;
数据特征获取模块,用于获取各个所述类别的数据特征,其中,所述数据特征用于表征所述用户终端对应用户对舆情信息的关心情况。
本发明提供了基于数据特征的舆情分析方法和系统,包括获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于数据特征的舆情分析方法流程图;
图2为本发明实施例提供的基于数据特征的舆情分析方法中步骤S130的方法流程图;
图3为本发明实施例提供的又一种基于数据特征的舆情分析方法流程图;
图4为本发明实施例提供的基于数据特征的舆情分析系统功能模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中的网络舆情分析方法通过事件数据的关联匹配,导致所查找的事件下数据较杂,数据量众多,且在此查找关联的过程中,操作繁琐复杂。
基于此,本发明实施例提供的基于数据特征的舆情分析方法和系统,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。
为便于对本实施例进行理解,首先对本发明实施例所公开的基于数据特征的舆情分析方法进行详细介绍,
图1为本发明实施例提供的基于数据特征的舆情分析方法流程图。
参照图1,基于数据特征的舆情分析方法包括以下步骤:
步骤S110,获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;
步骤S120,根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;
步骤S130,获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况。
具体地,根据用户终端发送的请求筛选出符合条件的预设事件类,并将预设事件类终端事件也同时进行筛选,再通过设定的检索目标将预设事件类中的事件进行分类,进行获取每个类别的数据特征,通过对数据特征的分析,就能够在操作简便快捷的基础上,准确获知人们对网络舆情信息的关注情况。
其中,一般来说,数据特征的数值越大,表明人们对该分类的网络舆情信息关注度越高;
进一步的,根据上述实施例提到的基于数据特征的舆情分析方法,步骤S120还可用以下步骤实现,包括:
步骤S210,将检索目标按照预设顺序进行排序;
步骤S220,于预设事件类中分别抽取事件;
步骤S230,将抽取的事件依次与检索目标进行比较验证,并在验证成功的情况下归入检索目标所在的类别,其中,检索目标包括标题、正文、信息类型和信息出处中的一种或几种。
具体地,标题指事件标题,正文指事件正文;信息类型包括国内新闻、国外新闻、国内网民、国外网民等;信息出处包括新闻、纸媒、电脑客户端、手机App、微博、微信等;
其中事件的类型包括:标题、正文、国内新闻、国外新闻、国内网民、国外网民、新闻、纸媒、电脑客户端、手机App、微博、微信等其中至少一种,将事件类型与按照顺序排列好的检索目标进行一一比较验证,同时每件事件只能分配至唯一的分类中,即当此事件同时满足多个检索目标时,以他第一个比较验证成功的为准,此事件仅归入第一个比较验证成功的那个分类中,但可依据检索目标的更改或预设顺序的更改调整事件的分类;
例如:以信息出处中的微信为检索目标,检索结果会将信息出处为微信的所有事件分为一类,如已将为流浪猫搭建豪华别墅遮风挡雨分至标题类则不会在将该事件分配至其他类别中,但如此时重新设定检索目标为以信息类型,该事件可调整至国内新闻分类中。
进一步的,如图2所述,步骤S130还可用以下步骤实现,包括:
步骤S310,获取各个类别的转载特征值;
步骤S320,将各个类别下的议题包含的事件数进行比较,选取最大的事件数作为各个类别的事件数特征值;
步骤S330,获取各个类别的金句特征值;
步骤S340,将转载特征值、事件数特征值和金句特征值进行加和,得到各个类别的数据特征。
进一步的,步骤S310还可用以下步骤实现,包括,重复执行以下处理,直至预设事件类中的类别都被遍历:
步骤S410,获取类别下各个事件单位时间内的转载量;
步骤S420,将转载量按照数值大小进行排重排行,选取第一排名的转载量作为转载特征值。
具体地,针对分类后的同一类别下的事件,通过对事件原文的转发次数进行统计,并按照单位时间内信息转载数量值的大小进行排重(倒序)排行,转载量最多的事件的转载次数即为转载特征值β;
这里,针对分类后数据,按舆情信息转载数据进行统计,转载次数最多者,排名越靠前,例如在标题分类下,事件1:为流浪猫搭建豪华别墅遮风挡雨,转载次数:198次;事件2:关注高校流浪猫盲目的爱心也是伤害,转载次数:79次;事件3:西安体院退休教师办流浪猫影展,转载次数:37次;事件4:寒冷街头上演暖心一幕女司机淋雨救出流浪猫不留名,转载次数:81次;将转载数量进行(倒序)排行,转载量最多的事件次数即为β,即为流浪猫搭建豪华别墅遮风挡雨,转载次数:198次,198为β。
进一步的,步骤S320还可用以下步骤实现,包括:
步骤S510,按照聚类实现算法在各个类别下提取议题;
步骤S520,获取各个议题包含的事件数;
步骤S530,将事件数按照数值大小进行排重排行,选取第一排名的事件数作为各个类别的事件数特征值。
这里,通过应用聚类实现算法对同一分类下的相似事件进行提取,设为同分类下的议题,一个分类下设定一个议题,不同的分类,设置的议题一般不相同,同一议题下的所包含事件数量为γ;
具体地,根据同一分类下事件的摘要、场景,通过聚类实现算法进行相似事件的合并,形成议题,例如:“流浪猫”事件类下,通过检索目标的分类,将标题分类下的事件“为流浪猫遮风挡雨”,暖心!“90后”小伙用纸盒为流浪猫搭“豪华别墅”、“为流浪猫搭建别墅遮风挡雨”通过聚类实现算法,合并为同一议题,可将议题重新命名为:90后小伙用快递箱为流浪猫搭“豪华别墅”,此议题包括3个事件,又如将“流浪动物”事件类下,通过检索目标分类,将标题分类下的呼吁大学生在校不养宠、“盲目的爱心也是伤害”为合并议题,也可将议题名称缺省,此议题为2个事件,因此,“流浪猫”事件类下,各个类别的议题包含事件数,即事件数特征值γ为3。
进一步的,步骤S330还可用以下步骤实现,包括,重复执行以下处理,直至预设事件类中的类别都被遍历:
步骤S610,按照预设规则将类别下各个事件中句子拆分为单元句;
步骤S620,统计各个单元句出现的次数;
步骤S630,将大于重要性阈值的次数按照数值大小进行排重排行,选取第一排名的次数作为金句特征值。
这里,通过金句分析模型从正文或者标题中提取句子,根据分析的句子出现的次数,进行统计排序,次数出现概率越多,排名越靠前,即为重要的句子,句子的重要性随着排序的下降而下降。
具体地,上述金句排序,在提取句子时,统计语句次数是根据事件正文或标题部分中的内容根据预设规则(标点或者空格)划分成若干单元句,
δs为预先设置的最小句子重要性阈值,剔除出现次数小于δs的句子,对于出现次数超过δ的句子,按照出现次数进行排名;
例如:给流浪猫一个家。小区的居民纷纷为猫"别墅"点赞,还有不少人带着孩子和猫粮、玩具等前来与流浪猫互动。在其分类中共出现次数为1659次;流浪猫躲在快递盒子里取暖,出现1611次;把小区居民们拆下来的各种快递盒子进行了一番设计改造和拼装,变成了一个可以为流浪猫遮风挡雨的温暖小窝,出现次数:1500;则金句为:给流浪猫一个家。小区的居民纷纷为猫"别墅"点赞,还有不少人带着孩子和猫粮、玩具等前来与流浪猫互动。其中该分类下的金句特征值λ为:1659。
根据该分类下获取的各个数值,统计该分类数据特征值:D=β+γ+λ,将不同分类下的事件进行分析分类处理,D为分析后数据特征,其中,β为转载特征值,γ为事件数特征值,λ为金句特征值,D属性为用户对舆情信息的关注情况,如上述例子,该分类下用户对舆情信息的关注情况为:D=β(198次)+γ(3次)+λ(1659次)。
进一步的,步骤S110还包括以下步骤:
步骤S710,获取用户终端发送的舆情分析请求,其中,舆情分析请求还包括筛选规则和至少一个第一关键词;
步骤S720,基于至少一个第一关键词查找与至少一个第一关键词对应的预设事件类;
步骤S730,根据筛选规则对预设事件类中包含有第一关键词的事件进行筛选,得到筛选后的事件,筛选规则包括逻辑运算与、或、非和事件时间范围中的一种或几种。
具体地,筛选规则中的逻辑运算设置为:包含、或者包含、不包含,筛选含有此第一关键词的事件,完成事件的分类,
例如,关键词规则的设定模式为:A+B/C/D-E-F,说明:必须包含A和B、不包含E且不包含F或者必须包含A和C、不包含E且不包含F或者必须包含A和D、不包含E且不包含F。
通过筛选规则对事件类中的不同事件的正文或标题所含的第一关键词和事件时间范围,进行筛选;
以第一关键词作为标准,筛选事件是否具有该第一关键词,第一关键词例如:流浪/动物/别墅/爱心/高校等。
事件时间范围为发生该事件的时间范围,即某个事件发生讨论的时间段。
进一步的,步骤S720还可用以下步骤实现:
步骤S810,判断至少一个第一关键词与至少四个第二关键词中的任意一个第二关键词是否匹配;
步骤S820,在为是时,基于至少四个第二关键词与预设事件类的映射关系查找与至少一个第一关键词对应的预设事件类。
进一步的,在步骤S110之前,方法还包括:
步骤S910,获取具有影响力的事件,将事件进行配置生成事件对应的事件类;
步骤S920,将事件类进行存储作为预设事件类;
步骤S930,在预设事件类下配置至少四个第二关键词,并生成至少四个第二关键词和预设事件类的映射关系。
具体地,根据业务需求输入具有影响力的事件类,进行事件类的配置,形成诸多重大的事件主题发现机制。事件类例如:流浪猫、流浪动物、为流浪猫遮风挡雨等,
根据所关注的事件类,在对应的事件类下配置关键词筛选规则,其中至少设置4个第二关键词,第二关键词之间设有逻辑关系,其中逻辑关系至少包括与/或,利用正则表达式定义规则描述第二关键词,将第二关键词进行编号,将事件类与第二关键词编号根据检索标准进行匹配,可通过自定义开始时间与结束时间进行限定(事件时间范围),同时可自定义多组第二关键词进行匹配,最终形成事件类与第二关键词的映射表;
完成配置后,可通过人工控制第一关键词与第二关键词进行匹配,将所命中的预设事件类存储至业务存储中。
图3为本发明实施例提供的又一种基于数据特征的舆情分析方法流程图。
参照图3,获取用户终端发送的舆情分析请求,通过第一关键词在众多预设事件类中检索出预设事件类,再通过舆情分析请求中预先设置的筛选规则将预设事件类中的事件进行筛选,然后经检索目标将事件分成多个类别,获取每个类别下各个事件的转载特征值和金句特征值,再通过聚类实现算法将每个类别下的事件进行处理得到多个议题(将不符合算法规则的事件筛掉),统计每个议题所包含的事件数,将包含的事件数最多值作为每个类别的事件数特征值,再将每个类别各自的转载特征值、金句特征值和事件数特征值相加,得到各个类别的数据特征,根据每个类别的数据特征就能够准确获取用户对网络舆情信息的关注情况;
这里,实际的类别、事件数众多,图3中数值仅为一种举例说明;
进一步的,参照图4,本发明实施例还提供了基于数据特征的舆情分析系统,包括:
筛选模块,用于获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;
分类模块,用于根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;
数据特征获取模块,用于获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况。
本发明实施例提供的基于数据特征的舆情分析系统,与上述实施例提供的基于数据特征的舆情分析方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的基于数据特征的舆情分析方法、装置以及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的基于数据特征的舆情分析方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的基于数据特征的舆情分析方法的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于数据特征的舆情分析方法,其特征在于,包括:
获取用户终端发送的舆情分析请求,并根据所述舆情分析请求分别筛选预设事件类和所述预设事件类中的事件,所述舆情分析请求中包括至少一个检索目标;
根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别;
获取各个所述类别的数据特征,其中,所述数据特征用于表征所述用户终端对应用户对舆情信息的关心情况;
获取各个所述类别的数据特征包括:
获取各个所述类别的转载特征值;
将各个所述类别下的议题包含的事件数进行比较,选取最大的所述事件数作为各个所述类别的事件数特征值;
获取各个所述类别的金句特征值;
将所述转载特征值、所述事件数特征值和所述金句特征值进行加和,得到各个所述类别的所述数据特征;
所述获取各个所述类别的金句特征值包括,重复执行以下处理,直至所述预设事件类中的所述类别都被遍历:
按照预设规则将所述类别下各个所述事件中句子拆分为单元句;
统计各个所述单元句出现的次数;
将大于重要性阈值的次数按照数值大小进行排重排行,选取第一排名的所述次数作为金句特征值,所述排重排行为转载次数越多者,排名越靠前。
2.根据权利要求1所述的基于数据特征的舆情分析方法,其特征在于,所述根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别包括:
将所述检索目标按照预设顺序进行排序;
于所述预设事件类中分别抽取所述事件;
将抽取的所述事件依次与所述检索目标进行比较验证,并在验证成功的情况下归入所述检索目标所在的类别,其中,所述检索目标包括标题、正文、信息类型和信息出处中的一种或几种。
3.根据权利要求1所述的基于数据特征的舆情分析方法,其特征在于,所述获取各个所述类别的转载特征值包括,重复执行以下处理,直至所述预设事件类中的所述类别都被遍历:
获取所述类别下各个所述事件单位时间内的转载量;
将所述转载量按照数值大小进行排重排行,选取第一排名的所述转载量作为转载特征值。
4.根据权利要求1所述的基于数据特征的舆情分析方法,其特征在于,所述将各个所述类别下的议题包含的事件数进行比较,选取最大的所述事件数作为各个所述类别的事件数特征值包括:
按照聚类实现算法在各个所述类别下提取议题;
获取各个所述议题包含的事件数;
将所述事件数按照数值大小进行排重排行,选取第一排名的所述事件数作为各个所述类别的事件数特征值。
5.根据权利要求1所述的基于数据特征的舆情分析方法,其特征在于,所述获取用户终端发送的舆情分析请求,并根据所述舆情分析请求筛选预设事件类和所述预设事件类中的事件包括:
获取用户终端发送的舆情分析请求,其中,所述舆情分析请求还包括筛选规则和至少一个第一关键词;
基于所述至少一个第一关键词查找与所述至少一个第一关键词对应的预设事件类;
根据所述筛选规则对所述预设事件类中包含有所述第一关键词的事件进行筛选,得到筛选后的所述事件,所述筛选规则包括逻辑运算与、或、非和事件时间范围中的一种或几种。
6.根据权利要求5所述的基于数据特征的舆情分析方法,其特征在于,所述基于所述至少一个第一关键词查找与所述至少一个第一关键词对应的预设事件类包括:
判断所述至少一个第一关键词与至少四个第二关键词中的任意一个第二关键词是否匹配;
在为是时,基于所述至少四个第二关键词与所述预设事件类的映射关系查找与所述至少一个第一关键词对应的预设事件类。
7.根据权利要求1所述的基于数据特征的舆情分析方法,其特征在于,在所述获取用户终端发送的舆情分析请求之前,还包括:
获取具有影响力的事件,将所述事件进行配置生成所述事件对应的事件类;
将所述事件类进行存储作为所述预设事件类;
在所述预设事件类下配置至少四个第二关键词,并生成所述至少四个第二关键词和所述预设事件类的映射关系,所述映射关系通过将第二关键词进行编号,将所述预设事件类与第二关键词编号根据检索标准进行匹配得到。
8.一种基于数据特征的舆情分析系统,其特征在于,包括:
筛选模块,用于获取用户终端发送的舆情分析请求,并根据所述舆情分析请求分别筛选预设事件类和所述预设事件类中的事件,所述舆情分析请求中包括至少一个检索目标;
分类模块,用于根据所述检索目标将经筛选得到的所述预设事件类中的所述事件分成多个类别;
数据特征获取模块,用于获取各个所述类别的数据特征,其中,所述数据特征用于表征所述用户终端对应用户对舆情信息的关心情况;
数据特征获取模块还用于获取各个所述类别的转载特征值;将各个所述类别下的议题包含的事件数进行比较,选取最大的所述事件数作为各个所述类别的事件数特征值;获取各个所述类别的金句特征值;将所述转载特征值、所述事件数特征值和所述金句特征值进行加和,得到各个所述类别的所述数据特征;
数据特征获取模块还用于重复执行以下处理,直至所述预设事件类中的所述类别都被遍历:按照预设规则将所述类别下各个所述事件中句子拆分为单元句;统计各个所述单元句出现的次数;将大于重要性阈值的次数按照数值大小进行排重排行,选取第一排名的所述次数作为金句特征值,所述排重排行为转载次数越多者,排名越靠前。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307180.8A CN110020159B (zh) | 2017-12-11 | 2017-12-11 | 基于数据特征的舆情分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307180.8A CN110020159B (zh) | 2017-12-11 | 2017-12-11 | 基于数据特征的舆情分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020159A CN110020159A (zh) | 2019-07-16 |
CN110020159B true CN110020159B (zh) | 2021-05-07 |
Family
ID=67186578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711307180.8A Active CN110020159B (zh) | 2017-12-11 | 2017-12-11 | 基于数据特征的舆情分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020159B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990565B (zh) * | 2019-11-20 | 2023-12-08 | 广州商品清算中心股份有限公司 | 一种用于舆情分析的可扩展文本分析系统及方法 |
CN113779258B (zh) * | 2021-11-10 | 2022-03-11 | 上海蜜度信息技术有限公司 | 公众满意度的分析方法、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
CN105989176A (zh) * | 2015-03-05 | 2016-10-05 | 北大方正集团有限公司 | 数据处理方法及装置 |
US9679337B2 (en) * | 2012-08-17 | 2017-06-13 | International Business Machines Corporation | System, method and computer program product for classification of social streams |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060026593A1 (en) * | 2004-07-30 | 2006-02-02 | Microsoft Corporation | Categorizing, voting and rating community threads |
-
2017
- 2017-12-11 CN CN201711307180.8A patent/CN110020159B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377258A (zh) * | 2012-04-28 | 2013-10-30 | 索尼公司 | 用于对微博信息进行分类显示的方法和设备 |
US9679337B2 (en) * | 2012-08-17 | 2017-06-13 | International Business Machines Corporation | System, method and computer program product for classification of social streams |
CN105989176A (zh) * | 2015-03-05 | 2016-10-05 | 北大方正集团有限公司 | 数据处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
网络舆情指标体系、方法与模型比较研究;曾润喜 等;《情报杂志》;20140430;第33卷(第4期);1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN110020159A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
WO2019091131A1 (zh) | 在网络教学系统中推荐教师的方法 | |
CN111444428A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN109271518B (zh) | 用于对微博信息进行分类显示的方法和设备 | |
CN110543598B (zh) | 信息推荐方法、装置及终端 | |
WO2017041372A1 (zh) | 基于人工智能的人机交互方法和系统 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
JP5827416B2 (ja) | ユーザ質問の処理方法及び処理システム | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
WO2016135905A1 (ja) | 情報処理システム及び情報処理方法 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN110597962A (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN111259173A (zh) | 一种搜索信息推荐方法及装置 | |
CN111191112A (zh) | 一种电子读物数据处理方法、装置及存储介质 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
CN110020159B (zh) | 基于数据特征的舆情分析方法和系统 | |
CN111192170B (zh) | 题目推送方法、装置、设备和计算机可读存储介质 | |
CN115470344A (zh) | 一种基于文本聚类的视频弹幕与评论主题融合的方法 | |
Chi et al. | Topic representation: Finding more representative words in topic models | |
CN114881685A (zh) | 广告投送方法、装置、电子装置及存储介质 | |
KR101780237B1 (ko) | 온라인 상에 공개된 질의응답 데이터를 기초로 한 사용자 질의에 대한 응답 방법 및 장치 | |
CN110765348A (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
Murtagh | Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices. | |
CN111160699A (zh) | 一种专家推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |