舆情分析方法及装置
技术领域
本发明涉及舆情分析领域,尤其涉及一种舆情分析方法及装置。
背景技术
随着信息技术的不断发展,舆情分析的方法也变得多样化,当前的舆情分析可大体分为数据采集、数据加工、数据分析等流程,每种流程中存在多种不同的实现方式,舆情分析任务一般是通过各流程子系统相互结合形成对应的分析模型来完成的,且不同的分析模型的组成成员是不相同的。因此如何快速有效地针对不同的舆情分析任务组建适用的舆情分析模型成为一个具有挑战性的问题。
目前的处理方式是开发人员针对舆情分析任务将所需的各流程子系统通过编码方式实现,当舆情分析任务改变时编码也需随之更改,这会导致开发工作量大,不易于扩展子系统,难于管理与维护等问题。
发明内容
本发明提供一种舆情分析方法及装置,用以解决现有舆情分析技术中,开发工作量大,不易于扩展子系统,难于管理与维护的问题。
本发明一方面提供一种舆情分析方法,该方法包括:
接收用户发送的舆情分析任务请求,所述舆情分析任务请求中包括分析任务类型;
确定与所述分析任务类型对应的处理模型,所述处理模型中包括数据源获取子模型和数据分析子模型;
根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据,并根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析,得到分析结果。
本发明的另一方面提供一种舆情分析装置,该装置包括:
接收模块,用于接收用户发送的舆情分析任务请求,所述舆情分析任务请求中包括分析任务类型;
确定模块,用于确定与所述分析任务类型对应的处理模型,所述处理模型中包括数据源获取子模型和数据分析子模型;
分析模块,用于根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据,并根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析,得到分析结果。
本发明提供的舆情分析方法及装置,通过预先建立与不同舆情数据分析任务类型对应的各处理模型,使得在需要对某一任务类型的舆情分析任务进行分析处理时,能够通过查找的方式快速匹配到所需的处理模型,根据该处理模型提供的比如数据源获取方式和数据分析方式对舆情数据进行分析处理。由于针对不同分析任务类型进行了对应处理方式的模型化处理,当任务类型增加时,仅需增设相应的处理模型即可,具有良好的可扩展性;而且,模型化的方式也便于实现维护或更新等管理。
附图说明
图1为本发明实施例一提供的舆情分析方法的流程示意图;
图2为本发明实施例二提供的舆情分析方法的流程示意图;
图3为本发明实施例三提供的舆情分析方法的流程示意图;
图4为本发明实施例四提供的舆情分析方法的流程示意图;
图5为本发明实施例五提供的舆情分析装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下实施例中所述的舆情分析方法均是基于舆情分析装置来实现的,该装置可以集成设置在一个舆情分析管理平台或服务器中。
图1为本发明实施例一提供的舆情分析方法的流程示意图,如图1所示,本实施例提供的舆情分析方法包括以下步骤:
步骤101、接收用户发送的舆情分析任务请求,所述舆情分析任务请求中包括分析任务类型。
当执行舆情分析任务时,舆情分析装置接收用户发送的舆情分析任务请求,并从所述舆情分析任务请求中获取舆情分析任务的任务类型,其中,所述任务类型可以是由用户的舆情分析数据的来源、分析目标或者说分析目的决定的,例如,所述舆情分析数据的来源可以是网页,数据库、本地磁盘等,相应的,每一种数据来源可以作为一种分析任务类型,意味着对不同来源的数据采用不同的处理模型进行分析处理。再比如,分析目的比如可以是舆情热点话题分析、目标话题跟踪等,相应的,不同的分析目的对应不同的处理模型。
步骤102、确定与所述分析任务类型对应的处理模型,所述处理模型中包括数据源获取子模型和数据分析子模型。
具体的,舆情分析装置获取所述分析任务类型后,根据所述分析任务类型在其预先内置的各处理模型中确定与所述分析任务类型对应的处理模型,并通过分布式计算资源管理平台根据所述处理模型对待分析舆情数据进行分析。其中,根据所述分析任务类型确定的处理模型中包括与所述分析任务类型对应的数据源获取子模型和数据分析子模型。
进一步的,所述舆情分析装置中预先内置的各处理模型可以通过如下方式得到:
可以将常见的各种舆情分析任务进行上述的任务类型的划分,并将完成每种分析任务所涉及的不同环节或者不同功能进行拆分,将每个环节或每种功能封装为一个功能组件。值得说明的是,针对相同的舆情分析任务类型,也可能会存在在同一个处理环节,存在不同的功能组件的拆分结果的情况。比如,对于了解一段时间内的舆情话题的任务来说,在获得了这一段时间内的网络上的舆情数据之后,需要对这些舆情数据进行分析,在分析的时候,可能涉及到聚类处理的功能,可能涉及到数据跟踪的功能等等。因此,对于数据分析这一环节,可能存在聚类功能组件,也可能存在数据跟踪功能组件。由于与某个任务类型对应的处理模型中描述了处理该类型任务时所涉及到的多个环节,因此,在某种处理模型中会包含多个子模型,每个子模型可以对应于任务处理过程的某个环节的一个功能组件。比如,在处理模型中会涉及获得分析数据的环节,在这个环节下,可能存在着比如按关键字采集、从本地数据库中采集等等功能组件,每种功能组件对应一种子模型。
从而,在确定某种任务类型对应的处理模型中包含的各子模型的时候,可以根据同一个处理环节下各子模型的使用频率来确定。而通常来说,不管是针对何种任务类型,处理模型中一般都会涉及数据源获取子模型和数据分析子模型。比如针对网络中舆情热点话题分析的任务来说,与其对应的处理模型中的数据源获取子模型描述的数据源获取方式比如是从网络中获得一段时间内的所有舆情数据;数据分析子模型所描述的分析方式比如是聚类分析上述舆情数据。
值得说明的是,上述仅以某个处理模型中仅包括了一个数据源获取子模型、或者仅一个数据分析子模型,实际上,针对不同的任务类型,可以在一个处理模型中设置多个同一类型的子模型,比如两个不同的数据分析子模型。
举例来说,当所述分析任务为对网页上的敏感词汇进行分析时,需要选择按关键词获取子模型作为数据源获取子模型,并选择聚类分析子模型、数据追踪子模型以及单条验证子模型作为数据分析子模型。在确定所述分析任务对应的数据源获取子模型和数据分析子模型之后,将由所述按关键词获取子模型、聚类分析子模型、数据追踪子模型以及单条验证子模型等组成的处理模型内置于所述舆情分析装置中。聚类是指将数据聚出聚类中心;数据追踪是指根据时间追踪话题的发展情况和扩展状况;单条验证是指验证某一数据是否更改。
这里需要说明的是,所述舆情分析装置中预先内置有多种处理模型以满足各种分析任务的需要,并且,在一确定的处理模型中数据源的获取只能通过一种数据源获取子模型对数据进行获取,而在数据分析过程中则可以通过多种数据分析子模型协同工作的方式对待分析数据进行分析。
步骤103、根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据。
在确定用于完成分析任务的处理模型之后,所述舆情分析装置根据所述处理模型中的数据源获取子模型所描述的数据源获取方式从数据来源中获取待分析的舆情数据。例如,所述处理模型中的数据源获取子模型为按关键词获取子模型,则舆情分析装置根据按关键词获取子模型所描述的按关键词获取方式从数据源当中获取包含关键词的舆情数据。
步骤104、根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析,得到分析结果。
在获取待分析舆情数据之后,舆情分析装置根据所述处理模型中的一个或多个数据分析子模型对应的一个或多个数据分析方式对待分析舆情数据进行分析。例如,所述处理模型中的数据分析子模型为聚类分析子模型、数据追踪子模型、单条验证子模型,则在根据所述数据分析子模型获取待分析舆情数据之后,通过所述聚类分析子模型、数据追踪子模型、单条验证子模型协同工作完成舆情数据的分析,最终得到分析结果。
本实施例提供的舆情分析方法,通过预先建立与不同舆情数据分析任务类型对应的各处理模型,使得在需要对某一任务类型的舆情分析任务进行分析处理时,能够通过查找的方式快速匹配到所需的处理模型,根据该处理模型提供的比如数据源获取方式和数据分析方式对舆情数据进行分析处理。由于针对不同分析任务类型进行了对应处理方式的模型化处理,当任务类型增加时,仅需增设相应的处理模型即可,具有良好的可扩展性;而且,模型化的方式也便于实现维护或更新等管理。
图2为本发明实施例二提供的舆情分析方法的流程示意图,在实施例二中,所述舆情分析装置预先内置的各处理模型中除了包括一种数据源获取子模型和数据分析子模型以外,还包括一种或多种数据加工子模型。
如图2所示,本实施例在上述实施例一的步骤104之前,还包括步骤105,步骤105如下所示:
步骤105、根据所述数据加工子模型所描述的加工处理方法对所述待分析舆情数据进行加工处理,得到加工后的待分析舆情数据。
具体的,在执行步骤103之后,所述处理模型根据其中确定的数据加工子模型所描述的加工处理方法对获取的待分析舆情数据进行加工,并通过所述数据分析子模型所描述的数据分析方式对所述加工后的待分析舆情数据进行分析,得到分析结果。其中,所述处理模型中的数据加工子模型可以为一个或多个,例如,假设根据任务类型确定的处理模型中的数据加工子模型为三个,分别为特征提取子模型、垃圾过滤子模型、分类子模型,则在获取待分析舆情数据后,所述舆情分析装置根据所述数据加工子模型分别对待分析舆情数据进行特征提取,垃圾信息过滤以信息分类处理等加工。并将加工后的数据发送至数据分析子模型进行处理。其中,分类子模型对应的分类处理是指按不同的业务领域进行分类。
本实施例提供的舆情分析方法,通过先根据所述处理模型中的数据加工子模型对所述待分析舆情数据进行进一步的数据提取、过滤、分类等操作,再根据确定的数据分析子模型对加工后的数据进行分析,有效的提高了舆情数据分析的精度和效率。
图3为本发明实施例三提供的舆情分析方法的流程示意图,如图3所示,实施例三在上述实施例二的基础上,在步骤103之前还包括步骤106,步骤106如下所示:
步骤106、根据每个子模型对应的校验列表确定所述数据源获取子模型、所述数据分析子模型和所述数据加工子模型是否可以共存,若是,则执行步骤103。
具体的,所述舆情分析装置内预先内置有各子模型对应的校验列表,所述各子模型对应的校验列表中预设有不能作为所述各个子模型前置模型和/或不能作为所述各个子模型后置模型的各子模型标识,当根据舆情任务类型确定处理模型之后,通过所述处理模型中各子模型对应的校验列表,确定所述处理模型中各子模型之间是否可以共存,若能够共存,则利用处理模型中相应的数据源获取子模型进行数据获取。
本实施例通过所述舆情分析装置内预置的各子模型对应的校验列表,对处理模型内所包括的各子模型的前置模型和后置模型进行校验,确定各子模型之间是否可以共存,若能够共存则执行分析任务。提高了系统的安全性与可操作性。避免了由于各子模型之间的匹配问题对分析结果造成的不良影响。
图4为本发明实施例四提供的舆情分析方法的流程示意图,如图4所示,本实施例在上述实施例三的基础上,在步骤106之前还包括步骤107,步骤107如下所示:
步骤107、向所述用户推送参数配置界面;
接收所述用户通过所述参数配置界面输入的配置参数,其中,所述配置参数为使得所述数据源获取子模型、所述数据分析子模型和所述数据加工子模型正常工作所需的参数。
举例来说,若舆情分析任务为对网页上的热词进行分析,则在确定所述处理模型之后,需要通过向用户推送参数配置界面的方式获取任务中需要进行分析的热词有哪些。例如分析任务为分析网页中包含“习大大”的所有信息,则在确定处理模型后,用户需要将热词“习大大”输入参数配置界面,以完成参数配置,进而所述处理模型中的各子模型可以根据用户配置的参数进行相应的处理。
本实施例通过为处理模型配置参数,使处理模型能够有针对性的完成分析任务,从而提高了舆情分析工作的效率。
这里需要说明的是,实施例一至实施例四中所述数据源获取子模型中还描述了数据分块方式;
具体的,在步骤104之前还包括步骤108,步骤108如下所示:
步骤108、根据所述数据源获取子模型所描述的所述数据分块方式对所述待分析舆情数据进行分块处理。
具体的,为了提高数据分析处理效果,提供一种分布式处理机制。具体来说,数据源获取子模型中还可以描述对获得的待分析舆情数据的数据分块方式,从而根据该分块方式对待分析舆情数据进行分块处理。进而,将各分块数据分布式地分配到多个处理节点进行处理。其中,该处理节点可以是上述分析装置所属的服务器或管理平台所关联的多个计算机设备。
在进行数据分块分配给处理节点的过程中,可以根据各处理节点的负载情况来确定最终的目标处理节点。而且,由于需要各目标处理节点分布式地分析各数据分块,目标处理节点需要知道当前使用的处理模型,因此,需要将该处理模型也分配到各目标处理节点,以使各目标处理节点采用该处理模型中的数据分析子模型分别对各待分析舆情数据分块进行分析,得到分别对应的各子分析结果;
最终接收并合并各目标处理节点分别发送的各子分析结果,得到最终的分析结果。
通过目标处理节点的选择与舆情数据的分块处理,能够充分有效的利用计算资源,增加数据的处理效率和系统的利用率。
图5为本发明实施例五提供的舆情分析装置的结构示意图,如图5所示,本实施例提供的舆情分析装置包括:
接收模块1,用于接收用户发送的舆情分析任务请求,所述舆情分析任务请求中包括分析任务类型;
确定模块2,用于确定与所述分析任务类型对应的处理模型,所述处理模型中包括数据源获取子模型和数据分析子模型;
分析模块3,用于根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据,并根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析,得到分析结果。
所述处理模型中还包括数据加工子模型;
所述分析模块3,还用于根据所述数据加工子模型所描述的加工处理方法对所述待分析舆情数据进行加工处理,得到加工后的待分析舆情数据;
所述分析模块3,还用于根据所述数据分析子模型所描述的数据分析方式对所述加工后的待分析舆情数据进行分析,得到分析结果。
所述确定模块2,还用于根据每个子模型对应的校验列表确定所述数据源获取子模型、所述数据分析子模型和所述数据加工子模型是否可以共存;
所述分析模块3,还用于在所述确定模块2确定可以共存时,执行所述根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据,并根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析的步骤;
其中,每个子模型对应的校验列表中预设存储有不能作为所述每个子模型前置模型,和/或不能作为所述每个子模型后置模型的各子模型标识。
所述确定模块2,还用于向所述用户推送参数配置界面;
所述接收模块1,还用于接收所述用户通过所述参数配置界面输入的配置参数,其中,所述配置参数为使得所述数据源获取子模型、所述数据分析子模型和所述数据加工子模型正常工作所需的参数。
在本实施例所述的舆情分子装置中,所述数据源获取子模型中还描述了数据分块方式。
所述分析模块3,还用于:根据所述数据源获取子模型所描述的所述数据分块方式对所述待分析舆情数据进行分块处理;
将所述分块处理后得到的各待分析舆情数据分块分别分配到各处理节点,以使所述各处理节点采用所述数据分析子模型分别对所述各待分析舆情数据分块进行分析,得到分别对应的各子分析结果;
所述分析模块3,还用于合并所述各处理节点分别发送的所述各子分析结果,得到所述分析结果。
所述分析模块3,还用于:根据所述各处理节点的负载情况,从所述各处理节点中确定各目标处理节点;将所述分块处理后得到的各待分析舆情数据分块分别分配到所述各目标处理节点中。
本实施例提供的舆情分析装置可以用于执行实施例一至实施例四所示的舆情分析方法,其原理和技术效果类似,在这里不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。