CN111552706A - 一种舆情信息的分组方法、装置及设备 - Google Patents

一种舆情信息的分组方法、装置及设备 Download PDF

Info

Publication number
CN111552706A
CN111552706A CN202010343982.XA CN202010343982A CN111552706A CN 111552706 A CN111552706 A CN 111552706A CN 202010343982 A CN202010343982 A CN 202010343982A CN 111552706 A CN111552706 A CN 111552706A
Authority
CN
China
Prior art keywords
public opinion
information
grouping
algorithm
opinion information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010343982.XA
Other languages
English (en)
Other versions
CN111552706B (zh
Inventor
都金涛
康光梁
祝慧佳
廖先浩
邝旭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010343982.XA priority Critical patent/CN111552706B/zh
Publication of CN111552706A publication Critical patent/CN111552706A/zh
Application granted granted Critical
Publication of CN111552706B publication Critical patent/CN111552706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种舆情信息的分组方法、装置及设备,该方法包括:获取待分组的目标舆情信息;分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。

Description

一种舆情信息的分组方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种舆情信息的分组方法、装置及设备。
背景技术
某些组织或机构的相关产品(如某第三方金融机构的金融类的应用程序等)往往具有海量的用户群体,这样,每天都会在知名的媒体平台(如头条、微博、论坛等)上产生大量与该组织或机构相关的负面言论或者正面言论,从而形成舆情。同理,其它相同业务领域的组织或机构也存在类似的舆情。为了维护、改善该组织或机构的相关产品的对外影响力,掌握该组织或机构与其它相同业务领域的组织或机构通过舆情信息反映出的口碑对比情况,需要实时地感知并能精准识别互联网中的舆情信息。
舆情信息主要以文本形式体现,属于半结构化数据。为了分析舆情,在舆情的运营链路中会消耗大量的人力资源对舆情信息进行阅读理解,最终把理解的结果录入到舆情管理系统。然而,舆情信息中会存在大量重复的情况,将重复的舆情信息分配到同一个舆情分组里,在人工审核时按照舆情分组进行审核,对提升人工审核效率大有裨益,为此,需要提供一种对舆情信息进行分组更准确的技术方案。
发明内容
本说明书实施例的目的是提供一种舆情信息的分组方法、装置及设备,以提供一种对舆情信息进行分组更准确的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种舆情信息的分组方法,所述方法包括:获取待分组的目标舆情信息。分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法。将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
本说明书实施例提供的一种舆情信息的分组装置,所述装置包括:信息获取模块,获取待分组的目标舆情信息。第一分组标识确定模块,分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法。存储模块,将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
本说明书实施例提供的一种舆情信息的分组设备,所述舆情信息的分组设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待分组的目标舆情信息。分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法。将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种舆情信息的分组方法实施例;
图2为本说明书一种NER算法的处理的示意图;
图3为本说明书另一种舆情信息的分组方法实施例;
图4为本说明书又一种舆情信息的分组方法实施例;
图5为本说明书一种舆情信息的分组装置实施例;
图6为本说明书一种舆情信息的分组设备实施例。
具体实施方式
本说明书实施例提供一种舆情信息的分组方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种舆情信息的分组方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是某业务(如金融业务或网络购物业务等)的后台服务器,还可以是某应用程序的后台服务器等。本实施例中以服务器作为执行主体进行详细说明,对于终端设备作为执行主体的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取待分组的目标舆情信息。
其中,目标舆情信息可以是任意舆情信息,例如:2月11日,浙江宁波的汤先生在班级通讯群里收到了“班主任老师”发布的一个收费通知:“因为疫情影响,接教育部门通知,现开始收取数学辅导费。”接着,这个“班主任老师”在群里发付款二维码,让家长们用指定的金融应用程序扫描支付500余元。汤先生相信后,按对方要求扫码付款。该舆情信息可以是针对上述指定的金融应用程序的提供方的舆情信息。
在实施中,随着互联网的普及,越来越多的人开始使用互联网,并通过互联网分享或表达自己的想法,互联网作为一种新的信息传播媒介已经融入到了人们的日常生活中,人们已经习惯了使用互联网来分享或表达自己的想法。由于互联网环境下相对来说更加自由、开放、不被人监督,因此,某个或某些观点很容易在互联网上传播并形成强大的舆论力量。
由于互联网的开放性,以及缺少监督等特点,某个或某些言论或新闻等很容易在不受控制的情况下快速并广泛传播。某些组织或机构的相关产品(如某第三方金融机构的金融类的应用程序等)往往具有海量的用户群体,这样,每天都会在知名的媒体平台(如头条、微博、论坛等)上产生大量与该组织或机构相关的负面言论或者正面言论,从而形成舆情。同理,其它相同业务领域的组织或机构也存在类似的舆情。为了维护、改善该组织或机构的相关产品的对外影响力,掌握该组织或机构与其它相同业务领域的组织或机构通过舆情信息反映出的口碑对比情况,需要实时地感知并能精准识别互联网中的舆情信息。舆情信息主要以文本形式体现,属于半结构化数据。为了分析舆情,在舆情的运营链路中会消耗大量的人力资源对舆情信息进行阅读理解,最终把理解的结果录入到舆情管理系统。然而,舆情信息中会存在大量重复的情况,将重复的舆情信息分配到同一个舆情分组里,在人工审核时按照舆情分组进行审核,对提升人工审核效率大有裨益,为此,需要提供一种对舆情分组更准确的技术方案。本说明书实施例提供一种方案,可以包括以下内容:
在对舆情信息进行分组的处理中,可以采用Simhash算法对舆情信息进行分组,具体地,通过Simhash算法,可以将高维的特征向量映射成低维的特征向量,通过两个向量之间的汉明距离(Hamming Distance)来确定两个舆情信息是否重复或者高度近似,具体处理过程可以分为5个步骤,即分词、哈希hash计算、加权、合并、降维等,其中,对于分词处理,对舆情信息进行分词,可以得到有效的特征向量,然后可以为每一个特征向量设置相应的权重,例如,特征向量可以是舆情信息中的词语,其权重可以是该词语出现的次数等。对于哈希计算处理,可以通过哈希函数计算上述各个特征向量的哈希值,得到的哈希值为二进制数组成的签名。对于加权处理,可以在上述得到的哈希值的基础上,为每个特征向量进行加权。对于合并处理,将上述各个特征向量的加权结果累加,可以得到一个序列串。对于降维处理,对于上述签名的累加结果,如果大于0则置1,否则置0,从而得到该舆情信息的Simhash值,之后可以根据不同舆情信息的Simhash值对应的海明距离来判断不同舆情信息之间的相似度,进而确定属于同一舆情分组的舆情信息,完成对舆情信息的分组。
但是,采用Simhash算法对舆情信息进行分组的处理,会存在将同一主题的舆情拆分到不同的舆情分组中,而且得到的舆情分组的体积较小,使得人工审核工作量大,为此,本说明书实施例还提供了一种技术方案,具体可以包括以下内容:
可以从一个或多个数据源中获取针对以下情况中的一个或多个相关的舆情信息:某组织或机构、该组织或机构的应用程序、与该组织或机构具有相同业务领域的其它组织或机构、该其它组织或机构的应用程序等,上述获取到的舆情信息可以作为待分组的目标舆情信息。其中,获取上述舆情信息可以是通过预设的周期获取,即可以预先设定获取上述舆情信息的周期,当到达该周期时,可以从一个或多个数据源中获取相应的舆情信息,其中的周期可以根据实际情况设定,本说明书实施例对此不做限定。或者,也可以是实时获取相应的舆情信息,或者,不定时获取(如随机获取等)相应的舆情信息,本说明书实施例中何时获取舆情信息可以根据实际情况设定,本说明书实施例对此不做限定。
此外,数据源可以是一个,也可以是多个,数据源也可以由上述组织或机构的舆情收集人员预先选择设置,在实际应用中,数据源可以包括如微博、论坛、新闻网站、公众号、报刊、广播、视频网站等。
在步骤S104中,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法。
其中,舆情分组算法可以是对舆情信息进行处理,以确定该舆情信息对应的舆情分组的算法,舆情分组算法可以包括多种,例如上述相关内容中提供的Simhash算法,或者,也可以如NER算法,或者,还可以如TextRank算法等,具体可以根据实际情况设定,本说明书实施例对此不做限定。分组标识可以是用于确定相应的舆情分组的标识,分组标识可以如相应的舆情分组的名称、编码或某数值等。关键要素信息可以是舆情信息中具有关键或重要作用的信息,关键要素信息的确定方式可以包括多种,例如,可以根据词语的舆情信息中出现的次数确定,或者,预先设定的指定项目的信息,如地点或人物等项目的信息等,或者,也可以是与预先设定的关键词相匹配的信息等,具体可以根据实际情况设定。
在实施中,通过上述方式得到待分组的目标舆情信息后,可以获取对目标舆情信息进行分组的舆情分组算法,获取的舆情分组算法可以包括一个,也可以包括多个,其中,如果包括一个舆情分组算法,则该舆情分组算法为基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,其中,第一舆情分组算法可以包括多种,以NER(Name Entity Recognition,命名实体识别)算法为例,NER算法可以用于识别文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等。具体地,考虑到针对同一事件的舆情信息会被不同的用户转载,而该舆情信息被转载时其他用户还可能在其中加入其它的信息,但其中包含的事件不变,例如,用户1发布了针对A事件的信息,用户2查看到用户A发布的针对A事件的信息后,转载了该信息,并在其中加入了自己对A事件的观点和建议的内容等,则用户1和用户2针对的都是A事件。为此,如图2所示,当获取到待分组的目标舆情信息后,可以通过NER算法从该目标舆情信息中分别提取其中包含的时间、地点、人物和事件信息等,其中的事件信息可以如某用户向另一用户转账500元等,提取完整后,可以分别对提取的时间、地点、人物和事件信息等进行预处理(如去重和排序等),如去除其中重复的信息等,然后,可以将得到的时间、地点、人物和事件信息等进行排序和合并,得到一个信息序列,可以计算该信息序列的哈希值,并可以将得到的哈希值作为目标舆情信息对应的分组标识。需要说明的是,上述第一舆情分组算法仅是一种可选的方案,第一舆情分组算法还可以是除NER算法之外的其它算法,具体可以根据实际情况设定。
如果包括多个舆情分组算法,则多个舆情分组算法可以包括一个第一舆情分组算法和一个或多个其它类型的舆情分组算法,例如,多个舆情分组算法可以包括一个NER算法和一个Simhash算法等,具体地,当获取到待分组的目标舆情信息后,可以先将目标舆情信息通过NER算法进行分组,具体处理过程可以参见上述相关内容,如果通过NER算法能够获取到时间、地点、人物和事件信息等准确信息,则可以得到目标舆情信息对应的分组标识,此时,不需要再对目标舆情信息通过Simhash算法进行处理。如果通过NER算法无法获取到时间、地点、人物和事件信息等准确信息,则无法得到目标舆情信息对应的分组标识,此时可以再通过Simhash算法对目标舆情信息进行分组,具体可以参见上述相关内容,在此不再赘述,最终可以得到目标舆情信息对应的分组标识。
需要说明的是,多个舆情分组算法不仅可以包括一个NER算法和一个Simhash算法,还可以包括多种情况,如多个舆情分组算法可以包括多个不同的第一舆情分组算法,如包括NER算法和TextRank算法等,或者,多个舆情分组算法可以包括多个不同的第一舆情分组算法和一个Simhash算法等。对于多个舆情分组算法的情况,可以分别通过每个舆情分组算法对目标舆情信息进行相应处理,直到某一个舆情分组算法能够得到相应的分组标识为止,或者,也可以依次使用每个舆情分组算法对目标舆情信息进行相应的处理,直到某一个舆情分组算法能够得到相应的分组标识为止等,具体处理可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,将目标舆情信息存储到确定的上述分组标识对应的舆情分组中。
在实施中,不同的舆情信息可以与相应的分组标识对应存储,通过上述步骤S104的处理,得到目标舆情信息对应的分组标识后,可以通过得到的分组标识,在当前存储的分组标识中查找是否包含上述分组标识,如果查找到该分组标识,则可以将目标舆情信息存储到确定的上述分组标识对应的舆情分组中,如果未查找到该分组标识,则可以基于上述分组标识创建一个舆情分组,且该舆情分组的标识即为上述分组标识,然后,可以将目标舆情信息存储到确定的上述分组标识对应的舆情分组中。
本说明书实施例提供一种舆情信息的分组方法,通过获取待分组的目标舆情信息,然后,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,将目标舆情信息存储到确定的分组标识对应的舆情分组中,这样,通过舆情信息中包含的关键要素信息对舆情信息进行分组,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
实施例二
如图3所示,本说明书实施例提供一种舆情信息的分组方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是某业务(如金融业务或网络购物业务等)的后台服务器,还可以是某应用程序的后台服务器等。本实施例中以服务器作为执行主体进行详细说明,对于终端设备作为执行主体的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,获取待分组的目标舆情信息。
在步骤S304中,分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法。
其中,第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的一个或多个。Hashtag可以是一种话题或主题,hashtag可以通过预设的符号或标签进行圈定,如一个hashtag可以表示为“#A应用崩溃了”或“#A应用崩溃了#”等,带有hashtag的舆情信息可以如,舆情信息1:今天在买东西支付的时候#A应用崩溃了#,无法付款…;舆情信息2:今天我也遇到了#A应用崩溃了#,…。TextRank算法可以通过词之间的相邻关系构建网络,然后使用PageRank迭代计算每个节点(每个词作为一个节点)的Rank值,对得到的Rank值进行排序即可得到相应的关键词。
在实施中,如果第一舆情分组算法中包括基于hashtag的舆情分组算法,则可以通过下述方式进行处理,即考虑到微博等数据源的舆情信息属于全网型的舆情信息,当某突发事件爆发时会无限制地增加人工审核工作量,为此,可以预先设定hashtag列表,并可以实时对该hashtag列表进行更新。可以基于hashtag的舆情分组算法,检测目标舆情信息中是否包括hashtag信息,如果目标舆情信息中包括hashtag信息,则可以从中提取hashtag信息,并可以将提取的hashtag信息与hashtag列表中包含的hashtag信息进行比对,如果提取的hashtag信息包含于hashtag列表中,则基于目标舆情信息中包含的hashtag信息,确定目标舆情信息对应的分组标识,具体如,可以预先设定不同hashtag信息对应的分组标识,可以将目标舆情信息中包含的hashtag信息对应的分组标识作为目标舆情信息对应的分组标识等。
如果第一舆情分组算法中包括基于关键词提取的TextRank算法,则可以通过下述方式进行处理,即可以通过TextRank算法,基于目标舆情信息中包含的各个词之间的相邻关系构建网络,并可以使用PageRank迭代计算每个节点(每个词作为一个节点)的Rank值,对得到的Rank值进行排序即可得到目标舆情信息中包含的关键词。如果得到的关键词数量超过预定阈值(可以根据实际情况设定,如8个或10个等),则可以对得到的关键词进行排序和组合,得到关键词组合,可以通过预设算法将关键词组合进行计算,得到的结果可以作为目标舆情信息对应的分组标识等。
如果第一舆情分组算法中包括事件要素提取的NER算法,则可以通过上述实施例中提供的处理方式进行处理,在此不再赘述。
如果第一舆情分组算法中包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的任意两个,则可以分别通过基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的任意两个舆情分组算法中的每个舆情分组算法对目标舆情信息进行相应处理,直到某一个舆情分组算法能够得到相应的分组标识为止,或者,也可以依次使用基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的任意两个舆情分组算法中的每个舆情分组算法对目标舆情信息进行相应的处理,直到某一个舆情分组算法能够得到相应的分组标识为止等,其中,依次处理的顺序可以预先设定,也可以是随机选择,具体处理可以根据实际情况设定,本说明书实施例对此不做限定。
此外,考虑到论坛类的数据源存在用户针对某一主题(或话题)进行回复或回帖的行为(即盖楼行为),用户每次的回复或回帖都是对发布方发布的某一主题(或话题)的讨论,但由于信息内容往往不同,这样,通常会被分配到不同的舆情分组中。为此,可以采用基于舆情信息所在网页的结构的第二舆情分组算法对目标舆情信息进行处理,即至少一种舆情分组算法中还可以包括基于舆情信息所在网页的结构的第二舆情分组算法,具体处理可以参见下述步骤S306的处理。
在步骤S306中,如果基于第一舆情分组算法无法确定目标舆情信息对应的分组标识,则基于第二舆情分组算法,获取目标舆情信息对应的网络地址。
其中,网络地址可以为URL等。
在实施中,如果基于第一舆情分组算法无法确定目标舆情信息对应的分组标识,则可以通过第二舆情分组算法对目标舆情信息进行挖掘,即可以提取目标舆情信息对应的网络地址,例如,得到的网络地址可以为如下URL:https://abc.AAA.com/p/6346949273?pid=128396376341&cid=0&red_tag=2837912469#128396376341。
在步骤S308中,基于上述网络地址对应的特征,确定目标舆情信息对应的分组标识。
在实施中,可以对提取的目标舆情信息对应的网络地址进行分析,判断该网络地址中是否包含目标舆情信息对应的主题所在的网络地址的特征,如果包含,则可以基于上述网络地址对应的特征,确定目标舆情信息对应的分组标识。如在网络论坛中,某用户可以发布一个针对某主题(或话题)的信息,该网络论坛的服务器可以为该主题(或话题)的信息分配一个网络地址,其它用户可以针对该主题(或话题)进行回复,该网络论坛的服务器可以为每个回复的信息分配一个网络地址,其中,为了表明网络地址之间的关联关系,可以在每个回复的信息分配对应的网络地址中加入该主题(或话题)的信息对应的网络地址,其中,每个回复的信息分配对应的网络地址可以称为子网络地址,该主题(或话题)的信息对应的网络地址可以称为父网络地址等。为此,基于上述步骤S306的示例,目标舆情信息对应的网络地址为https://abc.AAA.com/p/6346949273?pi d=128396376341&cid=0&red_tag=2837912469#128396376341,对该网络地址进行分析,可以确定其中包含该主题(或话题)的信息对应的网络地址,如https://abc.AAA.com/p/6346949273?,此时,可以通过https://abc.AAA.com/p/6346949273?,确定目标舆情信息对应的分组标识,具体如可以计算https://abc.A AA.com/p/6 346949273?的哈希值(如MD5值等),可以将得到的哈希值作为目标舆情信息对应的分组标识。
如果上述网络地址中未包含目标舆情信息对应的主题所在的网络地址的特征或者基于第一舆情分组算法无法确定目标舆情信息对应的分组标识,则还可以执行下述S310的处理。
在步骤S310中,如果基于第一舆情分组算法和/或第二舆情分组算法无法确定目标舆情信息对应的分组标识,则基于Simhash算法,确定目标舆情信息对应的分组标识。
上述步骤S310的具体处理可以参见上述实施例一中的相关内容,在此不再赘述。
此外,上述步骤S310的具体处理除了可以通过上述实施例一中所述的方式处理,还可以对上述实施例一中所述的Simhash算法进行改进,具体可以参见下述步骤A2和步骤A4的处理。
在步骤A2中,基于Simhash算法,对目标舆情信息中的标题和正文进行分词,得到至少一个分词。
其中,基于Simhash算法,对目标舆情信息中的标题和正文进行分词的具体处理除了可以通过上述实施例一中所述的方式处理,在此不再赘述。
在步骤A4中,从得到的至少一个分词中选取预定词性的分词,基于选取的预定词性的分词,确定目标舆情信息对应的分组标识。
其中,预定词性可以是预先设定的词性,例如名词、动词、形容词等。
在实施中,通过上述步骤A2的处理得到目标舆情信息对应的分词后,可以从得到的分词中抽取名词、动词、形容词等预定词性的分词,然后,可以分别执行上述实施例一中所述的哈希hash计算、加权、合并、降维的处理,最终得到目标舆情信息对应的分组标识。
在步骤S312中,将目标舆情信息存储到确定的分组标识对应的舆情分组中。
本说明书实施例提供一种舆情信息的分组方法,通过获取待分组的目标舆情信息,然后,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,将目标舆情信息存储到确定的分组标识对应的舆情分组中,这样,通过舆情信息中包含的关键要素信息对舆情信息进行分组,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
此外,针对包含hashtag信息的舆情信息、包含事件的舆情信息、存在关键词的舆情信息以及论坛类的舆情信息,分别设计了相应的舆情分组算法进行处理,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以进一步使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
实施例三
基于上述实施例一和实施例二的舆情信息的分组方法,以下再提供一种可选的具体处理方式,如图4所示,本说明书实施例提供一种舆情信息的分组方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是某业务(如金融业务或网络购物业务等)的后台服务器,还可以是某应用程序的后台服务器等。本实施例中以服务器作为执行主体进行详细说明,对于终端设备作为执行主体的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,获取待分组的目标舆情信息。
本说明书实施例中,第一舆情分组算法可以包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法,则具体处理过程可以参见下述步骤S404~步骤S414的处理。
在步骤S404中,通过基于hashtag的舆情分组算法,确定目标舆情信息中是否包含预设的hashtag信息。
在实施中,可以预先设定hashtag列表,并可以实时对该hashtag列表进行更新。可以基于hashtag的舆情分组算法,检测目标舆情信息中是否包括hashtag信息,如果包括,则可以从中提取hashtag信息,并可以将提取的hashtag信息与hashtag列表中包含的hashtag信息进行比对,如果提取的hashtag信息包含于hashtag列表中,则确定目标舆情信息中包含预设的hashtag信息,否则,可以确定目标舆情信息中不包含预设的hashtag信息。
在步骤S406中,如果目标舆情信息中包含预设的hashtag信息,则基于目标舆情信息中包含的预设的hashtag信息,确定目标舆情信息对应的分组标识。
上述步骤S406的具体处理过程可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:基于目标舆情信息中包含的预设的hashtag信息,获取hashtag信息对应的哈希值,将获取的哈希值确定为目标舆情信息对应的分组标识。
其中,哈希值(或散列值)可以是通过某种哈希函数(或散列函数)计算而得到的数值,哈希函数(或散列函数)可以包括多种,如MD5(Message Digest5,消息摘要5)、MD4、SHA-256(Secure Hash Algorithm,安全散列-256)、SHA-384、SHA-512等,本实施例中的哈希值可以为MD5值。
在步骤S408中,如果目标舆情信息中未包括预设的hashtag信息,则基于事件要素提取的NER算法,从目标舆情信息中分别提取事件的地点信息、人物信息和资源信息。
其中,资源信息可以是货币金额的数值,也可以是优惠券的信息,还可以是商品等资源的信息等。
在实际应用中,针对金融类的目标舆情信息,可以通过事件要素提取的NER算法从目标舆情信息中提取事件的资源信息,而对于其它类型的目标舆情信息,也可以通过事件要素提取的NER算法从目标舆情信息中提取事件的资源信息,或者,还可以通过事件要素提取的NER算法从目标舆情信息中提取事件的资源信息之外的其它事件信息等。
在步骤S410中,如果从目标舆情信息中分别提取到事件的地点信息、人物信息和资源信息,则基于事件的地点信息、人物信息和资源信息,确定目标舆情信息对应的分组标识。
上述步骤S410的具体处理过程可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A2和步骤A4的处理。
在步骤A2中,对事件的地点信息、人物信息和资源信息进行拼接,得到拼接后的事件的地点信息、人物信息和资源信息。
在实施中,通过上述处理得到事件的地点信息、人物信息和资源信息后,可以分别对事件的地点信息、人物信息和资源信息进行去重(可以去除事件的地点信息中重复的地点信息,去除事件的人物信息中重复的人物信息,去除事件的资源信息中重复的资源信息)和排序等预处理,可以对预处理完成后的事件的地点信息、人物信息和资源信息进行拼接,得到拼接后的事件的地点信息、人物信息和资源信息。
在步骤A4中,获取拼接后的事件的地点信息、人物信息和资源信息对应的哈希值,将获取的哈希值确定为目标舆情信息对应的分组标识。
在实施中,可以通过预设的哈希算法计算拼接后的事件的地点信息、人物信息和资源信息对应的哈希值(如MD5值等),可以将计算得到的哈希值作为目标舆情信息对应的分组标识。
在步骤S412中,如果从目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个,则基于TextRank算法,从目标舆情信息中提取关键词。
其中,从目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个可以包括从目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的任一个,也可以是从目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的任两个,还可以是从目标舆情信息中未提取到事件的地点信息、人物信息和资源信息等。
在步骤S414中,如果提取的关键词数量超过预定阈值,则基于提取的关键词,确定目标舆情信息对应的分组标识。
其中,预定阈值可以根据实际情况设定,具体如8个或10个等,本说明书实施例对此不做限定。
上述步骤S414的具体处理过程可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤B2和步骤B4的处理。
在步骤B2中,对提取的关键词进行拼接,得到拼接后的关键词。
在实施中,通过上述处理得到目标舆情信息中提取的关键词后,可以对得到的关键词进行去重(可以去除关键词中重复的关键词)和排序等预处理,可以对预处理完成后的关键词进行拼接,得到拼接后的关键词。
在步骤B4中,获取拼接后的关键词对应的哈希值,将获取的哈希值确定为目标舆情信息对应的分组标识。
在实施中,可以通过预设的哈希算法计算拼接后的关键词对应的哈希值(如MD5值等),可以将计算得到的哈希值作为目标舆情信息对应的分组标识。
为了能够更加明确的了解上述各个舆情分组算法对不同舆情信息的处理过程,以下展示通过相应的舆情分组算法对舆情信息进行分组处理的关系表,如表1所示。
表1
Figure BDA0002469468990000141
Figure BDA0002469468990000151
对于序号1和序号2的舆情信息,由于其中均包含hashtag信息,即#A应用崩溃了#,因此,可以基于hashtag的舆情分组算法,获取上述hashtag信息,并可以计算#A应用崩溃了#的哈希值,得到的哈希值即为相应的分组标识。
对于序号3和序号4的舆情信息,由于其中均包含事件的地点信息,即“浙江宁波”、事件的人物信息,即“汤先生”,以及事件的资源信息,即“支付500余元”,因此,可以基于事件要素提取的NER算法,获取上述事件的地点信息、事件的人物信息,以及事件的资源信息,并可以进行拼接处理,如可以是“浙江宁波汤先生支付500余元”,然后可以计算“浙江宁波汤先生支付500余元”的哈希值,得到的哈希值即为相应的分组标识。
对于序号5和序号6的舆情信息,由于其中均包含“A通讯应用”、“代挂”、“加速”、“升级”等关键词,因此,可以基于关键词提取的TextRank算法,获取上述关键词,并可以进行拼接处理,如可以是“A通讯应用代挂加速升级”,然后可以计算“A通讯应用代挂加速升级”的哈希值,得到的哈希值即为相应的分组标识。
此外,考虑到论坛类的数据源存在用户针对某一主题(或话题)进行回复或回帖的行为(即盖楼行为),用户每次的回复或回帖都是对发布方发布的某一主题(或话题)的讨论,但由于信息内容往往不同,这样,通常会被分配到不同的舆情分组中。为此,可以采用基于舆情信息所在网页的结构的第二舆情分组算法对目标舆情信息进行处理,即至少一种舆情分组算法中还可以包括基于舆情信息所在网页的结构的第二舆情分组算法,具体处理可以参见下述步骤S416的处理。
在步骤S416中,如果提取的关键词数量未超过预定阈值,则基于第二舆情分组算法,获取目标舆情信息对应的网络地址。
其中,网络地址可以为URL等。
在步骤S418中,基于上述网络地址对应的特征,确定目标舆情信息对应的分组标识。
如果上述网络地址中未包含目标舆情信息对应的主题所在的网络地址的特征,则还可以执行下述S420的处理。
在步骤S420中,如果上述网络地址中未包含目标舆情信息对应的主题所在的网络地址的特征,则基于Simhash算法,确定目标舆情信息对应的分组标识。
上述步骤S420的具体处理可以参见上述实施例一中的相关内容,在此不再赘述。
此外,上述步骤S420的具体处理除了可以通过上述实施例一中所述的方式处理,还可以对上述实施例一中所述的Simhash算法进行改进,具体可以参见下述步骤C2和步骤C4的处理。
在步骤C2中,基于Simhash算法,对目标舆情信息中的标题和正文进行分词,得到至少一个分词。
其中,基于Simhash算法,对目标舆情信息中的标题和正文进行分词的具体处理除了可以通过上述实施例一中所述的方式处理,在此不再赘述。
在步骤C4中,从得到的至少一个分词中选取预定词性的分词,基于选取的预定词性的分词,确定目标舆情信息对应的分组标识。
其中,预定词性可以是预先设定的词性,例如名词、动词、形容词等。
在实施中,通过上述步骤C2的处理得到目标舆情信息对应的分词后,可以从得到的分词中抽取名词、动词、形容词等预定词性的分词,然后,可以分别执行上述实施例一中所述的哈希hash计算、加权、合并、降维的处理,最终得到目标舆情信息对应的分组标识。
在步骤S422中,将目标舆情信息存储到确定的分组标识对应的舆情分组中。
本说明书实施例提供一种舆情信息的分组方法,通过获取待分组的目标舆情信息,然后,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,将目标舆情信息存储到确定的分组标识对应的舆情分组中,这样,通过舆情信息中包含的关键要素信息对舆情信息进行分组,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
此外,针对包含hashtag信息的舆情信息、包含事件的舆情信息、存在关键词的舆情信息以及论坛类的舆情信息,分别设计了相应的舆情分组算法进行处理,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以进一步使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
实施例四
以上为本说明书实施例提供的舆情信息的分组方法,基于同样的思路,本说明书实施例还提供一种舆情信息的分组装置,如图5所示。
该舆情信息的分组装置包括:信息获取模块501、第一分组标识确定模块502和存储模块503,其中:
信息获取模块501,获取待分组的目标舆情信息;
第一分组标识确定模块502,分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;
存储模块503,将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
本说明书实施例中,所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的一个或多个。
本说明书实施例中,如果所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法,则所述第一分组标识确定模块502,包括:
信息确定单元,通过所述基于hashtag的舆情分组算法,确定所述目标舆情信息中是否包含预设的hashtag信息;
第一分组标识确定单元,如果所述目标舆情信息中包含预设的hashtag信息,则基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识;
信息提取单元,如果所述目标舆情信息中未包括预设的hashtag信息,则基于事件要素提取的NER算法,从所述目标舆情信息中分别提取事件的地点信息、人物信息和资源信息;
第二分组标识确定单元,如果从所述目标舆情信息中分别提取到事件的地点信息、人物信息和资源信息,则基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识;
关键词提取单元,如果从所述目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个,则基于所述TextRank算法,从所述目标舆情信息中提取关键词;
第三分组标识确定单元,如果提取的关键词数量超过预定阈值,则基于提取的关键词,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述第一分组标识确定单元,基于所述目标舆情信息中包含的预设的hashtag信息,获取hashtag信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述第二分组标识确定单元,对所述事件的地点信息、人物信息和资源信息进行拼接,得到拼接后的所述事件的地点信息、人物信息和资源信息;获取拼接后的所述事件的地点信息、人物信息和资源信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述第三分组标识确定单元,对提取的关键词进行拼接,得到拼接后的关键词;获取所述拼接后的关键词对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述至少一种舆情分组算法中还包括基于舆情信息所在网页的结构的第二舆情分组算法,所述装置还包括:
网址获取模块,如果提取的关键词数量未超过预定阈值或基于所述第一舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述第二舆情分组算法,获取所述目标舆情信息对应的网络地址;
第二分组标识确定模块基于所述网络地址对应的特征,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述至少一种舆情分组算法中还包括Simhash算法,所述装置还包括:
第三分组标识确定模块,如果基于所述第一舆情分组算法和/或所述第二舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述Simhash算法,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述第三分组标识确定模块,包括:
分词单元,基于所述Simhash算法,对所述目标舆情信息中的标题和正文进行分词,得到至少一个分词;
第四分组标识确定单元,从得到的至少一个分词中选取预定词性的分词,基于选取的预定词性的分词,确定所述目标舆情信息对应的分组标识。
本说明书实施例提供一种舆情信息的分组装置,通过获取待分组的目标舆情信息,然后,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,将目标舆情信息存储到确定的分组标识对应的舆情分组中,这样,通过舆情信息中包含的关键要素信息对舆情信息进行分组,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
此外,针对包含hashtag信息的舆情信息、包含事件的舆情信息、存在关键词的舆情信息以及论坛类的舆情信息,分别设计了相应的舆情分组算法进行处理,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以进一步使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
实施例五
以上为本说明书实施例提供的舆情信息的分组装置,基于同样的思路,本说明书实施例还提供一种舆情信息的分组设备,如图6所示。
所述舆情信息的分组设备可以为上述实施例提供的终端设备或服务器。
舆情信息的分组设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对舆情信息的分组设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在舆情信息的分组设备上执行存储器602中的一系列计算机可执行指令。舆情信息的分组设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,舆情信息的分组设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对舆情信息的分组设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待分组的目标舆情信息;
分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;
将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
本说明书实施例中,所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的一个或多个。
本说明书实施例中,如果所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法,则分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,包括:
通过所述基于hashtag的舆情分组算法,确定所述目标舆情信息中是否包含预设的hashtag信息;
如果所述目标舆情信息中包含预设的hashtag信息,则基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识;
如果所述目标舆情信息中未包括预设的hashtag信息,则基于事件要素提取的NER算法,从所述目标舆情信息中分别提取事件的地点信息、人物信息和资源信息;
如果从所述目标舆情信息中分别提取到事件的地点信息、人物信息和资源信息,则基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识;
如果从所述目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个,则基于所述TextRank算法,从所述目标舆情信息中提取关键词;
如果提取的关键词数量超过预定阈值,则基于提取的关键词,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识,包括:
基于所述目标舆情信息中包含的预设的hashtag信息,获取hashtag信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识,包括:
对所述事件的地点信息、人物信息和资源信息进行拼接,得到拼接后的所述事件的地点信息、人物信息和资源信息;
获取拼接后的所述事件的地点信息、人物信息和资源信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述基于提取的关键词,确定所述目标舆情信息对应的分组标识,包括:
对提取的关键词进行拼接,得到拼接后的关键词;
获取所述拼接后的关键词对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
本说明书实施例中,所述至少一种舆情分组算法中还包括基于舆情信息所在网页的结构的第二舆情分组算法,还包括:
如果提取的关键词数量未超过预定阈值或基于所述第一舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述第二舆情分组算法,获取所述目标舆情信息对应的网络地址;
基于所述网络地址对应的特征,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述至少一种舆情分组算法中还包括Simhash算法,还包括:
如果基于所述第一舆情分组算法和/或所述第二舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述Simhash算法,确定所述目标舆情信息对应的分组标识。
本说明书实施例中,所述基于所述Simhash算法,确定所述目标舆情信息对应的分组标识,包括:
基于所述Simhash算法,对所述目标舆情信息中的标题和正文进行分词,得到至少一个分词;
从得到的至少一个分词中选取预定词性的分词,基于选取的预定词性的分词,确定所述目标舆情信息对应的分组标识。
本说明书实施例提供一种舆情信息的分组设备,通过获取待分组的目标舆情信息,然后,分别基于至少一种舆情分组算法对目标舆情信息进行分析,确定目标舆情信息对应的分组标识,其中,至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对舆情信息进行分组的第一舆情分组算法,将目标舆情信息存储到确定的分组标识对应的舆情分组中,这样,通过舆情信息中包含的关键要素信息对舆情信息进行分组,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
此外,针对包含hashtag信息的舆情信息、包含事件的舆情信息、存在关键词的舆情信息以及论坛类的舆情信息,分别设计了相应的舆情分组算法进行处理,使得具有相同关键要素信息的舆情信息可以划分到同一舆情分组中,可以进一步使得在人工审核时按照舆情分组进行审核的过程中,减少人工审核所需要的时间,从而提升了人工审核的效率。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程舆情信息的分组设备的处理器以产生一个机器,使得通过计算机或其他可编程舆情信息的分组设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程舆情信息的分组设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程舆情信息的分组设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (15)

1.一种舆情信息的分组方法,所述方法包括:
获取待分组的目标舆情信息;
分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;
将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
2.根据权利要求1所述的方法,所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的一个或多个。
3.根据权利要求2所述的方法,如果所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法,则分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,包括:
通过所述基于hashtag的舆情分组算法,确定所述目标舆情信息中是否包含预设的hashtag信息;
如果所述目标舆情信息中包含预设的hashtag信息,则基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识;
如果所述目标舆情信息中未包括预设的hashtag信息,则基于事件要素提取的NER算法,从所述目标舆情信息中分别提取事件的地点信息、人物信息和资源信息;
如果从所述目标舆情信息中分别提取到事件的地点信息、人物信息和资源信息,则基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识;
如果从所述目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个,则基于所述TextRank算法,从所述目标舆情信息中提取关键词;
如果提取的关键词数量超过预定阈值,则基于提取的关键词,确定所述目标舆情信息对应的分组标识。
4.根据权利要求3所述的方法,所述基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识,包括:
基于所述目标舆情信息中包含的预设的hashtag信息,获取hashtag信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
5.根据权利要求3所述的方法,所述基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识,包括:
对所述事件的地点信息、人物信息和资源信息进行拼接,得到拼接后的所述事件的地点信息、人物信息和资源信息;
获取拼接后的所述事件的地点信息、人物信息和资源信息对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
6.根据权利要求3所述的方法,所述基于提取的关键词,确定所述目标舆情信息对应的分组标识,包括:
对提取的关键词进行拼接,得到拼接后的关键词;
获取所述拼接后的关键词对应的哈希值,将获取的所述哈希值确定为所述目标舆情信息对应的分组标识。
7.根据权利要求3-6中任一项所述的方法,所述至少一种舆情分组算法中还包括基于舆情信息所在网页的结构的第二舆情分组算法,所述方法还包括:
如果提取的关键词数量未超过预定阈值或基于所述第一舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述第二舆情分组算法,获取所述目标舆情信息对应的网络地址;
基于所述网络地址对应的特征,确定所述目标舆情信息对应的分组标识。
8.根据权利要求7所述的方法,所述至少一种舆情分组算法中还包括Simhash算法,所述方法还包括:
如果基于所述第一舆情分组算法和/或所述第二舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述Simhash算法,确定所述目标舆情信息对应的分组标识。
9.根据权利要求8所述的方法,所述基于所述Simhash算法,确定所述目标舆情信息对应的分组标识,包括:
基于所述Simhash算法,对所述目标舆情信息中的标题和正文进行分词,得到至少一个分词;
从得到的至少一个分词中选取预定词性的分词,基于选取的预定词性的分词,确定所述目标舆情信息对应的分组标识。
10.一种舆情信息的分组装置,所述装置包括:
信息获取模块,获取待分组的目标舆情信息;
第一分组标识确定模块,分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;
存储模块,将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
11.根据权利要求10所述的装置,所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法中的一个或多个。
12.根据权利要求11所述的装置,如果所述第一舆情分组算法包括基于hashtag的舆情分组算法、基于事件要素提取的NER算法、基于关键词提取的TextRank算法,则所述第一分组标识确定模块,包括:
信息确定单元,通过所述基于hashtag的舆情分组算法,确定所述目标舆情信息中是否包含预设的hashtag信息;
第一分组标识确定单元,如果所述目标舆情信息中包含预设的hashtag信息,则基于所述目标舆情信息中包含的预设的hashtag信息,确定所述目标舆情信息对应的分组标识;
信息提取单元,如果所述目标舆情信息中未包括预设的hashtag信息,则基于事件要素提取的NER算法,从所述目标舆情信息中分别提取事件的地点信息、人物信息和资源信息;
第二分组标识确定单元,如果从所述目标舆情信息中分别提取到事件的地点信息、人物信息和资源信息,则基于所述事件的地点信息、人物信息和资源信息,确定所述目标舆情信息对应的分组标识;
关键词提取单元,如果从所述目标舆情信息中未提取到事件的地点信息、人物信息和资源信息中的至少一个,则基于所述TextRank算法,从所述目标舆情信息中提取关键词;
第三分组标识确定单元,如果提取的关键词数量超过预定阈值,则基于提取的关键词,确定所述目标舆情信息对应的分组标识。
13.根据权利要求12所述的装置,所述至少一种舆情分组算法中还包括基于舆情信息所在网页的结构的第二舆情分组算法,所述装置还包括:
网址获取模块,如果提取的关键词数量未超过预定阈值或基于所述第一舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述第二舆情分组算法,获取所述目标舆情信息对应的网络地址;
第二分组标识确定模块基于所述网络地址对应的特征,确定所述目标舆情信息对应的分组标识。
14.根据权利要求13所述的装置,所述至少一种舆情分组算法中还包括Simhash算法,所述装置还包括:
第三分组标识确定模块,如果基于所述第一舆情分组算法和/或所述第二舆情分组算法无法确定所述目标舆情信息对应的分组标识,则基于所述Simhash算法,确定所述目标舆情信息对应的分组标识。
15.一种舆情信息的分组设备,其特征在于,所述舆情信息的分组设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待分组的目标舆情信息;
分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;
将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
CN202010343982.XA 2020-04-27 2020-04-27 一种舆情信息的分组方法、装置及设备 Active CN111552706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010343982.XA CN111552706B (zh) 2020-04-27 2020-04-27 一种舆情信息的分组方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010343982.XA CN111552706B (zh) 2020-04-27 2020-04-27 一种舆情信息的分组方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111552706A true CN111552706A (zh) 2020-08-18
CN111552706B CN111552706B (zh) 2023-05-12

Family

ID=72001352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010343982.XA Active CN111552706B (zh) 2020-04-27 2020-04-27 一种舆情信息的分组方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111552706B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032566A (zh) * 2021-03-25 2021-06-25 支付宝(杭州)信息技术有限公司 一种舆情聚类方法、装置以及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
US20160210367A1 (en) * 2015-01-20 2016-07-21 Yahoo! Inc. Transition event detection
US20160357770A1 (en) * 2015-06-03 2016-12-08 Yahoo! Inc. System and method for automatic storyline construction based on determined breaking news
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
US20190005150A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Informed join recommendation
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
US20160210367A1 (en) * 2015-01-20 2016-07-21 Yahoo! Inc. Transition event detection
US20160357770A1 (en) * 2015-06-03 2016-12-08 Yahoo! Inc. System and method for automatic storyline construction based on determined breaking news
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
US20190005150A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Informed join recommendation
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032566A (zh) * 2021-03-25 2021-06-25 支付宝(杭州)信息技术有限公司 一种舆情聚类方法、装置以及设备
CN113032566B (zh) * 2021-03-25 2023-02-24 支付宝(杭州)信息技术有限公司 一种舆情聚类方法、装置以及设备

Also Published As

Publication number Publication date
CN111552706B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
JP4464975B2 (ja) コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
US20170116190A1 (en) Ingestion planning for complex tables
GB2401972A (en) Identifying special word usage in a document
Kim et al. Two applications of clustering techniques to twitter: Community detection and issue extraction
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
Trieu et al. Document sensitivity classification for data leakage prevention with twitter-based document embedding and query expansion
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
Fuad et al. Analysis and classification of mobile apps using topic modeling: A case study on Google Play Arabic apps
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
Lupei et al. Analyzing Ukrainian Media Texts by Means of Support Vector Machines: Aspects of Language and Copyright
CN110674383B (zh) 舆情查询方法、装置及设备
CN111552706A (zh) 一种舆情信息的分组方法、装置及设备
Dwivedi et al. Identification of key concerns and sentiments towards data quality and data strategy challenges using sentiment analysis and topic modeling
CN109359274A (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
US20220245345A1 (en) Article topic alignment
Chaurasia et al. Sentiment Analysis of Twitter Data by Natural Language Processing and Machine Learning
Ben Khalifa et al. Multiple criteria fake reviews detection using belief function theory
US11120204B2 (en) Comment-based article augmentation
CN113656466A (zh) 保单数据查询方法、装置、设备及存储介质
Kontopoulos et al. Distributing n-gram graphs for classification
CN114492413B (zh) 文本校对方法、装置和电子设备
Ramesh et al. Realtime News Analysis using Natural Language Processing
Khurshid et al. Text-based intelligent content filtering on social platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant