CN109657116A - 一种舆情搜索方法、搜索装置、存储介质和终端设备 - Google Patents

一种舆情搜索方法、搜索装置、存储介质和终端设备 Download PDF

Info

Publication number
CN109657116A
CN109657116A CN201811340246.8A CN201811340246A CN109657116A CN 109657116 A CN109657116 A CN 109657116A CN 201811340246 A CN201811340246 A CN 201811340246A CN 109657116 A CN109657116 A CN 109657116A
Authority
CN
China
Prior art keywords
public sentiment
major class
information
information major
sentiment data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811340246.8A
Other languages
English (en)
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811340246.8A priority Critical patent/CN109657116A/zh
Publication of CN109657116A publication Critical patent/CN109657116A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情搜索方法、装置、存储介质及终端设备,舆情搜索方法包括:接收用户输入的第一搜索关键词,并根据第一搜索关键词搜索对应的第一舆情数据;按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;计算各个信息大类的第一传播热度,并根据第一传播热度对信息大类进行降序排列;从降序排列的信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给用户。本发明在根据搜索关键词搜索到对应的舆情数据后,可按照预设分类方法将搜索到的舆情数据划分为多个信息大类,并可根据信息大类的传播热度向用户返回对应的舆情数据,以方便用户快速找到其想要的舆情信息,提高舆情信息的搜索效率。

Description

一种舆情搜索方法、搜索装置、存储介质和终端设备
技术领域
本发明涉及网络舆情处理技术领域,尤其涉及一种舆情搜索方法、搜索装置、存储介质和终端设备。
背景技术
舆情是舆论情况的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度,它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。目前的舆情系统,大多只是对原始舆情数据进行提取和汇总计算,以根据提取后的舆情数据来了解民众的思想动态、掌握大众需求、掌握舆情导向,用户难已准确、快速地找到某一具体舆情数据,难以获知舆情事件的详细情况。
发明内容
本发明实施例提供了一种舆情搜索方法、搜索装置、存储介质和终端设备,能够根据搜索关键词进行舆情数据的搜索,并能够分类输出舆情数据,以方便用户快速找到其想要的舆情信息,极大地提高了舆情信息的搜索效率。
本发明实施例的第一方面,提供了一种舆情搜索方法,包括:
接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
本发明实施例的第二方面,提供了一种舆情搜索装置,包括:
舆情数据搜索模块,用于接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
舆情数据聚类模块,用于按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
第一传播热度计算模块,用于计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
信息大类抽取模块,用于从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述第一方面所述舆情搜索方法的步骤。
本发明实施例的第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,可在预设舆情系统中接收用户输入的搜索关键词,并可根据搜索关键词搜索对应的舆情数据,在搜索到对应的舆情数据后,可按照预设分类方法将搜索到的舆情数据划分为多个信息大类,并统计各个信息大类的传播热度,随后抽取传播热度在前的多个信息大类返回给用户,从而实现根据搜索关键词搜索舆情数据,并根据传播热度分类输出舆情数据的目的,以方便用户快速找到其想要的舆情信息,极大地提高舆情信息的搜索效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种舆情搜索方法的一个实施例流程图;
图2为本发明实施例中一种舆情搜索方法在一个应用场景下排列信息小类的流程示意图;
图3为本发明实施例中一种舆情搜索方法在一个应用场景下确定与第二搜索关键词相对应的信息大类的流程示意图;
图4为本发明实施例中一种舆情搜索装置的一个实施例结构图;
图5为本发明一实施例提供的一种终端设备的示意图。
具体实施方式
本发明实施例提供了一种舆情搜索方法、搜索装置、存储介质和终端设备,用于根据搜索关键词进行舆情数据的搜索,并分类输出舆情数据,以方便用户快速找到其想要的舆情信息,极大地提高了舆情信息的搜索效率。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
本发明实施例中,舆情搜索方法的执行主体为预设舆情系统,且该预设舆情系统在执行舆情搜索方法时,已通过分布式爬虫系统等爬取技术爬取了与各舆情事件相关的舆情数据,并已将所爬取到的舆情数据存储至了该预设舆情系统的数据库中,如已将所爬取到的舆情数据存储至了该预设舆情系统所对应的存储服务器中,因而,当该预设舆情系统接收到某一搜索关键词时,该预设舆情系统则可直接在所对应的存储服务器中进行与该搜索关键词相匹配的舆情数据的搜索。
请参阅图1,本发明实施例提供了一种舆情搜索方法,所述舆情搜索方法包括:
步骤S101、接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
可以理解的是,本发明实施例的预设舆情系统中提供有舆情检索入口,当用户需要搜索某一舆情事件时,用户可通过该舆情检索入口输入与该舆情事件相对应的搜索关键词,如可通过该舆情检索入口输入“足球”和“转会”的搜索关键词,该预设舆情系统在接收到用户输入的“足球”和“转会”的搜索关键词后,即可在该预设舆情系统的数据库中搜索与“足球”及“转会”相关的第一舆情数据,也就是说,在该预设舆情系统所对应的存储服务器中搜索足球领域中与转会相关的第一舆情数据。
步骤S102、按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
在此,在搜索得到对应的第一舆情数据后,该预设舆情系统可按照第一预设分类方法对所搜索到的第一舆情数据进行聚类分析,得到多个信息大类,如按照所搜索到的第一舆情数据所涉及的舆情主体对所搜索到的第一舆情数据进行聚类分析,以将相同主体的第一舆情数据划分为同一信息大类,例如,在搜索到的第一舆情数据所涉及的舆情主体包括球星A、球星B以及球星C时,则可将与球星A转会相关的第一舆情数据划分为信息大类A,将与球星B转会相关的第一舆情数据划分为信息大类B,以及与球星C转会相关的第一舆情数据划分为信息大类C。
其中,本发明实施例中,所述第一预设分类方法可根据用户所搜索的舆情事件的实际情况进行具体确定,如当用户所搜索的舆情事件涉及不同的舆情主体时,所述第一预设分类方法则可为根据舆情主体进行分类的方法;又如,当用户所搜索的舆情事件涉及不同的传播渠道或者传播来源时,所述第一预设分类方法则可为根据传播渠道和/或者传播来源进行分类的方法;再如,当用户所搜索的舆情事件涉及不同的时间段时,所述第一预设分类方法则可为根据时间段进行分类的方法,等等。
步骤S103、计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
本发明实施例中,在对搜索到的第一舆情数据进行聚类分析,得到多个信息大类后,可进一步计算各个信息大类的第一传播热度,并可根据该第一传播热度对各信息大类进行降序排列,即第一传播热度越大的信息大类的排序将越靠前,而第一传播热度越小的信息大类的排序则越靠后。其中,对于各信息大类的第一传播热度的计算将在后续内容中进行详细描述。
例如,在某一具体应用,当对搜索到的第一舆情数据进行聚类分析所得到的信息大类包括第一信息大类、第二信息大类、第三信息大类以及第四信息大类,并且计算得到第一信息大类的第一传播热度为500,第二信息大类的第一传播热度为800,第三信息大类的第一传播热度为4000,以及第四信息大类的第一传播热度为2700时,则可对各信息大类进行降序排列所得到的信息大类列表为(第三信息大类,第四信息大类,第二信息大类,第一信息大类)。
步骤S104、从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
需要说明的是,本发明实施例中,在从降序排列的数据中抽取位于某一预设数量阈值前的数据中,所抽取的数据包括该预设数量阈值中的数据,如当确定某一预设数量阈值为5时,则从降序排列的数据中抽取位于5前的数据中所抽取的数据则可包括排序第一至第五的数据。
可以理解的是,本发明实施例中,该预设舆情系统可自动根据该舆情事件确定输出给用户的信息大类的数量,也可在进行该预设舆情系统的构建时设置默认输出给用户的信息大类的数量,当然也可以由用户自行设置其所要的信息大类的数量,因而,当用户自行设置有其所要的信息大类的数量时,则可将用户自行设置的数量确定为所述第一预设数量阈值,而当用户未自行设置其所要的信息大类的数量时,则可将该预设舆情系统自动根据该舆情事件所确定的数量确定为所述第一预设数量阈值,或者将在进行该预设舆情系统的构建时所设置的默认输出的数量确定为所述第一预设数量阈值,以从降序排列的信息大类列表中抽取位于该第一预设数量阈值前的信息大类输出给用户,即从降序排列的信息大类列表中抽取排序在前的第一预设数量阈值数的信息大类输出给用户。
例如,在某一具体应用中,当用户未进行其所要的信息大类的数量的自行设置,而该预设舆情系统自动根据该舆情事件确定输出给用户的信息大类的数量为5个,且降序排列所得到的信息大类列表为(第三信息大类,第四信息大类,第二信息大类,第一信息大类,第七信息大类,第九信息大类,第六信息大类,第八信息大类,第五信息大类)时,则可从该信息大类列表中抽取排序在前的5个信息大类输出给用户,即可将第三信息大类、第四信息大类、第二信息大类、第一信息大类以及第七信息大类输出给用户。
进一步地,如图2所示,本发明实施例中,在按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类之后,还可以包括:
步骤S201、按照第二预设分类方法对所述信息大类中的第二舆情数据进行聚类分析,得到多个信息小类;
步骤S202、计算各个信息小类的第二传播热度;
步骤S203、根据所述第二传播热度在所述信息大类中对所述信息小类进行降序排列。
对于上述步骤S201至步骤S203,可以理解的是,在对第一舆情数据进行聚类分析,得到多个信息大类后,还可以根据第二预设分类方法对各信息大类中的第二舆情数据进行进一步的聚类分析,以在每一个信息大类中得到多个信息小类。其中,该第二舆情数据是指按照第一预设分类方法聚类至各信息大类中的第一舆情数据。
在此,所述第二预设分类方法可以为根据舆情主体进行分类的方法,也可以为根据传播渠道或者传播来源进行分类的方法,还可以为根据时间段进行分类的方法,等等。可以理解的是,在同一舆情事件的搜索中,所述第二预设分类方法应当为与所述第一预设分类方法不同的分类方法。
例如,在球星转会的具体应用场景中,当根据舆情主体对第一舆情数据进行聚类分析,得到与球星A转会相关的信息大类A、与球星B转会相关的信息大类B以及与球星C转会相关的信息大类C后,还可以进一步根据传播渠道分别对信息大类A、信息大类B以及信息大类C中的舆情数据进行再次的聚类分析,以基于传播渠道将各信息大类中的舆情数据进一步划分为多个信息小类,比如,将信息大类A中关于球星A转会的舆情数据划分为第一信息小类、第二信息小类以及第三信息小类,其中,第一信息小类为来源于社交媒体的与球星A转会相关的舆情数据,第二信息小类为来源于新闻媒体的与球星A转会相关的舆情数据,第三信息小类为来源于论坛的与球星A转会相关的舆情数据。对于信息大类B中关于球星B转会的舆情数据以及信息大类C中关于球星C转会的舆情数据,则可基于传播渠道进行同样地划分,以在信息大类B和信息大类C中得到对应的多个信息小类。
进一步地,在获取到某一信息大类中的各个信息小类后,则可进一步计算该信息大类中各个信息小类的第二传播热度,然后可根据第二传播热度在该信息大类中对各个信息小类进行降序排列,即第二传播热度越大的信息小类的排序将越靠前,而第二传播热度越小的信息小类的排序则越靠后,以使得用户在点击进入某一信息大类时,可按传播热度向用户展现各个信息小类,从而使得用户可快速找到该舆情事件的重点信息、关键性信息,以方便用户快速了解该舆情事件的发展情况。其中,对于各信息小类的第二传播热度的计算也将在后续内容中进行详细描述。
优选地,在从降序排列的信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户之后,可以包括:
步骤a、接收用户输入的第二搜索关键词;
步骤b、确定与所述第二搜索关键词相对应的信息大类;
步骤c、从所确定的信息大类中搜索与所述第二搜索关键词相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给所述用户。
对于上述步骤a至步骤c,可以理解的是,用户在得到该预设舆情系统第一次输出的搜索结果后,其还可对该搜索结果中进行二次搜索,以准确找到其所想要的舆情数据,即可在该预设舆情系统第一次搜索返回对应的信息大类之后,用户可进一步输入第二搜索关键词,该预设舆情系统在接收到该第二搜索关键词后,可首先确定该第二搜索关键词所对应的信息大类,然后在所确定的信息大类中进一步搜索与该第二搜索关键词相匹配的第三舆情数据。如在球星转会的具体应用场景中,当得到该预设舆情系统第一次搜索返回的信息大类A、信息大类B、信息大类C以及信息大类D后,用户还可进一步输入“球星A转会的会费”的第二搜索关键词,该预设舆情系统则可根据“球星A转会的会费”确定其所对应的信息大类,例如当确定与“球星A转会的会费”相对应的信息大类为信息大类A时,该预设舆情系统则可在信息大类A中进一步搜索与“球星A转会的会费”相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给用户。
需要说明的是,本发明实施例中,在接收到第一搜索关键词和第二搜索关键词后,该预设舆情系统还可以先对第一搜索关键词、第二搜索关键词进行清洗和提取等预处理,以去除无效词语,确保搜索关键词的精简性、有效性,从而更精确地得到搜索结果。
可选地,如图3所示,本发明实施例中,所述确定与所述第二搜索关键词相对应的信息大类,可以包括:
步骤S301、获取各信息大类所对应的核心关键词,所述核心关键词是指通过预设提取方式从各信息大类的第二舆情数据中提取出的关键词;
可以理解的是,本发明实施例中,在对搜索到的第一舆情数据进行聚类分析得到多个信息大类后,可首先抽取各信息大类中的第二舆情数据,该第二舆情数据为第一舆情数据中的一部分;然后对所抽取的第二舆情数据进行文本训练,得到词向量模型和词频-逆文档频率TF_IDF矩阵,并通过该TF_IDF矩阵确定出各信息大类所对应的第一关键词;随后,可通过该词向量模型来对各第一关键词进行拓展,即将各第一关键词分别输入至该词向量模型中,以得到该词向量模型输出的与各第一关键词语义相似的相似词语以及对应的语义相似度,并将语义相似度达到预设相似度阈值的相似词语确定为与对应的第一关键词相关的第二关键词,并将第一关键词以及相关的第二关键词确定为对应的信息大类所对应的核心关键词。其中,该预设相似度阈值可根据实际应用场景来进行具体设置或者自动确定。
如在某一具体应用场景中,根据TF_IDF矩阵确定出信息大类A所对应的第一关键词为[a,b,c],并根据词向量模型对第一关键词进行拓展后,所得到的第二关键词为[a1,a2,b1,b2,b3]时,即可将第一关键词[a,b,c]和第二关键词[a1,a2,b1,b2,b3]一起确定为信息大类A所对应的核心关键词,即信息大类A所对应的核心关键词为[a,b,c,a1,a2,b1,b2,b3],其中,a1和a2为通过该词向量模型确定的、与a的语义相似度达到该预设相似度阈值的词语,b1、b2及b3为通过该词向量模型确定的、与b语义相似度达到该预设相似度阈值的词语。
步骤S302、分别对所述核心关键词和所述第二搜索关键词进行向量化处理,得到所述核心关键词对应的第一向量和所述第二搜索关键词对应的第二向量;
在此,在确定了各信息大类所对应的核心关键词后,可分别对各核心关键词进行向量化处理,以得到各核心关键词对应的第一向量,并可同样对所接收到的第二搜索关键词进行向量化处理,以得到该第二搜索关键词对应的第二向量。在此,当该第二搜索关键词不止一个时,可首先分别对各第二搜索关键词进行向量化处理,以得到多个初始向量,然后计算得到多个初始向量的平均向量,并将所得到的平均向量确定为该第二搜索关键词对应的第二向量。
步骤S303、计算所述第二向量与各所述第一向量的余弦相似度;
步骤S304、获取余弦相似度大于预设相似度阈值的第一向量,并将所获取的第一向量所对应的信息大类确定为与所述第二搜索关键词相对应的信息大类。
对于上述步骤S303和步骤S304,可以理解的是,在得到各核心关键词对应的第一向量和该第二搜索关键词对应的第二向量后,即可利用余弦相似度公式分别计算第二向量与各第一向量的余弦相似度,以根据余弦相似度来确定与该第二搜索关键词相匹配的核心关键词,如当第二向量与核心关键词r对应的第一向量的余弦相似度大于预设余弦阈值时,则可确定该第二搜索关键词与核心关键词r相匹配,因而,可将核心关键词r所对应的信息大类确定为与该第二搜索关键词相对应的信息大类。在此,该预设余弦阈值可根据实际应用场景进行具体确定。
需要说明的是,本发明实施例中,当然也可以利用余弦相似度公式分别计算第二向量与各第一向量的余弦相似度后,获取具有最大余弦相似度所对应的第一向量,并将所获取的第一向量所对应的核心关键词确定为与该第二搜索关键词相匹配的核心关键词,如当第二向量与核心关键词q对应的第一向量的余弦相似度为0.8,第二向量与核心关键词s对应的第一向量的余弦相似度为0.3,第二向量与核心关键词t对应的第一向量的余弦相似度为0.4时,则可确定该第二搜索关键词与核心关键词q相匹配,即核心关键词q所对应的信息大类为与该第二搜索关键词相对应的信息大类。
进一步地,本发明实施例中,所述从所确定的信息大类中搜索与所述第二搜索关键词相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给所述用户,可以包括:
步骤d、从所确定的信息大类的各个信息小类中搜索与所述第二搜索关键词相匹配的第三舆情数据;
步骤e、计算搜索到的第三舆情数据的第三传播热度,并根据所述第三传播热度对所述第三舆情数据进行降序排列;
步骤f、从降序排列的所述第三舆情数据中抽取位于第二预设数量阈值前的第四舆情数据,并将所抽取的所述第四舆情数据输出给所述用户。
对于上述步骤d至步骤f,可以理解的是,因在每一个信息大类中均已将对应的舆情数据划分为多个信息小类,因而,在确定与该第二搜索关键词相对应的信息大类后,可在该信息大类的各信息小类中搜索与该第二搜索关键词相匹配的舆情数据,即上述所述的第三舆情数据,其中,该第三舆情数据为第二舆情数据中的一部分或者全部;在得到该第三舆情数据后,可进一步计算该第三舆情数据的传播热度,即上述所述的第三传播热度,并可根据该第三传播热度对各第三舆情数据进行降序排列,即第三传播热度越大的第三舆情数据的排序将越靠前,而第三传播热度越小的第三舆情数据的排序则越靠后;降序排列后,可抽取排序在前的、第二预设数量阈值数的舆情数据输出给用户,即将传播热度大的一个或者多个舆情数据输出给用户。其中,该第二预设数量阈值可根据实际应用场景进行具体确定。
优选地,本发明实施例中,所述计算各个信息小类的第二传播热度,可以包括:
获取各个信息小类中的舆情数据所对应的阅读量、评论量以及转发量,并根据下式计算各个信息小类中的舆情数据的第四传播热度:
WeightDatet,m,i=at,m,i*Readt,m,i+bt,m,i*Commentst,m,i+ct,m,i*Repostt,m,i
其中,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度,Readt,m,i为所述第i个舆情数据的阅读量,at,m,i为所述第i个舆情数据的阅读权重,Commentst,m,i为所述第i个舆情数据的评论量,bt,m,i为所述第i个舆情数据的评论权重,Repostt,m,i为所述第i个舆情数据的转发量,ct,m,i为所述第i个舆情数据的转发权重;
根据下式计算各个信息小类的第二传播热度:
其中,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度,n为第m个信息小类中舆情数据的数量,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度。
可选地,所述计算各个信息大类的第一传播热度,可以包括:
根据下式计算各个信息大类的第一传播热度:
其中,WeightClassBt为第t个信息大类的第一传播热度,p为第t个信息大类中信息小类的数量,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度。
可以理解的是,本发明实施例中,主要根据舆情数据的阅读量、转发量以及评论量来评估各舆情数据的传播热度,即上述所述的第四传播热度,也就是说,阅读量、评论量、转发量越大的舆情数据,将具有越高的传播热度,而阅读量、评论量、转发量越少的舆情数据,将具有越低的传播热度。优选地,本发明实施例中,在评估舆情数据的传播热度时,还可以考虑舆情数据的发布时间,例如,发布时间越新的舆情数据,可对应增加相应的传播热度,而发布时间越旧的舆情数据,则可对应减少相应的传播热度。
进一步地,本发明实施例中,可根据实际应用场景来设置各舆情数据的阅读权重、评论权重以及转发权重,其中,各舆情数据的阅读权重可以相同,也可以不同;各舆情数据的评论权重可以相同,也可以不同;同样地,各舆情数据的转发权重可以相同,也可以不同。
在此,在得到各舆情数据的第四传播热度后,即可将属于同一信息小类中的所有舆情数据的第四传播热度相加,以得到各信息小类的传播热度,即上述所述的第二传播热度,而在得到各信息小类的第二传播热度后,则可将同一信息大类中的所有信息小类的第二传播热度相加,以得到各信息大类的传播热度,即上述所述的第一传播热度。
本发明实施例中,可在预设舆情系统中接收用户输入的搜索关键词,并可根据搜索关键词搜索对应的舆情数据,在搜索到对应的舆情数据后,可按照预设分类方法将搜索到的舆情数据划分为多个信息大类,并统计各个信息大类的传播热度,随后抽取传播热度在前的多个信息大类返回给用户,从而实现根据搜索关键词搜索舆情数据,并根据传播热度分类输出舆情数据的目的,以方便用户快速找到其想要的舆情信息,极大地提高舆情信息的搜索效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种舆情搜索方法,下面将对一种舆情搜索装置进行详细描述。
如图4所示,本发明实施例提供了一种舆情搜索装置,所述舆情搜索装置包括:
舆情数据搜索模块401,用于接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
舆情数据聚类模块402,用于按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
第一传播热度计算模块403,用于计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
信息大类抽取模块404,用于从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
进一步地,所述舆情搜索装置,还包括:
信息小类获取模块,用于按照第二预设分类方法对所述信息大类中的第二舆情数据进行聚类分析,得到多个信息小类;
第二传播热度计算模块,用于计算各个信息小类的第二传播热度;
信息小类降序排列模块,用于根据所述第二传播热度在所述信息大类中对所述信息小类进行降序排列。
优选地,所述舆情搜索装置,包括:
第二搜索关键词接收模块,用于接收用户输入的第二搜索关键词;
信息大类确定模块,用于确定与所述第二搜索关键词相对应的信息大类;
第二搜索关键词搜索模块,用于从所确定的信息大类中搜索与所述第二搜索关键词相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给所述用户。
可选地,所述信息大类确定模块,包括:
核心关键词获取单元,用于获取各信息大类所对应的核心关键词,所述核心关键词是指通过预设提取方式从各信息大类的第二舆情数据中提取出的关键词;
向量化处理单元,用于分别对所述核心关键词和所述第二搜索关键词进行向量化处理,得到所述核心关键词对应的第一向量和所述第二搜索关键词对应的第二向量;
余弦相似度计算单元,用于计算所述第二向量与各所述第一向量的余弦相似度;
信息大类确定单元,用于获取余弦相似度大于预设相似度阈值的第一向量,并将所获取的第一向量所对应的信息大类确定为与所述第二搜索关键词相对应的信息大类。
进一步地,所述第二搜索关键词搜索模块,包括:
第二搜索关键词搜索单元,用于从所确定的信息大类的各个信息小类中搜索与所述第二搜索关键词相匹配的第三舆情数据;
第三传播热度计算单元,用于用于计算搜索到的第三舆情数据的第三传播热度,并根据所述第三传播热度对所述第三舆情数据进行降序排列;
舆情数据降序排列单元,用于从降序排列的所述第三舆情数据中抽取位于第二预设数量阈值前的第四舆情数据,并将所抽取的所述第四舆情数据输出给所述用户。
优选地,所述第二传播热度计算模块,包括:
第一计算单元,用于获取各个信息小类中的舆情数据所对应的阅读量、评论量以及转发量,并根据下式计算各个信息小类中的舆情数据的第四传播热度:WeightDatet,m,i=at,m,i*Readt,m,i+bt,m,i*Commentst,m,i+ct,m,i*Repostt,m,i
其中,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度,Readt,m,i为所述第i个舆情数据的阅读量,at,m,i为所述第i个舆情数据的阅读权重,Commentst,m,i为所述第i个舆情数据的评论量,bt,m,i为所述第i个舆情数据的评论权重,Repostt,m,i为所述第i个舆情数据的转发量,ct,m,i为所述第i个舆情数据的转发权重;
第二计算单元,用于根据下式计算各个信息小类的第二传播热度:
其中,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度,n为第m个信息小类中舆情数据的数量,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度。
可选地,所述第一传播热度计算模块403,用于根据下式计算各个信息大类的第一传播热度:
其中,WeightClassBt为第t个信息大类的第一传播热度,p为第t个信息大类中信息小类的数量,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度。
图5是本发明一实施例提供的一种终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如舆情搜索程序。所述处理器50执行所述计算机可读指令52时实现上述各个舆情搜索方法实施例中的步骤,例如图1所示的步骤S101至步骤S104。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至模块404的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种舆情搜索方法,其特征在于,包括:
接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
2.根据权利要求1所述的舆情搜索方法,其特征在于,在按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类之后,还包括:
按照第二预设分类方法对所述信息大类中的第二舆情数据进行聚类分析,得到多个信息小类;
计算各个信息小类的第二传播热度;
根据所述第二传播热度在所述信息大类中对所述信息小类进行降序排列。
3.根据权利要求2所述的舆情搜索方法,其特征在于,在从降序排列的信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户之后,包括:
接收用户输入的第二搜索关键词;
确定与所述第二搜索关键词相对应的信息大类;
从所确定的信息大类中搜索与所述第二搜索关键词相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给所述用户。
4.根据权利要求3所述的舆情搜索方法,其特征在于,所述确定与所述第二搜索关键词相对应的信息大类,包括:
获取各信息大类所对应的核心关键词,所述核心关键词是指通过预设提取方式从各信息大类的第二舆情数据中提取出的关键词;
分别对所述核心关键词和所述第二搜索关键词进行向量化处理,得到所述核心关键词对应的第一向量和所述第二搜索关键词对应的第二向量;
计算所述第二向量与各所述第一向量的余弦相似度;
获取余弦相似度大于预设相似度阈值的第一向量,并将所获取的第一向量所对应的信息大类确定为与所述第二搜索关键词相对应的信息大类。
5.根据权利要求3所述的舆情搜索方法,其特征在于,所述从所确定的信息大类中搜索与所述第二搜索关键词相匹配的第三舆情数据,并将所搜索到的第三舆情数据输出给所述用户,包括:
从所确定的信息大类的各个信息小类中搜索与所述第二搜索关键词相匹配的第三舆情数据;
计算搜索到的第三舆情数据的第三传播热度,并根据所述第三传播热度对所述第三舆情数据进行降序排列;
从降序排列的所述第三舆情数据中抽取位于第二预设数量阈值前的第四舆情数据,并将所抽取的所述第四舆情数据输出给所述用户。
6.根据权利要求2至5中任一项所述的舆情搜索方法,其特征在于,所述计算各个信息小类的第二传播热度,包括:
获取各个信息小类中的舆情数据所对应的阅读量、评论量以及转发量,并根据下式计算各个信息小类中的舆情数据的第四传播热度:
WeightDatet,m,i=at,m,i*Readt,m,i+bt,m,i*Commentst,m,i+ct,m,i*Repostt,m,i
其中,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度,Readt,m,i为所述第i个舆情数据的阅读量,at,m,i为所述第i个舆情数据的阅读权重,Commentst,m,i为所述第i个舆情数据的评论量,bt,m,i为所述第i个舆情数据的评论权重,Repostt,m,i为所述第i个舆情数据的转发量,ct,m,i为所述第i个舆情数据的转发权重;
根据下式计算各个信息小类的第二传播热度:
其中,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度,n为第m个信息小类中舆情数据的数量,WeightDatet,m,i为第t个信息大类的第m个信息小类中的第i个舆情数据的第四传播热度。
7.根据权利要求6所述的舆情搜索方法,其特征在于,所述计算各个信息大类的第一传播热度,包括:
根据下式计算各个信息大类的第一传播热度:
其中,WeightClassBt为第t个信息大类的第一传播热度,p为第t个信息大类中信息小类的数量,WeightClassSt,m为第t个信息大类中第m个信息小类的第二传播热度。
8.一种舆情搜索装置,其特征在于,包括:
舆情数据搜索模块,用于接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
舆情数据聚类模块,用于按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
第一传播热度计算模块,用于计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
信息大类抽取模块,用于从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述舆情搜索方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
接收用户输入的第一搜索关键词,并根据所述第一搜索关键词搜索对应的第一舆情数据;
按照第一预设分类方法对搜索到的第一舆情数据进行聚类分析,得到多个信息大类;
计算各个信息大类的第一传播热度,并根据所述第一传播热度对所述信息大类进行降序排列;
从降序排列的所述信息大类中抽取位于第一预设数量阈值前的信息大类,并输出所抽取的信息大类给所述用户。
CN201811340246.8A 2018-11-12 2018-11-12 一种舆情搜索方法、搜索装置、存储介质和终端设备 Pending CN109657116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811340246.8A CN109657116A (zh) 2018-11-12 2018-11-12 一种舆情搜索方法、搜索装置、存储介质和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811340246.8A CN109657116A (zh) 2018-11-12 2018-11-12 一种舆情搜索方法、搜索装置、存储介质和终端设备

Publications (1)

Publication Number Publication Date
CN109657116A true CN109657116A (zh) 2019-04-19

Family

ID=66110099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811340246.8A Pending CN109657116A (zh) 2018-11-12 2018-11-12 一种舆情搜索方法、搜索装置、存储介质和终端设备

Country Status (1)

Country Link
CN (1) CN109657116A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222513A (zh) * 2019-05-21 2019-09-10 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN110234037A (zh) * 2019-05-16 2019-09-13 北京百度网讯科技有限公司 视频片段的生成方法及装置、计算机设备及可读介质
CN110472019A (zh) * 2019-08-22 2019-11-19 北京明略软件系统有限公司 舆情搜索方法及装置
CN110609950A (zh) * 2019-08-02 2019-12-24 济南大学 一种舆情系统搜索词推荐方法及系统
CN110955818A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN111046264A (zh) * 2019-11-29 2020-04-21 江西省天轴通讯有限公司 舆情线索处理方法、系统、可读存储介质及计算机设备
CN111753172A (zh) * 2020-06-04 2020-10-09 南京晓庄学院 一种互联网舆情信息采集和处理方法
CN112989161A (zh) * 2021-03-10 2021-06-18 平安科技(深圳)有限公司 新闻舆情监控方法、装置、电子设备及存储介质
CN114297341A (zh) * 2021-12-08 2022-04-08 中国联合网络通信集团有限公司 一种舆情热度的确定方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177076A (zh) * 2012-12-28 2013-06-26 中联竞成(北京)科技有限公司 一种基于定点网站的舆情监测系统及方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
WO2014075572A1 (en) * 2012-11-16 2014-05-22 Tencent Technology (Shenzhen) Company Limited Method and apparatus for selecting a keyword
CN106257458A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情信息归类评估系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014075572A1 (en) * 2012-11-16 2014-05-22 Tencent Technology (Shenzhen) Company Limited Method and apparatus for selecting a keyword
CN103177076A (zh) * 2012-12-28 2013-06-26 中联竞成(北京)科技有限公司 一种基于定点网站的舆情监测系统及方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
CN106257458A (zh) * 2016-07-15 2016-12-28 合肥指南针电子科技有限责任公司 一种舆情信息归类评估系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110234037A (zh) * 2019-05-16 2019-09-13 北京百度网讯科技有限公司 视频片段的生成方法及装置、计算机设备及可读介质
CN110234037B (zh) * 2019-05-16 2021-08-17 北京百度网讯科技有限公司 视频片段的生成方法及装置、计算机设备及可读介质
CN110222513A (zh) * 2019-05-21 2019-09-10 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN110222513B (zh) * 2019-05-21 2023-06-23 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN110609950B (zh) * 2019-08-02 2022-09-16 济南大学 一种舆情系统搜索词推荐方法及系统
CN110609950A (zh) * 2019-08-02 2019-12-24 济南大学 一种舆情系统搜索词推荐方法及系统
CN110472019A (zh) * 2019-08-22 2019-11-19 北京明略软件系统有限公司 舆情搜索方法及装置
CN111046264A (zh) * 2019-11-29 2020-04-21 江西省天轴通讯有限公司 舆情线索处理方法、系统、可读存储介质及计算机设备
CN110955818A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN111753172A (zh) * 2020-06-04 2020-10-09 南京晓庄学院 一种互联网舆情信息采集和处理方法
CN112989161A (zh) * 2021-03-10 2021-06-18 平安科技(深圳)有限公司 新闻舆情监控方法、装置、电子设备及存储介质
CN114297341A (zh) * 2021-12-08 2022-04-08 中国联合网络通信集团有限公司 一种舆情热度的确定方法、装置、设备及存储介质
CN114297341B (zh) * 2021-12-08 2023-01-24 中国联合网络通信集团有限公司 一种舆情热度的确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109657116A (zh) 一种舆情搜索方法、搜索装置、存储介质和终端设备
Yan et al. Network-based bag-of-words model for text classification
Vega-Oliveros et al. A multi-centrality index for graph-based keyword extraction
Giannoulakis et al. Evaluating the descriptive power of Instagram hashtags
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
US7617176B2 (en) Query-based snippet clustering for search result grouping
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN101582080A (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN109472027A (zh) 一种基于博文相似性的社交机器人检测系统及方法
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN112380344A (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
CN111813905A (zh) 语料生成方法、装置、计算机设备及存储介质
Kaur et al. Semantic-based integrated plagiarism detection approach for english documents
CN116578729B (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
Abbasi et al. Organizing resources on tagging systems using t-org
CN113010771A (zh) 搜索引擎中的个性化语义向量模型的训练方法及装置
CN101840438A (zh) 面向源文献元关键词的检索系统
CN113705217B (zh) 一种面向电力领域知识学习的文献推荐方法及装置
Drias et al. Enhanced Elephant Herding Optimization for Large Scale Information Access on Social Media
CN116484079A (zh) 属性词挖掘方法及相关产品
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN112269877A (zh) 数据标注方法及装置
Niu et al. Microblog user interest mining based on improved textrank model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination