CN115062586A - 一种基于大数据和人工智能的热点话题处理方法 - Google Patents
一种基于大数据和人工智能的热点话题处理方法 Download PDFInfo
- Publication number
- CN115062586A CN115062586A CN202210940961.5A CN202210940961A CN115062586A CN 115062586 A CN115062586 A CN 115062586A CN 202210940961 A CN202210940961 A CN 202210940961A CN 115062586 A CN115062586 A CN 115062586A
- Authority
- CN
- China
- Prior art keywords
- topic
- information
- comment information
- content
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于话题处理技术领域,提供了一种基于大数据和人工智能的热点话题处理方法,所述方法包括以下步骤:根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;对访问用户数据进行分析,访问用户数据包括访问主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。本发明能够帮助网民了解热点话题所对应事件的全貌,进而产生有价值的观点态度。
Description
技术领域
本发明涉及话题处理技术领域,具体是涉及一种基于大数据和人工智能的热点话题处理方法。
背景技术
热门话题是指一定时间、一定范围内公众最为关心的热点问题,热门话题基本都是通过互联网而引起公众强烈关注,随着大数据智能的不断发展,网络热门话题的数量激增,通过进行话题检测和跟踪,根据网民的话题互动评论信息,能够得到群众的观点态度、意向和价值信息,这些观点态度和意向可能会成为有关机构进行决策的依据,因此,网民的话题互动评论信息应当准确,应当是在基本了解话题事件的全貌后发出的,但是,目前很多热门话题为了博取眼球,话题内容都是断章取义的,不能够反映话题事件的全貌,容易对网民造成错误导向,进而得不到有价值的观点态度和意向。因此,需要提供一种基于大数据和人工智能的热点话题处理方法,旨在解决或者缓解上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于大数据和人工智能的热点话题处理方法,以解决或者缓解上述背景技术中存在的问题。
本发明是这样实现的,一种基于大数据和人工智能的热点话题处理方法,所述方法包括以下步骤:
根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;
调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;
对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;
确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。
作为本发明进一步的方案:所述根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息的步骤,具体包括:
调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类;
对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签;
按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
作为本发明进一步的方案:所述根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息的步骤,具体包括:
对所有的访问内容进行汇总,将完全相同的访问内容归为一类;
对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容;
按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
作为本发明进一步的方案:对访问用户数据进行分析之前,必须经过对应的用户账号授权。
作为本发明进一步的方案:所述确定主话题内容上传者发送的话题后续信息,获取后续信息链接的步骤,具体包括:
根据主话题内容上传者后续发送的话题内容中是否携带主话题标签确定是否为话题后续信息;
当确定主话题内容上传者后续发送的话题内容为话题后续信息时,获取话题后续信息所对应的后续信息链接。
作为本发明进一步的方案:所述方法还包括:
对关联信息链接和后续信息链接所对应的内容进行查重;
当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接。
作为本发明进一步的方案:所述第一置顶评论信息、第二置顶评论信息以及第三置顶评论信息每隔设定时间段会自动进行更新。
本发明的另一目的在于提供一种基于大数据和人工智能的热点话题处理系统,所述系统包括:
热点话题确定模块,用于根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;
第一置顶评论信息模块,用于调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;
第二置顶评论信息模块,用于对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;
第三置顶评论信息模块,用于确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。
作为本发明进一步的方案:所述第一置顶评论信息模块包括:
话题标签分类单元,用于调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类;
子话题标签确定单元,用于对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签;
子话题标签整合单元,用于按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
作为本发明进一步的方案:所述第二置顶评论信息模块包括:
访问内容分类单元,用于对所有的访问内容进行汇总,将完全相同的访问内容归为一类;
关联访问内容确定单元,用于对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容;
关联信息链接整合单元,用于按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
作为本发明进一步的方案:所述第三置顶评论信息模块包括:
话题后续信息判定单元,用于根据主话题内容上传者后续发送的话题内容中是否携带主话题标签确定是否为话题后续信息;
后续信息链接获取单元,当确定主话题内容上传者后续发送的话题内容为话题后续信息时,获取话题后续信息所对应的后续信息链接。
作为本发明进一步的方案:所述系统还包括链接查重模块,所述链接查重模块包括:
链接内容查重单元,用于对关联信息链接和后续信息链接所对应的内容进行查重;
链接保留删除单元,当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接。
与现有技术相比,本发明的有益效果是:
本发明通过调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;对访问用户数据进行分析,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息;进而方便用户直接点击查看相关子话题内容、主话题的关联信息以及主话题的后续信息,尽可能使得网民了解热点话题所对应事件的全貌,这样网民才能够发出准确的话题互动评论信息,产生有价值的观点态度和意向。
附图说明
图1为一种基于大数据和人工智能的热点话题处理方法的流程图。
图2为一种基于大数据和人工智能的热点话题处理方法中根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息的流程图。
图3为一种基于大数据和人工智能的热点话题处理方法中根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息的流程图。
图4为一种基于大数据和人工智能的热点话题处理方法中确定主话题内容上传者发送的话题后续信息,获取后续信息链接的流程图。
图5为一种基于大数据和人工智能的热点话题处理方法中对关联信息链接和后续信息链接所对应的内容进行查重的流程图。
图6为一种基于大数据和人工智能的热点话题处理系统的结构示意图。
图7为一种基于大数据和人工智能的热点话题处理系统中第一置顶评论信息模块的结构示意图。
图8为一种基于大数据和人工智能的热点话题处理系统中第二置顶评论信息模块的结构示意图。
图9为一种基于大数据和人工智能的热点话题处理系统中第三置顶评论信息模块的结构示意图。
图10为一种基于大数据和人工智能的热点话题处理系统中链接查重模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种基于大数据和人工智能的热点话题处理方法,所述方法包括以下步骤:
S100,根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;
S200,调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;
S300,对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;
S400,确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。
需要说明的是,热门话题是指一定时间、一定范围内公众最为关心的热点问题,热门话题基本都是通过互联网而引起公众强烈关注,随着大数据智能的不断发展,网络热门话题的数量激增,通过进行话题检测和跟踪,根据网民的话题互动评论信息,能够得到群众的观点态度、意向和价值信息,这些观点态度和意向可能会成为有关机构进行决策的依据,因此,网民的话题互动评论信息应当准确,应当是在基本了解话题事件的全貌后发出的,但是,目前很多热门话题为了博取眼球,话题内容都是断章取义的,不能够反映话题事件的全貌,容易对网民造成错误导向,进而得不到有价值的观点态度和意向,本发明实施例旨在解决或者缓解上述问题。
本发明实施例中,首先会根据话题热度确定热点话题,并获取对应的主话题内容和主话题标签,目前各大社交媒体平台都有话题热度的计算方式,且基本都有自己的话题标签格式,例如#话题#表示话题标签,这里不再赘述;然后调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息,需要说明的是,很多热心网民会觉得某些子话题内容与主话题内容有关联或者是对主话题内容的补充,就会在评论区打上子话题标签,点击子话题标签就能够跳转到子话题内容页面,因此,对评论区的子话题标签进行整合是非常有必要的;接着本发明实施例会自动对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息,需要说明的是,当人们在查看一个话题时,对于不懂的地方会进行搜索,然后查看搜索得到的话题内容,那么这两个话题就会存在关联,且用户是接连进行访问的,根据这一特性,本发明实施例能够自动确定关联信息链接,用户点击关联信息链接就会看到关联内容,十分方便,对访问用户数据进行分析之前,必须经过对应的用户账号授权,避免侵犯隐私,所述M为定值,例如M=3。
此外,本发明实施例会确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息,容易理解,很多热点话题是正在发生的事件,随着时间流逝会有后续进展,主话题内容上传者会发送对应的话题后续信息,这些话题后续信息有助于网民了解事件全貌,因此,有必要将所有的后续信息链接进行整合得到第三置顶评论信息。
如图2所示,作为本发明一个优选的实施例,所述根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息的步骤,具体包括:
S201,调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类;
S202,对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签;
S203,按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
本发明实施例中,为了得到第一置顶评论信息,便于网民快速了解相关子话题,会自动调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类,话题标签具体内容相同的分为一类,接着对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签,第一数量值为事先设定的定值,例如#xx事件#在评论区中出现的次数达到第一数量值,则#xx事件#为一个子话题标签,子话题标签可能有很多,这里只取N个,N为正整数,具体的,按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
如图3所示,作为本发明一个优选的实施例,所述根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息的步骤,具体包括:
S301,对所有的访问内容进行汇总,将完全相同的访问内容归为一类;
S302,对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容;
S303,按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
本发明实施例中,为了得到第二置顶评论信息,需要对访问用户数据中的所有的访问内容进行汇总,将完全相同的访问内容归为一类,例如A用户和B用户在查看热点话题之后,紧接着都查看了L话题,则A用户访问的L话题和B用户访问的L话题被归为一类,接着对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容,第二数量值为事先设定的定值,例如L话题在所有访问内容中出现的次数达到第二数量值,L话题即为关联访问内容,关联访问内容可能有很多,这里只取K个,K为正整数,具体的,按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
如图4所示,作为本发明一个优选的实施例,所述确定主话题内容上传者发送的话题后续信息,获取后续信息链接的步骤,具体包括:
S401,根据主话题内容上传者后续发送的话题内容中是否携带主话题标签确定是否为话题后续信息;
S402,当确定主话题内容上传者后续发送的话题内容为话题后续信息时,获取话题后续信息所对应的后续信息链接。
本发明实施例中,当主话题内容上传者后续发送的话题内容中携带有主话题标签,则自动确定所述后续发送的话题为话题后续信息;如果主话题内容上传者后续发送的话题内容中没有携带主话题标签,则不是话题后续信息。
如图5所示,作为本发明一个优选的实施例,所述方法还包括:
S501,对关联信息链接和后续信息链接所对应的内容进行查重;
S502,当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接。
本发明实施例中,容易理解,第二置顶评论信息和/或第三置顶评论信息中的两个不同链接对应的内容可能高度相似,那么就应当删除其中一个连接,因此,本发明实施例会自动对关联信息链接和后续信息链接所对应的内容进行查重,当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接,其它的链接删除,设定重复值为定值,例如为60%。另外,所述第一置顶评论信息、第二置顶评论信息以及第三置顶评论信息每隔设定时间段会自动进行更新,直到主话题不再是热点话题,不进行更新。
如图6所示,本发明实施例还提供了一种基于大数据和人工智能的热点话题处理系统,所述系统包括:
热点话题确定模块100,用于根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;
第一置顶评论信息模块200,用于调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;
第二置顶评论信息模块300,用于对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;
第三置顶评论信息模块400,用于确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。
如图7所示,作为本发明一个优选的实施例,所述第一置顶评论信息模块200包括:
话题标签分类单元201,用于调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类;
子话题标签确定单元202,用于对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签;
子话题标签整合单元203,用于按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
如图8所示,作为本发明一个优选的实施例,所述第二置顶评论信息模块300包括:
访问内容分类单元301,用于对所有的访问内容进行汇总,将完全相同的访问内容归为一类;
关联访问内容确定单元302,用于对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容;
关联信息链接整合单元303,用于按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
如图9所示,作为本发明一个优选的实施例,所述第三置顶评论信息模块400包括:
话题后续信息判定单元401,用于根据主话题内容上传者后续发送的话题内容中是否携带主话题标签确定是否为话题后续信息;
后续信息链接获取单元402,当确定主话题内容上传者后续发送的话题内容为话题后续信息时,获取话题后续信息所对应的后续信息链接。
如图10所示,作为本发明一个优选的实施例,所述系统还包括链接查重模块500,所述链接查重模块500包括:
链接内容查重单元501,用于对关联信息链接和后续信息链接所对应的内容进行查重;
链接保留删除单元502,当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (7)
1.一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述方法包括以下步骤:
根据话题热度确定热点话题,获取对应的主话题内容和主话题标签;
调取主话题内容下的评论信息,根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息;
对访问用户数据进行分析,访问用户数据包括访问所述主话题内容前和后的最近M个访问内容,根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息;
确定主话题内容上传者发送的话题后续信息,获取后续信息链接,对所有的后续信息链接进行整合得到第三置顶评论信息。
2.根据权利要求1所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述根据评论信息确定子话题标签,对子话题标签进行整合得到第一置顶评论信息的步骤,具体包括:
调取评论信息中所有的话题标签,根据话题标签具体内容对所有的话题标签进行分类;
对每类中的话题标签进行计数,当计数数量达到第一数量值时,确定对应的话题标签为子话题标签;
按照计数数量对所有的子话题标签进行降序排列,对排列中前N个子话题标签进行整合得到第一置顶评论信息。
3.根据权利要求1所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述根据访问内容确定关联信息链接,对关联信息链接进行整合得到第二置顶评论信息的步骤,具体包括:
对所有的访问内容进行汇总,将完全相同的访问内容归为一类;
对每类中的访问内容数量进行计数,当计数数量达到第二数量值时,确定对应的访问内容为关联访问内容;
按照计数数量对所有的关联访问内容进行降序排列,调取排列中前K个关联访问内容对应的关联信息链接,对调取的关联信息链接进行整合得到第二置顶评论信息。
4.根据权利要求3所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,对访问用户数据进行分析之前,必须经过对应的用户账号授权。
5.根据权利要求1所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述确定主话题内容上传者发送的话题后续信息,获取后续信息链接的步骤,具体包括:
根据主话题内容上传者后续发送的话题内容中是否携带主话题标签确定是否为话题后续信息;
当确定主话题内容上传者后续发送的话题内容为话题后续信息时,获取话题后续信息所对应的后续信息链接。
6.根据权利要求1所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述方法还包括:
对关联信息链接和后续信息链接所对应的内容进行查重;
当不同链接对应的内容的重复率达到设定重复值时,只保留其中一个链接。
7.根据权利要求1所述一种基于大数据和人工智能的热点话题处理方法,其特征在于,所述第一置顶评论信息、第二置顶评论信息以及第三置顶评论信息每隔设定时间段会自动进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940961.5A CN115062586B (zh) | 2022-08-08 | 2022-08-08 | 一种基于大数据和人工智能的热点话题处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940961.5A CN115062586B (zh) | 2022-08-08 | 2022-08-08 | 一种基于大数据和人工智能的热点话题处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115062586A true CN115062586A (zh) | 2022-09-16 |
CN115062586B CN115062586B (zh) | 2023-06-23 |
Family
ID=83207849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210940961.5A Active CN115062586B (zh) | 2022-08-08 | 2022-08-08 | 一种基于大数据和人工智能的热点话题处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062586B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034672A (zh) * | 2011-09-29 | 2013-04-10 | 云壤(北京)信息技术有限公司 | 社会化搜索系统及搜索方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108153723A (zh) * | 2017-12-27 | 2018-06-12 | 北京百度网讯科技有限公司 | 热点资讯评论文章生成方法、装置及终端设备 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
CN110472013A (zh) * | 2019-08-06 | 2019-11-19 | 湖南蚁坊软件股份有限公司 | 一种热门话题更新方法、装置和计算机存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN111125305A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 热门话题确定方法、装置、存储介质及电子设备 |
CN111310079A (zh) * | 2020-02-14 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 评论信息排序方法、装置、存储介质及服务器 |
CN111339247A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
US20200409962A1 (en) * | 2019-06-27 | 2020-12-31 | Atlassian Pty Ltd. | Topic-specific reputation scoring and topic-specific endorsement notifications in a collaboration tool |
CN113158040A (zh) * | 2021-04-19 | 2021-07-23 | 广州欢网科技有限责任公司 | 智能电视热点标签提炼及相关视频推荐方法、装置和设备 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
CN113282715A (zh) * | 2021-07-08 | 2021-08-20 | 东莞心启航联贸网络科技有限公司 | 结合深度学习的大数据话题评论情绪分析方法及服务器 |
CN113741759A (zh) * | 2021-11-06 | 2021-12-03 | 腾讯科技(深圳)有限公司 | 评论信息的展示方法、装置、计算机设备和存储介质 |
CN113987176A (zh) * | 2021-10-25 | 2022-01-28 | 深圳市易平方网络科技有限公司 | 一种内容热度标签生成方法、智能终端及存储介质 |
CN114090756A (zh) * | 2022-01-11 | 2022-02-25 | 杭银消费金融股份有限公司 | 一种舆情信息的智能化处理方法、设备、存储介质 |
CN114443799A (zh) * | 2021-12-28 | 2022-05-06 | 崔冬 | 基于大数据和人工智能的热点话题处理方法及服务器 |
-
2022
- 2022-08-08 CN CN202210940961.5A patent/CN115062586B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034672A (zh) * | 2011-09-29 | 2013-04-10 | 云壤(北京)信息技术有限公司 | 社会化搜索系统及搜索方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
CN108153723A (zh) * | 2017-12-27 | 2018-06-12 | 北京百度网讯科技有限公司 | 热点资讯评论文章生成方法、装置及终端设备 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
US20200409962A1 (en) * | 2019-06-27 | 2020-12-31 | Atlassian Pty Ltd. | Topic-specific reputation scoring and topic-specific endorsement notifications in a collaboration tool |
CN110472013A (zh) * | 2019-08-06 | 2019-11-19 | 湖南蚁坊软件股份有限公司 | 一种热门话题更新方法、装置和计算机存储介质 |
CN110705288A (zh) * | 2019-09-29 | 2020-01-17 | 武汉海昌信息技术有限公司 | 一种基于大数据的舆情分析系统 |
CN111125305A (zh) * | 2019-12-05 | 2020-05-08 | 东软集团股份有限公司 | 热门话题确定方法、装置、存储介质及电子设备 |
CN111339247A (zh) * | 2020-02-11 | 2020-06-26 | 安徽理工大学 | 一种微博子话题用户评论情感倾向性分析方法 |
CN111310079A (zh) * | 2020-02-14 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 评论信息排序方法、装置、存储介质及服务器 |
CN113158040A (zh) * | 2021-04-19 | 2021-07-23 | 广州欢网科技有限责任公司 | 智能电视热点标签提炼及相关视频推荐方法、装置和设备 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
CN113282715A (zh) * | 2021-07-08 | 2021-08-20 | 东莞心启航联贸网络科技有限公司 | 结合深度学习的大数据话题评论情绪分析方法及服务器 |
CN113987176A (zh) * | 2021-10-25 | 2022-01-28 | 深圳市易平方网络科技有限公司 | 一种内容热度标签生成方法、智能终端及存储介质 |
CN113741759A (zh) * | 2021-11-06 | 2021-12-03 | 腾讯科技(深圳)有限公司 | 评论信息的展示方法、装置、计算机设备和存储介质 |
CN114443799A (zh) * | 2021-12-28 | 2022-05-06 | 崔冬 | 基于大数据和人工智能的热点话题处理方法及服务器 |
CN114090756A (zh) * | 2022-01-11 | 2022-02-25 | 杭银消费金融股份有限公司 | 一种舆情信息的智能化处理方法、设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
SHI XUEWEN 等: "Tag Recommendation by Word-Level Tag Sequence Modeling", 《DATABASE SYSTEMS FOR ADVANCED APPLICATIONS. DASFAA 2019》, vol. 11448, pages 420 * |
董少林 等: "采用Scrapy分布式爬虫技术的微博热点舆情信息获取与分析", 《电脑与信息技术》, vol. 25, no. 05, pages 23 - 26 * |
Also Published As
Publication number | Publication date |
---|---|
CN115062586B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zubiaga et al. | Exploiting context for rumour detection in social media | |
AlDayel et al. | Stance detection on social media: State of the art and trends | |
Zhou et al. | Fake news: A survey of research, detection methods, and opportunities | |
US20230334254A1 (en) | Fact checking | |
Stahl | Fake news detection in social media | |
Guo et al. | Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling | |
US10915539B2 (en) | Apparatus, systems and methods for scoring and distributing the reliablity of online information | |
CN108509482B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
WO2020119508A1 (zh) | 视频切割方法、装置、计算机设备和存储介质 | |
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110321436B (zh) | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 | |
Spezzano et al. | That's Fake News! Reliability of News When Provided Title, Image, Source Bias & Full Article | |
CN113342972B (zh) | 舆情识别模型训练方法、系统以及舆情风险监测方法和系统 | |
US20210374681A1 (en) | System and method for providing job recommendations based on users' latent skills | |
CN113254777B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN114218958A (zh) | 工单处理方法、装置、设备和存储介质 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
CN109933709B (zh) | 视频文本组合数据的舆情跟踪方法、装置和计算机设备 | |
Nakov et al. | A survey on predicting the factuality and the bias of news media | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
Lathiya et al. | Birds of a feather check together: Leveraging homophily for sequential rumour detection | |
CN110851709B (zh) | 资讯推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |