CN116561401A - 一种基于大数据分析的资讯热点提炼方法及系统 - Google Patents

一种基于大数据分析的资讯热点提炼方法及系统 Download PDF

Info

Publication number
CN116561401A
CN116561401A CN202310610051.5A CN202310610051A CN116561401A CN 116561401 A CN116561401 A CN 116561401A CN 202310610051 A CN202310610051 A CN 202310610051A CN 116561401 A CN116561401 A CN 116561401A
Authority
CN
China
Prior art keywords
entry
heat
index
time information
information corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310610051.5A
Other languages
English (en)
Other versions
CN116561401B (zh
Inventor
张世福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxinhuijin Co ltd
Original Assignee
Beijing Guoxinhuijin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxinhuijin Co ltd filed Critical Beijing Guoxinhuijin Co ltd
Priority to CN202310610051.5A priority Critical patent/CN116561401B/zh
Publication of CN116561401A publication Critical patent/CN116561401A/zh
Application granted granted Critical
Publication of CN116561401B publication Critical patent/CN116561401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据分析的资讯热点提炼方法及系统,涉及数据处理技术领域,方法包括:对第一应用网页的用户数据词条分别进行热度分析,获取词条热度集合,根据词条内容信息和词条时间信息搭建第一词条比对库,确定第一热度词条和第一热度词条对应的时间信息,获取匹配词条结果,并比对第一热度词条对应的时间信息与匹配词条结果对应的时间信息,获取第一近邻指数,当第一近邻指数大于等于预设近邻指数,根据第一热度词条进行提炼,本发明解决了现有技术中由于人工对资讯热点词条进行提炼时,导致资讯热点捕获率低的技术问题,实现了基于大数据分析对资讯热点进行合理化精准提炼,提高资讯热点捕获率。

Description

一种基于大数据分析的资讯热点提炼方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据分析的资讯热点提炼方法及系统。
背景技术
随着互联网的快速发展,互联网资讯更新更加频繁,市场上会在短时间内爆发出非常多的资讯信息,过多的资讯信息使得用户应接不暇,如何在后台的海量资讯集合中准确快速地获取到热点资讯并及时展现给用户,变得非常困难。
目前通常是采用人工配置资讯的方式,对于实时热点关键词,通过大量的人工手动挑选若干与之相关的资讯并展现给用户。但是,由于实时热点更新频繁,且人工对资讯热点词条进行提炼时,会存在资讯热点捕获率低的问题。
发明内容
本申请提供了一种基于大数据分析的资讯热点提炼方法及系统,用于针对解决现有技术中存在的由于人工对资讯热点词条进行提炼时,导致资讯热点捕获率低的技术问题。
鉴于上述问题,本申请提供了一种基于大数据分析的资讯热点提炼方法及系统。
第一方面,本申请提供了一种基于大数据分析的资讯热点提炼方法,所述方法包括:采集第一应用网页的用户数据词条;对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
第二方面,本申请提供了一种基于大数据分析的资讯热点提炼系统,所述系统包括:词条获取模块,所述词条获取模块用于采集第一应用网页的用户数据词条;词条热度模块,所述词条热度模块用于对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;比对库搭建模块,所述比对库搭建模块用于对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;第一热度词条模块,所述第一热度词条模块用于根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;比对模块,所述比对模块用于以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;提炼模块,所述提炼模块用于当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请提供的一种基于大数据分析的资讯热点提炼方法及系统,涉及数据处理技术领域,解决了现有技术中由于人工对资讯热点词条进行提炼时,导致资讯热点捕获率低的技术问题,实现了基于大数据分析对资讯热点进行合理化精准提炼,提高资讯热点捕获率。
附图说明
图1为本申请提供了一种基于大数据分析的资讯热点提炼方法流程示意图;
图2为本申请提供了一种基于大数据分析的资讯热点提炼方法中获取词条热度集合流程示意图;
图3为本申请提供了一种基于大数据分析的资讯热点提炼方法中输出匹配词条结果流程示意图;
图4为本申请提供了一种基于大数据分析的资讯热点提炼方法中近邻指数大于等于预设近邻指数流程示意图;
图5为本申请提供了一种基于大数据分析的资讯热点提炼系统结构示意图。
附图标记说明:词条获取模块1,词条热度模块2,比对库搭建模块3,第一热度词条模块4,比对模块5,提炼模块6。
具体实施方式
本申请通过提供一种基于大数据分析的资讯热点提炼方法及系统,用于解决现有技术中由于人工对资讯热点词条进行提炼时,导致资讯热点捕获率低的技术问题。
实施例一
如图1所示,本申请实施例提供了一种基于大数据分析的资讯热点提炼方法,该方法包括:
步骤S100:采集第一应用网页的用户数据词条;
具体而言,本申请实施例提供的一种基于大数据分析的资讯热点提炼方法应用于一种基于大数据分析的资讯热点提炼系统,为保证对资讯热点提炼的准确性,因此需要对第一应用网页的用户数据词条进行采集,第一应用网页是指在互联网中所存在的所有包含资讯的应用网页中随机选择的一个应用网页,并对所选第一应用网页中的用户数据词条进行提取,用户数据词条是指反应用户属性、用户相关的数据可以是字、词,也可以由字、词等组成,用户数据词条是第一应用网页构成的基本单元,是对用户数据中的概念、事物、现象及最新发现等概念所进行的解释,为后期实现对资讯热点进行提炼作为重要参考依据。
步骤S200:对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;
进一步而言,如图2所示,本申请步骤S200还包括:
步骤S210:根据所述用户数据词条,获取词条基础热度指标,所述词条基础热度指标包括同一用户的点击量重复指标、用户总点击量指标、词条分享指标以及词条评论指标;
步骤S220:根据所述用户数据词条,获取词条人物影响指标;
步骤S230:根据所述词条人物影响指标对所述用户数据词条分别进行热度分析,获取词条热度集合。
具体而言,为获取第一应用网页中的热点词条,首先对第一应用网页中所有的用户数据词条进行不同程度的词条热度分析,是指根据用户数据词条,对每个用户数据词条的基础热度进行获取,是指在第一应用网页上,判别每个用户数据词条的热度的标准,将其记作用户数据词条的基础热度指标,同时在词条基础热度指标中包含对同一用户的点击量重复指标、用户总点击量指标、词条分享指标以及词条评论指标,进一步的,在用户数据词条的基础上,对用户词条与词条基础热度指标进行比较,即判断用户数据词条是否达到同一用户的点击量重复指标和/或用户总点击量指标和/或词条分享指标和/或词条评论指标,根据用户数据词条的达标程度,对词条人物影响指标进行获取,其用户数据词条的达标程度与词条人物影响指标为正比关系,用户数据词条的达标程度越高则词条人物影响指标越高,进一步的,在所获词条人物影响指标的基础上,对用户数据词条进行对应热度分析,是指以词条人物影响指标作为热度分析基准,对每个用户数据词条所对应的热度程度进行匹配,即词条人物影响指标越高则用户数据词条越高,并将与热度匹配完成的用户数据词条进行汇总整合后记作词条热度集合,进而为实现对资讯热点进行提炼做保障。
步骤S300:对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;
具体而言,为精准获得第一应用网页用户数据词条中所包含的信息,因此首先对第一应用网页中进行记录的历史热度词条进行采集,历史热度词条是指在当前时刻之前已经满足同一用户的点击量重复指标、用户总点击量指标、词条分享指标以及词条评论指标的用户数据词条,且在历史热度词条中所对应的用户数据词条中的词条内容信息以及词条时间信息,词条内容信息是指用户数据中的词目、注音、释义、例证、语用和参见等信息,词条时间信息是词条内容所对应具有的时间属性,进一步的,将上述所采集到的词条内容信息作为比对数据,将词条时间信息作为索引信息构建第一词条比对库,为后续实现对资讯热点进行提炼夯实基础。
步骤S400:根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;
具体而言,在对所述用户数据词条分别进行热度分析所获取的词条热度集合的基础上,对第一热度词条进行确定,第一热度词条是指在词条热度集合中任意选取的一个热度词条,且在第一热度词条中具有时间节点信息,是指根据词条热度集合中对每个用户数据词条所发布的时间与每个用户数据词条的热度进行关联,进一步的,对第一热度词条以及第一热度词条所对应的时间信息进行确定,实现对资讯热点进行提炼有着限定的作用。
步骤S500:以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;
进一步而言,如图3所示,本申请步骤S500还包括:
步骤S510:获取所述第一热度词条的人物对象和事件关键词;
步骤S520:以所述人物对象和所述事件关键词对所述第一词条比对库进行比对,当所述人物对象的匹配度达到预设匹配度,且所述事件关键词的匹配度达到所述预设匹配度,输出所述匹配词条结果。
进一步而言,本申请步骤S500还包括:
步骤S530:根据所述匹配词条结果对应的时间信息进行事件分析,输出所述匹配词条结果的事件序列;
步骤S540:判断所述第一热度词条对应的时间信息是否与所述事件序列为顺序时间关系,若为顺序时间关系,获取第一间隔时长,其中,所述第一间隔时长为所述第一热度词条与所述事件序列中处于末尾词条的间隔;
步骤S550:根据所述第一间隔时长,获取第一近邻指数。
进一步而言,本申请步骤S540包括:
步骤S541:根据所述匹配词条结果对应的时间信息进行事件分析,判断是否包括重叠时间信息的词条,若包括重叠时间信息的词条,根据所述词条,生成事件分支;
步骤S542:根据所述第一热度词条对应的时间信息,得到所述事件分支的匹配分支;
步骤S543:根据所述事件分支的匹配分支获取所述第一间隔时长。
具体而言,为提高对资讯热点的提炼效率,因此将第一热度词条作为搜选目标,在上述所搭建的第一词条比对库进行词条比对搜寻,是指对第一热度词条的人物对象和事件关键词在用户数据词条中进行提取,在第一热度词条中人物出现频率高于80%,则视为第一热度词条中的人物对象,事件关键词是指在第一热度词条中的词汇覆盖率达到75%,则视为第一热度词条中的事件关键词,进一步的,以人物对象和事件关键词作为索引数据在第一词条比对库中进行比对搜寻,即依次对第一词条比对库中词条内容信息所包含的人物对象和事件关键词与第一热度词条的人物对象和事件关键词进行比对,进一步的,当人物对象的匹配度达到预设匹配度,且事件关键词的匹配度达到预设匹配度时,对匹配词条结果进行输出,其中,预设匹配度由相关技术人员根据热度词条中所具有的人物对象和事件关键词数据量进行预设。
对热度词条之间的时间临近程度进行比对,是指将第一比对热度词条所对应的时间信息与匹配词条结果中所对应的时间信息进行比对,即首先根据匹配词条结果对应的时间信息进行事件分析,是指将所获匹配词条结果中所包含的热度词条根据每个热度词条的时间先后顺序对热度词条进行顺序排序,从而对匹配词条结果的事件序列进行输出,进一步的,对第一热度词条对应的时间信息是否与事件序列为顺序时间关系进行判断,若第一热度词条对应的时间信息与事件序列为顺序时间关系,则视为第一热度词条存在于匹配词条结果的事件序列顺序之后,且根据每个热度词条所具有的时间信息对第一热度词条与事件序列中处于末尾词条的时间间隔进行作差并提取,对第一间隔时长进行获取,即第一间隔时长为第一热度词条与事件序列中处于末尾词条的间隔,第一时间间隔是根据匹配词条结果对应的时间信息进行事件分析,对匹配词条结果中是否包括重叠时间信息的词条进行判断,若匹配词条结果中包括重叠时间信息的词条,则基于词条的重叠时间信息对包含不同词条内容信息的词条进行区分,即两个词条所包含的词条时间信息相同但词条内容信息不同,在此基础上对事件分支进行生成,在第一热度词条对应的时间信息的基础上,对与第一热度词条对应的时间信息相同而词条内容不同的热度词条进行事件分支匹配,得到事件分支的匹配分支,继而根据事件分支的匹配分支将二者的间隔时长记作第一间隔时长,根据第一间隔时长,对第一热度词条的第一近邻指数进行获取,第一近邻指数越高,则二者时间间隔越短,是指第一间隔时长与第一近邻指数为反比关系,若第一间隔时长越长则第一近邻指数越低,以便为后期对资讯热点进行提炼时作为参照数据。
步骤S600:当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
进一步而言,如图4所示,本申请步骤S600还包括:
步骤S610:当所述第一近邻指数小于所述预设近邻指数,获取第二热度词条和所述第二热度词条对应的时间信息;
步骤S620:根据所述第二热度词条和所述第二热度词条对应的时间信息进行比对,获取第二近邻指数;
步骤S630:对所述第二近邻指数进行判断,若所述第二近邻指数小于所述预设近邻指数,获取第三热度词条和所述第三热度词条对应的时间信息并进行比对,以此类推,直至近邻指数大于等于所述预设近邻指数。
进一步而言,本申请步骤S630包括:
步骤S631:判断所述词条热度集合是否更新,若所述词条热度集合已更新,对所述词条热度集合中近邻指数小于所述预设近邻指数的词条进行标识,输出词条标识结果;
步骤S632:按照所述词条标识结果为约束条件获取下一待比对的目标词条。
具体而言,以上述所获第一近邻指数作为比对目标,对第一近邻指数与预设近邻指数进行比对,其中所获预设近邻指数由相关技术人员根据热度词条之间的时间数据进行预设,当第一近邻指数小于预设近邻指数时,视为第一热度词条对应的时间信息与匹配词条结果对应的时间信息为时间相距较远的热度词条,并将此时所获的热度词条记作第二热度词条,并将与第二热度词条所对应的时间记作第二热度词条对应的时间信息,进一步的,以第二热度词条和第二热度词条对应的时间信息作为对比目标,将第二热度词条和第二热度词条对应的时间信息与匹配词条结果对应的时间信息进行比对,对与第二热度词条所对应的第二近邻指数进行获取,再将第二近邻指数与预设近邻指数进行比对,若第二近邻指数小于预设近邻指数,则视为第二热度词条对应的时间信息与匹配词条结果对应的时间信息为时间相距较远的热度词条,并将此时所获的热度词条记作第三热度词条,并将与第三热度词条所对应的时间记作第三热度词条对应的时间信息,同理对取第三热度词条和第三热度词条对应的时间信息与匹配词条结果对应的时间信息进行比对,由此迭代,而获取下一待比对的目标词条是由首先对词条热度集合是否更新进行判断,若词条热度集合已更新,则视为动态更新的词条热度集合现阶段可能处于热度榜上,进一步的词条热度集合中近邻指数小于预设近邻指数的词条进行标识,是指对处于热度榜上的词条进行分析标识,即当存在一个词条热度值大于预设热度值时,该热度值可以由相关经验人员根据历史热度数值进行预设,示例性的,当存在多个词条热度值大于预设热度值时,将该多个词条进行提取汇总后组成如热点前十的集合,且该集合中的词条均存在对应标识信息,继而对词条标识结果进行输出,进一步的,将词条标识结果作为约束条件,对当前词条进行约束检索,将检索结果记作下一待比对的目标词条,在此基础上进行不断迭代,直至第一热度词条的第一近邻指数大于等于预设近邻指数时停止,并将第一热度词条作为资讯提炼目标对资讯热点进行提炼,提高后期实现对资讯热点进行提炼准确率。
综上所述,本申请实施例提供的一种基于大数据分析的资讯热点提炼方法,至少包括如下技术效果,实现了基于大数据分析对资讯热点进行合理化精准提炼,提高资讯热点捕获率。
实施例二
基于与前述实施例中一种基于大数据分析的资讯热点提炼方法相同的发明构思,如图5所示,本申请提供了一种基于大数据分析的资讯热点提炼系统,系统包括:
词条获取模块1,所述词条获取模块1用于采集第一应用网页的用户数据词条;
词条热度模块2,所述词条热度模块2用于对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;
比对库搭建模块3,所述比对库搭建模块3用于对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;
第一热度词条模块4,所述第一热度词条模块4用于根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;
比对模块5,所述比对模块5用于以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;
提炼模块6,所述提炼模块6用于当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
进一步而言,系统还包括:
第一判断模块,所述第一判断模块用于当所述第一近邻指数小于所述预设近邻指数,获取第二热度词条和所述第二热度词条对应的时间信息;
第一比对模块,所述第一比对模块用于根据所述第二热度词条和所述第二热度词条对应的时间信息进行比对,获取第二近邻指数;
第二比对模块,所述第二比对模块用于对所述第二近邻指数进行判断,若所述第二近邻指数小于所述预设近邻指数,获取第三热度词条和所述第三热度词条对应的时间信息并进行比对,以此类推,直至近邻指数大于等于所述预设近邻指数。
进一步而言,系统还包括:
第二判断模块,所述第二判断模块用于判断所述词条热度集合是否更新,若所述词条热度集合已更新,对所述词条热度集合中近邻指数小于所述预设近邻指数的词条进行标识,输出词条标识结果;
第三判断模块,所述第三判断模块用于按照所述词条标识结果为约束条件获取下一待比对的目标词条。
进一步而言,系统还包括:
关键词模块,所述关键词模块用于获取所述第一热度词条的人物对象和事件关键词;
第一输出模块,所述第一输出模块用于以所述人物对象和所述事件关键词对所述第一词条比对库进行比对,当所述人物对象的匹配度达到预设匹配度,且所述事件关键词的匹配度达到所述预设匹配度,输出所述匹配词条结果。
进一步而言,系统还包括:
第二输出模块,所述第二输出模块用于根据所述匹配词条结果对应的时间信息进行事件分析,输出所述匹配词条结果的事件序列;
第四判断模块,所述第四判断模块用于判断所述第一热度词条对应的时间信息是否与所述事件序列为顺序时间关系,若为顺序时间关系,获取第一间隔时长,其中,所述第一间隔时长为所述第一热度词条与所述事件序列中处于末尾词条的间隔;
指数获取模块,所述指数获取模块用于根据所述第一间隔时长,获取第一近邻指数。
进一步而言,系统还包括:
第五判断模块,所述第五判断模块用于根据所述匹配词条结果对应的时间信息进行事件分析,判断是否包括重叠时间信息的词条,若包括重叠时间信息的词条,根据所述词条,生成事件分支;
匹配分支模块,所述匹配分支模块用于根据所述第一热度词条对应的时间信息,得到所述事件分支的匹配分支;
间隔时长模块,所述间隔时长模块用于根据所述事件分支的匹配分支获取所述第一间隔时长。
进一步而言,系统还包括:
词条模块,所述词条模块用于根据所述用户数据词条,获取词条基础热度指标,所述词条基础热度指标包括同一用户的点击量重复指标、用户总点击量指标、词条分享指标以及词条评论指标;
影响指标模块,所述影响指标模块用于根据所述用户数据词条,获取词条人物影响指标;
热度分析模块,所述热度分析模块用于根据所述词条人物影响指标对所述用户数据词条分别进行热度分析,获取词条热度集合。
本说明书通过前述对一种基于大数据分析的资讯热点提炼方法的详细描述,本领域技术人员可以清楚地知道本实施例中一种基于大数据分析的资讯热点提炼系统,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于大数据分析的资讯热点提炼方法,其特征在于,所述方法包括:
采集第一应用网页的用户数据词条;
对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;
对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;
根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;
以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;
当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一近邻指数小于所述预设近邻指数,获取第二热度词条和所述第二热度词条对应的时间信息;
根据所述第二热度词条和所述第二热度词条对应的时间信息进行比对,获取第二近邻指数;
对所述第二近邻指数进行判断,若所述第二近邻指数小于所述预设近邻指数,获取第三热度词条和所述第三热度词条对应的时间信息并进行比对,以此类推,直至近邻指数大于等于所述预设近邻指数。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
判断所述词条热度集合是否更新,若所述词条热度集合已更新,对所述词条热度集合中近邻指数小于所述预设近邻指数的词条进行标识,输出词条标识结果;
按照所述词条标识结果为约束条件获取下一待比对的目标词条。
4.如权利要求1所述的方法,其特征在于,以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,方法包括:
获取所述第一热度词条的人物对象和事件关键词;
以所述人物对象和所述事件关键词对所述第一词条比对库进行比对,当所述人物对象的匹配度达到预设匹配度,且所述事件关键词的匹配度达到所述预设匹配度,输出所述匹配词条结果。
5.如权利要求4所述的方法,其特征在于,所述获取第一近邻指数,包括:
根据所述匹配词条结果对应的时间信息进行事件分析,输出所述匹配词条结果的事件序列;
判断所述第一热度词条对应的时间信息是否与所述事件序列为顺序时间关系,若为顺序时间关系,获取第一间隔时长,其中,所述第一间隔时长为所述第一热度词条与所述事件序列中处于末尾词条的间隔;
根据所述第一间隔时长,获取第一近邻指数。
6.如权利要求5所述的方法,其特征在于,所述获取第一间隔时长,方法还包括:
根据所述匹配词条结果对应的时间信息进行事件分析,判断是否包括重叠时间信息的词条,若包括重叠时间信息的词条,根据所述词条,生成事件分支;
根据所述第一热度词条对应的时间信息,得到所述事件分支的匹配分支;
根据所述事件分支的匹配分支获取所述第一间隔时长。
7.如权利要求1所述的方法,其特征在于,对所述用户数据词条分别进行热度分析,获取词条热度集合,包括:
根据所述用户数据词条,获取词条基础热度指标,所述词条基础热度指标包括同一用户的点击量重复指标、用户总点击量指标、词条分享指标以及词条评论指标;
根据所述用户数据词条,获取词条人物影响指标;
根据所述词条人物影响指标对所述用户数据词条分别进行热度分析,获取词条热度集合。
8.一种基于大数据分析的资讯热点提炼系统,其特征在于,所述系统包括:
词条获取模块,所述词条获取模块用于采集第一应用网页的用户数据词条;
词条热度模块,所述词条热度模块用于对所述用户数据词条分别进行热度分析,获取词条热度集合,其中,所述词条热度集合与所述用户数据词条一一对应;
比对库搭建模块,所述比对库搭建模块用于对所述第一应用网页的历史热度词条进行采集,根据采集得到的词条内容信息和词条时间信息,搭建第一词条比对库;
第一热度词条模块,所述第一热度词条模块用于根据所述词条热度集合,确定第一热度词条和所述第一热度词条对应的时间信息;
比对模块,所述比对模块用于以所述第一热度词条为搜寻目标,对所述第一词条比对库进行比对,获取匹配词条结果,并比对所述第一热度词条对应的时间信息与所述匹配词条结果对应的时间信息,获取第一近邻指数;
提炼模块,所述提炼模块用于当所述第一近邻指数大于等于预设近邻指数,根据所述第一热度词条进行提炼。
CN202310610051.5A 2023-05-26 2023-05-26 一种基于大数据分析的资讯热点提炼方法及系统 Active CN116561401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310610051.5A CN116561401B (zh) 2023-05-26 2023-05-26 一种基于大数据分析的资讯热点提炼方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310610051.5A CN116561401B (zh) 2023-05-26 2023-05-26 一种基于大数据分析的资讯热点提炼方法及系统

Publications (2)

Publication Number Publication Date
CN116561401A true CN116561401A (zh) 2023-08-08
CN116561401B CN116561401B (zh) 2024-03-15

Family

ID=87492906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310610051.5A Active CN116561401B (zh) 2023-05-26 2023-05-26 一种基于大数据分析的资讯热点提炼方法及系统

Country Status (1)

Country Link
CN (1) CN116561401B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105721944A (zh) * 2016-01-29 2016-06-29 四川长虹电器股份有限公司 智能电视的新闻资讯推荐方法
US20170300573A1 (en) * 2014-09-22 2017-10-19 Beijing Gridsum Technology Co., Ltd. Webpage data analysis method and device
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN112579941A (zh) * 2020-12-17 2021-03-30 京东数字科技控股股份有限公司 资讯信息的处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300573A1 (en) * 2014-09-22 2017-10-19 Beijing Gridsum Technology Co., Ltd. Webpage data analysis method and device
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105721944A (zh) * 2016-01-29 2016-06-29 四川长虹电器股份有限公司 智能电视的新闻资讯推荐方法
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN112579941A (zh) * 2020-12-17 2021-03-30 京东数字科技控股股份有限公司 资讯信息的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116561401B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN107704525A (zh) 视频搜索方法和装置
CN111400607B (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
CN103995870A (zh) 交互式搜索方法和装置
JP2015062117A (ja) 実体のリンク付け方法及び実体のリンク付け装置
WO2015058604A1 (zh) 获取问答对相关联程度、优化搜索排名的装置和方法
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
KR20080001776A (ko) 온라인 이메일 서비스 시스템 및 그 방법
CN110708607A (zh) 直播互动方法、装置、电子设备以及存储介质
JP2011198364A (ja) 媒体文書へのラベル添加方法及び該方法を用いるシステム
CN105912575B (zh) 文字信息推送方法和装置
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN110275949A (zh) 用于贷款应用的自动应答方法及系统
TW201415402A (zh) 取證系統、取證方法及取證程式
CN111191133B (zh) 业务搜索处理方法、装置及设备
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
TWI556128B (zh) Forensic system, forensic method and evidence collection program
CN116561401B (zh) 一种基于大数据分析的资讯热点提炼方法及系统
CN110096609A (zh) 房源搜索方法、装置、设备及计算机可读存储介质
TW201415263A (zh) 取證系統、取證方法及取證程式
CN113641837A (zh) 一种展示方法及其相关设备
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN113127720A (zh) 一种热搜词确定方法及装置
CN110852322A (zh) 感兴趣区域的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant