CN110457599B - 热点话题追踪方法、装置、服务器及可读存储介质 - Google Patents

热点话题追踪方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN110457599B
CN110457599B CN201910751744.XA CN201910751744A CN110457599B CN 110457599 B CN110457599 B CN 110457599B CN 201910751744 A CN201910751744 A CN 201910751744A CN 110457599 B CN110457599 B CN 110457599B
Authority
CN
China
Prior art keywords
tweet
data
topic
weakly
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910751744.XA
Other languages
English (en)
Other versions
CN110457599A (zh
Inventor
唐球
杨嘉佳
徐睿
张尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN201910751744.XA priority Critical patent/CN110457599B/zh
Publication of CN110457599A publication Critical patent/CN110457599A/zh
Application granted granted Critical
Publication of CN110457599B publication Critical patent/CN110457599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种热点话题追踪方法、装置、服务器及可读存储介质,能够在获取第一推文数据后,根据设定的目标话题领域,剔除第一推文数据中的噪声推文,得到第二推文数据,并以此对第二推文数据进行热点话题追踪,得到第二推文数据中与目标话题领域关联的热点话题追踪信息。如此,能够根据设定的目标话题领域有效剔除噪声推文,避免特定领域的热点话题会被大量的无关话题淹没掉,提高热点话题追踪过程中的匹配性能、准确率和实时性,进而提高热点话题追踪效果。

Description

热点话题追踪方法、装置、服务器及可读存储介质
技术领域
本申请涉及网络信息技术领域,具体而言,涉及一种热点话题追踪方法、装置、服务器及可读存储介质。
背景技术
通过热点话题发现与追踪技术,能够发现和归纳来自于社交媒体的重要信息和内容。例如,通过从社交媒体网络的各推文中发现与追踪出热点话题,并实时追踪热点话题的演变过程,对于舆情监控领域存在重要的意义与价值。
由于热点话题涉及的范围广泛且复杂,传统方案通常对所有推文直接进行热点话题追踪,一方面,由于计算数据流较大,导致计算性能降低,影响热点话题追踪的实时性。另一方面,由于某一特定领域(例如经济、科技、体育、军事等领域)相关的社交推文数量偏少,导致该特定领域的热点话题会被大量的无关话题淹没掉,导致准确度偏低。尽管一些方案中还利用相关分类器对所有推文进行领域分类之后再进行热点话题追踪,但由于采集的推文数量庞大,特定领域相关的社交推文数量偏少,导致分类器对某一特定领域进行分类时,会出现很高的错误率。并且,如此庞大的推文数量还会严重影响分类器的性能,影响热点话题追踪的实时性。
发明内容
有鉴于此,本申请的目的在于提供一种热点话题追踪方法、装置、服务器及可读存储介质,能够有效剔除噪声推文,避免特定领域的热点话题会被大量的无关话题淹没掉,提高热点话题追踪过程中的匹配性能、准确率和实时性,进而提高热点话题追踪效果。
为了实现上述目的,根据本申请实施例的一方面,提供一种热点话题追踪方法,应用于服务器,所述方法包括:
获取第一推文数据,并根据设定的目标话题领域剔除所述第一推文数据中的噪声推文,得到第二推文数据;
对所述第二推文数据进行热点话题追踪,得到所述第二推文数据中与所述目标话题领域关联的热点话题追踪信息。
根据本申请实施例的另一方面,提供一种热点话题追踪装置,应用于服务器,所述装置包括:
剔除模块,用于获取第一推文数据,并根据设定的目标话题领域剔除所述第一推文数据中的噪声推文,得到第二推文数据;
追踪模块,用于对所述第二推文数据进行热点话题追踪,得到所述第二推文数据中与所述目标话题领域关联的热点话题追踪信息。
根据本申请实施例的另一方面,提供一种服务器,所述服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该服务器实现前述的热点话题追踪方法。
根据本申请实施例的另一方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现前述的热点话题追踪方法。
基于上述任一方面,本申请实施例能够在获取第一推文数据后,根据设定的目标话题领域,剔除第一推文数据中的噪声推文,得到第二推文数据,并以此对第二推文数据进行热点话题追踪,得到第二推文数据中与目标话题领域关联的热点话题追踪信息。如此,能够根据设定的目标话题领域有效剔除噪声推文,避免特定领域的热点话题会被大量的无关话题淹没掉,提高热点话题追踪过程中的匹配性能、准确率和实时性,进而提高热点话题追踪效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的热点话题追踪方法的流程示意图;
图2示出了图1中所示的步骤S110的子流程示意图;
图3示出了图1中所示的步骤S120的子流程示意图;
图4示出了本申请实施例所提供的热点话题追踪装置的功能模块示意图;
图5示出了本申请实施例所提供的用于实现上述的热点话题追踪方法的服务器的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的热点话题追踪方法的流程示意图,应当理解,在其它实施例中,本实施例的热点话题追踪方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该热点话题追踪方法的详细步骤介绍如下。
步骤S110,获取第一推文数据,并根据设定的目标话题领域剔除第一推文数据中的噪声推文,得到第二推文数据。
步骤S120,对第二推文数据进行热点话题追踪,得到第二推文数据中与目标话题领域关联的热点话题追踪信息。
本实施例中,第一推文数据可以包括从各个社交媒体平台(例如微博、Twitter、Facebook、Reddit、Pinterest等)实时获取到的各种社交网络推文,但不限制于此。
相较于传统方案,本实施例在进行热点话题追踪之前,首先根据设定的目标话题领域,剔除第一推文数据中的噪声推文,这些噪声推文可以理解为与该目标话题领域没有关联关系的推文。
其中,该目标话题领域可以理解为用户特别关注的话题领域,可以是大类领域,例如可以是体育、财经、军事、娱乐等领域。或者,还可以是大类领域下的一些小类领域,例如体育领域下的足球领域、篮球领域、乒乓球领域等,本实施例对此不作任何限制。以该目标话题领域为体育领域为例,那么财经、军事、娱乐等领域的推文则可以理解为噪声推文。
如此,本实施例可以根据设定的目标话题领域有效剔除噪声推文,避免特定领域的热点话题会被大量的无关话题淹没掉,提高热点话题追踪过程中的匹配性能、准确率和实时性,从而提高热点话题追踪效果。
在一种可能的实施方式中,针对步骤S110,请结合参阅图2,可以包括子步骤S111、子步骤S112以及子步骤S113,下面对子步骤S111、子步骤S112以及子步骤S113进行详细阐述。
子步骤S111,从预先配置的反面词库集合中获取与目标话题领域对应的目标反面词库。
本实施例中,可以预先根据不同话题领域的领域特征预先配置不同话题领域对应的反面词库,在实施过程中则可以获取与目标话题领域对应的目标反面词库,该目标反面词库可包括多条与该目标话题领域呈负相关的反面词语。例如,以该目标话题领域为篮球领域为例,该目标反面词库可包括与篮球领域无关的反面词语,例如其它球类词语、财经类词语、军事类词语等,还可以包括一些非正常词语,例如污秽词语、骂人词语等。
子步骤S112,针对第一推文数据中的每条推文,将该条推文与目标反面词库中的每个反面词语进行匹配。
子步骤S113,若该条推文与目标反面词库中的任意一个反面词语匹配成功,则将该条推文作为噪声推文从第一推文数据中剔除。
例如,仍旧以该目标话题领域为篮球领域为例,假设某条推文中包括军事类词语的“战斗机”的词语,则将该条推文作为噪声推文从第一推文数据中剔除。通过这种方式,可以有效从第一推文数据中剔除掉大量与目标话题领域无关的推文,减少热点话题追踪过程中的计算量,从而改善计算性能,提高实时性和准确性。
可选地,上述匹配过程中,可以采用AC(Aho–Corasick)自动机匹配算法将每条推文与目标反面词库中的每个反面词语进行匹配。其中,AC自动机匹配算法主要依靠构造一个有限状态机(类似于在一个trie树中添加失配指针)来实现,这些额外的失配指针可以允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart,失配指针就会指向前缀ca),转向某前缀的其他分支,免于重复匹配前缀,从而提高匹配效率。
可选地,在上述基础上,还可以针对第一推文数据中的每条推文,判断该条推文的字数是否小于预设字数,若该条推文的字数小于预设字数,则将该条推文从第一推文数据中剔除。
本实施例中,上述预设字数可以根据实际情况进行设计,例如,该预设字数可以限制为4个字符。也即,若某条推文的字数小于4个字符,则认为该推文为噪声推文,从而将该推文从第一推文数据中剔除。由此,可以在上述基础上进一步剔除掉大量与目标话题领域无关的推文,提高噪声推文的剔除效果。
可选地,在得到第二推文数据后,可以将第二推文数据进行存储,以便于后续从第二推文数据中检索热点话题的推文。
在一种可能的实施方式中,针对步骤S120,请结合参阅图3,可以包括子步骤S121以及子步骤S122,下面对子步骤S121以及子步骤S122进行详细阐述。
子步骤S121,从第二推文数据中确定与目标话题领域存在强关联性的强关联推文数据以及与目标话题领域存在弱关联性的弱关联推文数据。
子步骤S122,对强关联推文数据和弱关联推文数据分别进行热点话题追踪,得到与目标话题领域关联的热点话题追踪信息。
经本申请发明人研究发现,传统方案只考虑到针对某个特定领域进行热点话题追踪,但是对于某个特定领域来说,往往存在不同关联程度的热点话题,倘若不以此区分,必然会造成后续的追踪的热点话题分布杂乱,严重影响体验。基于此,本实施例在进行热点追踪之前,从第二推文数据中确定与目标话题领域存在强关联性的强关联推文数据以及与目标话题领域存在弱关联性的弱关联推文数据。
例如,在一种可能的实施方式中,针对子步骤S121,可以获取目标话题领域的强关联词库和弱关联词库。其中,强关联词库包括多条与目标话题领域存在强关联性的强关联词条,弱关联词库包括多条与目标话题领域存在弱关联性的弱关联词条。以目标话题领域为战斗机为例,其对应的强关联词条可以包括各种战斗机相关的词条,其对应的弱关联词条可以包括普通民航飞机相关的词条。
在此基础上,可以将第二推文数据中的每条推文与强关联词库中的每条强关联词条进行匹配,并将与任意一条强关联词条匹配成功的推文确定为强关联推文,得到强关联推文数据。
接下来,可进一步根据弱关联词库和针对目标话题领域预设训练的机器学习分类器,从第二推文数据中除去强关联推文数据之外的每条推文中确定弱关联推文数据。
如此,通过区分强关联推文数据和弱关联推文数据,以便于后续分层次追踪不同关联度的热点话题,以便于为用户提供更准确的话题推送体验。
其中,该机器学习分类器可以通过训练样本集训练得到,该训练样本集可包括多条训练推文样本以及每条训练推文样本的分类标签,上述分类标签可以为:用于表征该训练推文样本与目标话题领域存在关联的关联标签,或者,用于表征该训练推文样本与目标话题领域不存在关联的无关联标签。
详细地,上述方案中,弱关联推文数据可包括第一弱关联推文数据和第二弱关联推文数据。例如,首先可将第二推文数据中除去强关联推文数据之外的每条推文与弱关联词库中的每条弱关联词条进行匹配,并将与任意一条弱关联词条匹配成功的推文确定为第一弱关联推文,得到第一弱关联推文数据。
在此基础上,可根据机器学习分类器确定从第二推文数据中除去强关联推文数据和第一弱关联推文数据之外的每条推文的分类标签,然后将分类标签为关联标签的推文确定为与目标话题领域相关联的第二弱关联推文,得到第二弱关联推文数据。
在一种可能的实施方式中,针对子步骤S122,本实施例可以对强关联推文数据和弱关联推文数据分别进行热点话题追踪,得到强关联推文数据中的多个强热点话题以及每个强热点话题下的第一话题追踪信息,和弱关联推文数据中的多个弱热点话题以及每个弱热点话题下的第二话题追踪信息。
其中,第一话题追踪信息包括与该强热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种,第二话题追踪信息包括与该弱热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种。
可选地,可以采用首次报道检测任务(First-Story Detection Task,FSD)算法对强关联推文数据和弱关联推文数据分别进行热点话题追踪,例如当发现某个话题包括的推文数量超过设定的数量阈值时,即可将该话题识别为热点话题,然后追踪该热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序等。
值得说明的是,前述的第一推文数据、第二推文数据、强关联推文数据、弱关联推文数据等包括的推文的数据格式可以包括用户标识、用户名称、发布时间、发布内容、点赞数、评论数、转发数等,对于不同的推文而言,其区别在于具体的发布内容不同。此外,推文的推文标识可以为用户标识。在此基础上,可以根据每个热门话题下各推文的点赞数、评论数、转发数确定每个热门话题的话题热度,根据每个热门话题下各推文的发布时间确定每个热门话题的发布时间范围,并结合每个推文的用户标识确定首次报道推文的推文标识。另外,还可以进一步结合每个热门话题的推文数量确定各个热门话题的话题重要性排序。由此,得到每个热门话题的话题追踪信息。
基于上述的强关联推文数据中的多个强热点话题以及每个强热点话题下的第一话题追踪信息,和弱关联推文数据中的多个弱热点话题以及每个弱热点话题下的第二话题追踪信息,可以根据需求从前述存储的第二推文数据中检索相关的推文。例如,针对某个热门话题A,可以根据该热门话题A中的首次报道推文的推文标识,从前述存储的第二推文数据中检索首次报道推文的发布内容。
进一步地,基于同一发明构思,请参阅图4,示出了本申请实施例提供的热点话题追踪装置200的功能模块示意图,本实施例可以根据上述方法实施例对热点话题追踪装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图4示出的热点话题追踪装置200只是一种装置示意图。其中,热点话题追踪装置200可以包括剔除模块210以及追踪模块220,下面分别对该热点话题追踪装置200的各个功能模块的功能进行详细阐述。
剔除模块210,用于获取第一推文数据,并根据设定的目标话题领域剔除第一推文数据中的噪声推文,得到第二推文数据。
追踪模块220,用于对第二推文数据进行热点话题追踪,得到第二推文数据中与目标话题领域关联的热点话题追踪信息。
根据设定的目标话题领域剔除第一推文数据中的噪声推文,得到第二推文数据的步骤,包括:
在一种可能的实施方式中,剔除模块210可以通以下方式剔除第一推文数据中的噪声推文:
从预先配置的反面词库集合中获取与目标话题领域对应的目标反面词库,目标反面词库包括多条与该目标话题领域呈负相关的反面词语;
针对第一推文数据中的每条推文,将该条推文与目标反面词库中的每个反面词语进行匹配;
若该条推文与目标反面词库中的任意一个反面词语匹配成功,则将该条推文作为噪声推文从第一推文数据中剔除。
在一种可能的实施方式中,剔除模块210还可以通以下方式剔除第一推文数据中的噪声推文:
针对第一推文数据中的每条推文,判断该条推文的字数是否小于预设字数;
若该条推文的字数小于预设字数,则将该条推文从第一推文数据中剔除。
在一种可能的实施方式中,追踪模块220可以通过以下方式对第二推文数据进行热点话题追踪,得到第二推文数据中与目标话题领域关联的热点话题追踪信息:
从第二推文数据中确定与目标话题领域存在强关联性的强关联推文数据以及与目标话题领域存在弱关联性的弱关联推文数据;
对强关联推文数据和弱关联推文数据分别进行热点话题追踪,得到与目标话题领域关联的热点话题追踪信息。
在一种可能的实施方式中,追踪模块220可以通过以下方式从第二推文数据中确定与目标话题领域存在强关联性的强关联推文数据以及与目标话题领域存在弱关联性的弱关联推文数据:
获取目标话题领域的强关联词库和弱关联词库,强关联词库包括多条与目标话题领域存在强关联性的强关联词条,弱关联词库包括多条与目标话题领域存在弱关联性的弱关联词条;
将第二推文数据中的每条推文与强关联词库中的每条强关联词条进行匹配,并将与任意一条强关联词条匹配成功的推文确定为强关联推文,得到强关联推文数据;
根据弱关联词库和针对目标话题领域预设训练的机器学习分类器,从第二推文数据中除去强关联推文数据之外的每条推文中确定弱关联推文数据;
其中,机器学习分类器通过训练样本集训练得到,训练样本集包括多条训练推文样本以及每条训练推文样本的分类标签,分类标签为用于表征该训练推文样本与目标话题领域存在关联的关联标签,或者用于表征该训练推文样本与目标话题领域不存在关联的无关联标签。
在一种可能的实施方式中,追踪模块220可以通过以下方式从第二推文数据中除去强关联推文数据之外的每条推文中确定弱关联推文数据:
将第二推文数据中除去强关联推文数据之外的每条推文与弱关联词库中的每条弱关联词条进行匹配,并将与任意一条弱关联词条匹配成功的推文确定为第一弱关联推文,得到第一弱关联推文数据;
根据机器学习分类器确定从第二推文数据中除去强关联推文数据和第一弱关联推文数据之外的每条推文的分类标签,分类标签为关联标签或者无关联标签;
将分类标签为关联标签的推文确定为与目标话题领域相关联的第二弱关联推文,得到第二弱关联推文数据;
其中,弱关联推文数据包括第一弱关联推文数据和第二弱关联推文数据。
在一种可能的实施方式中,追踪模块220可以通过以下方式对强关联推文数据和弱关联推文数据分别进行热点话题追踪,得到与目标话题领域关联的热点话题追踪信息:
对强关联推文数据和弱关联推文数据分别进行热点话题追踪,得到强关联推文数据中的多个强热点话题以及每个强热点话题下的第一话题追踪信息,和弱关联推文数据中的多个弱热点话题以及每个弱热点话题下的第二话题追踪信息;
第一话题追踪信息包括与该强热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种,第二话题追踪信息包括与该弱热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种。
进一步地,基于同一发明构思,图5示出了本申请实施例提供的用于实现上述热点话题追踪方法的服务器100的结构示意框图,本实施例中,服务器100可以包括机器可读存储介质120和处理器130。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制前述方法实施例提供热点话题追踪方法的程序执行的集成电路。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其它类型的静态存储设备,RAM或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以执行前述方法实施例提供热点话题追踪方法。
本申请实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于执行前述方法实施例所提供的热点话题追踪方法。
本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”一词不排除其它组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种热点话题追踪方法,其特征在于,应用于服务器,所述方法包括:
获取第一推文数据,并根据设定的目标话题领域剔除所述第一推文数据中的噪声推文,得到第二推文数据;
对所述第二推文数据进行热点话题追踪,得到所述第二推文数据中与所述目标话题领域关联的热点话题追踪信息;
所述对所述第二推文数据进行热点话题追踪,得到所述第二推文数据中与所述目标话题领域关联的热点话题追踪信息的步骤,包括:
从所述第二推文数据中确定与所述目标话题领域存在强关联性的强关联推文数据以及与所述目标话题领域存在弱关联性的弱关联推文数据;
所述从所述第二推文数据中确定与所述目标话题领域存在强关联性的强关联推文数据以及与所述目标话题领域存在弱关联性的弱关联推文数据的步骤包括:
获取所述目标话题领域的强关联词库和弱关联词库,所述强关联词库包括多条与所述目标话题领域存在强关联性的强关联词条,所述弱关联词库包括多条与所述目标话题领域存在弱关联性的弱关联词条;
将所述第二推文数据中的每条推文与所述强关联词库中的每条强关联词条进行匹配,并将与任意一条强关联词条匹配成功的推文确定为强关联推文,得到强关联推文数据;
根据所述弱关联词库和针对所述目标话题领域预设训练的机器学习分类器,从所述第二推文数据中除去所述强关联推文数据之外的每条推文中确定弱关联推文数据;
其中,所述机器学习分类器通过训练样本集训练得到,所述训练样本集包括多条训练推文样本以及每条训练推文样本的分类标签,所述分类标签为用于表征该训练推文样本与所述目标话题领域存在关联的关联标签,或者用于表征该训练推文样本与所述目标话题领域不存在关联的无关联标签;
对所述强关联推文数据和所述弱关联推文数据分别进行热点话题追踪,得到与所述目标话题领域关联的热点话题追踪信息。
2.根据权利要求1所述的热点话题追踪方法,其特征在于,所述根据设定的目标话题领域剔除所述第一推文数据中的噪声推文,得到第二推文数据的步骤,包括:
从预先配置的反面词库集合中获取与所述目标话题领域对应的目标反面词库,所述目标反面词库包括多条与该目标话题领域呈负相关的反面词语;
针对所述第一推文数据中的每条推文,将该条推文与所述目标反面词库中的每个反面词语进行匹配;
若该条推文与所述目标反面词库中的任意一个反面词语匹配成功,则将该条推文作为噪声推文从所述第一推文数据中剔除。
3.根据权利要求2所述的热点话题追踪方法,其特征在于,所述针对所述第一推文数据中的每条推文,将该条推文与所述目标反面词库中的每个反面词语进行匹配的步骤之前,还包括:
针对所述第一推文数据中的每条推文,判断该条推文的字数是否小于预设字数;
若该条推文的字数小于预设字数,则将该条推文从所述第一推文数据中剔除。
4.根据权利要求1所述的热点话题追踪方法,其特征在于,所述根据所述弱关联词库和针对所述目标话题领域预设训练的机器学习分类器,从所述第二推文数据中除去所述强关联推文数据之外的每条推文中确定弱关联推文数据的步骤,包括:
将所述第二推文数据中除去所述强关联推文数据之外的每条推文与所述弱关联词库中的每条弱关联词条进行匹配,并将与任意一条弱关联词条匹配成功的推文确定为第一弱关联推文,得到第一弱关联推文数据;
根据所述机器学习分类器确定从所述第二推文数据中除去所述强关联推文数据和所述第一弱关联推文数据之外的每条推文的分类标签,所述分类标签为关联标签或者无关联标签;
将分类标签为关联标签的推文确定为与所述目标话题领域相关联的第二弱关联推文,得到第二弱关联推文数据;
其中,所述弱关联推文数据包括所述第一弱关联推文数据和所述第二弱关联推文数据。
5.根据权利要求1所述的热点话题追踪方法,其特征在于,所述对所述强关联推文数据和所述弱关联推文数据分别进行热点话题追踪,得到与所述目标话题领域关联的热点话题追踪信息的步骤,包括:
对所述强关联推文数据和所述弱关联推文数据分别进行热点话题追踪,得到所述强关联推文数据中的多个强热点话题以及每个强热点话题下的第一话题追踪信息,和所述弱关联推文数据中的多个弱热点话题以及每个弱热点话题下的第二话题追踪信息;
所述第一话题追踪信息包括与该强热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种,所述第二话题追踪信息包括与该弱热点话题关联的推文数量、首次报道推文的推文标识、每条推文的推文标识、发布时间范围、话题热度和话题重要性排序中的至少一种。
6.一种热点话题追踪装置,其特征在于,应用于服务器,所述装置包括:
剔除模块,用于获取第一推文数据,并根据设定的目标话题领域剔除所述第一推文数据中的噪声推文,得到第二推文数据;
追踪模块,用于对所述第二推文数据进行热点话题追踪,得到所述第二推文数据中与所述目标话题领域关联的热点话题追踪信息;
所述追踪模块具体用于:
从所述第二推文数据中确定与所述目标话题领域存在强关联性的强关联推文数据以及与所述目标话题领域存在弱关联性的弱关联推文数据;
所述追踪模块具体用于:
获取所述目标话题领域的强关联词库和弱关联词库,所述强关联词库包括多条与所述目标话题领域存在强关联性的强关联词条,所述弱关联词库包括多条与所述目标话题领域存在弱关联性的弱关联词条;
将所述第二推文数据中的每条推文与所述强关联词库中的每条强关联词条进行匹配,并将与任意一条强关联词条匹配成功的推文确定为强关联推文,得到强关联推文数据;
根据所述弱关联词库和针对所述目标话题领域预设训练的机器学习分类器,从所述第二推文数据中除去所述强关联推文数据之外的每条推文中确定弱关联推文数据;
其中,所述机器学习分类器通过训练样本集训练得到,所述训练样本集包括多条训练推文样本以及每条训练推文样本的分类标签,所述分类标签为用于表征该训练推文样本与所述目标话题领域存在关联的关联标签,或者用于表征该训练推文样本与所述目标话题领域不存在关联的无关联标签;
对所述强关联推文数据和所述弱关联推文数据分别进行热点话题追踪,得到与所述目标话题领域关联的热点话题追踪信息。
7.一种服务器,其特征在于,所述服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该服务器实现权利要求1-5中任意一项所述的热点话题追踪方法。
8.一种可读存储介质,其特征在于,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现权利要求1-5中任意一项所述的热点话题追踪方法。
CN201910751744.XA 2019-08-15 2019-08-15 热点话题追踪方法、装置、服务器及可读存储介质 Active CN110457599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910751744.XA CN110457599B (zh) 2019-08-15 2019-08-15 热点话题追踪方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910751744.XA CN110457599B (zh) 2019-08-15 2019-08-15 热点话题追踪方法、装置、服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN110457599A CN110457599A (zh) 2019-11-15
CN110457599B true CN110457599B (zh) 2021-09-03

Family

ID=68486650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910751744.XA Active CN110457599B (zh) 2019-08-15 2019-08-15 热点话题追踪方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN110457599B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026981B (zh) * 2019-12-05 2023-10-24 中国银行股份有限公司 热点话题的可视化展示方法、装置和设备
CN113656695A (zh) * 2021-08-18 2021-11-16 北京奇艺世纪科技有限公司 热点数据生成方法、装置及数据处理方法、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408036A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关联话题的识别方法和装置
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN109918653A (zh) * 2019-02-21 2019-06-21 腾讯科技(深圳)有限公司 确定文本数据的关联话题及模型的训练方法、装置和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392278B2 (en) * 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
CN103150382B (zh) * 2013-03-14 2015-04-01 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408036A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关联话题的识别方法和装置
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105824959A (zh) * 2016-03-31 2016-08-03 首都信息发展股份有限公司 舆情监控方法及系统
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN109918653A (zh) * 2019-02-21 2019-06-21 腾讯科技(深圳)有限公司 确定文本数据的关联话题及模型的训练方法、装置和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A New Method of Topic Tracking for Micro-Blog Texts Based on Semantic Relevance;Hongyang Chen et al;《2017 9th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC)》;20170921;第349-353页 *
基于话题标签的微博热点话题演化研究;李慧 等;《情报科学》;20190115;第37卷(第1期);第30-36页 *

Also Published As

Publication number Publication date
CN110457599A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
US10169331B2 (en) Text mining for automatically determining semantic relatedness
CN105512291B (zh) 用于扩展数据库搜索查询的方法和系统
KR101231560B1 (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
US9367603B2 (en) Systems and methods for behavioral segmentation of users in a social data network
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
US20160124965A1 (en) Biased Users Detection
US11663269B2 (en) Error correction method and apparatus, and computer readable medium
CN112435137B (zh) 一种基于社团挖掘的欺诈信息检测方法及系统
CN110457599B (zh) 热点话题追踪方法、装置、服务器及可读存储介质
Agarwal et al. Parsing screenplays for extracting social networks from movies
CN110222790B (zh) 用户身份识别方法、装置及服务器
CN108629358A (zh) 对象类别的预测方法及装置
JP7393475B2 (ja) 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
Toosinezhad et al. Dynamic windowing mechanism to combine sentiment and N-gram analysis in detecting events from social media
CN111382345B (zh) 话题筛选和发布的方法、装置和服务器
CN109271614A (zh) 一种数据查重方法
US9626433B2 (en) Supporting acquisition of information
CN111737461B (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
Adedoyin-Olowe et al. Extraction of unexpected rules from twitter hashtags and its application to sport events
CN108875060B (zh) 一种网站识别方法及识别系统
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant