CN113343687B - 事件名称的确定方法、装置、设备及存储介质 - Google Patents

事件名称的确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113343687B
CN113343687B CN202110573900.5A CN202110573900A CN113343687B CN 113343687 B CN113343687 B CN 113343687B CN 202110573900 A CN202110573900 A CN 202110573900A CN 113343687 B CN113343687 B CN 113343687B
Authority
CN
China
Prior art keywords
event
name
names
real
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110573900.5A
Other languages
English (en)
Other versions
CN113343687A (zh
Inventor
刘洋
洪炳峰
王星石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110573900.5A priority Critical patent/CN113343687B/zh
Publication of CN113343687A publication Critical patent/CN113343687A/zh
Application granted granted Critical
Publication of CN113343687B publication Critical patent/CN113343687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种事件名称的确定方法、装置、设备及存储介质,方法包括:获取实时事件消息;提取所述实时事件消息对应的N个第一事件名,所述N为大于或等于1的整数;将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名。本申请用以提高事件名称确定的及时性和准确性。

Description

事件名称的确定方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种事件名称的确定方法、装置、设备及存储介质。
背景技术
随着互联网技术的飞速发展,用户通过互联网进行意见发表和观点表达已成为常态。因此,及时的掌握网络舆情事件,尤其是负面舆情事件,对保护企业品牌、维护企业形象、顺利举办活动等至关重要。
现有的舆情事件计算,主要是通过采用时间窗口,例如,1小时、十分钟等,来定时计算舆情事件。即每隔一个时间窗口,收集该时间窗口内的舆情事件消息,然后从收集的舆情事件中,计算出重要的、需要关注的舆情事件。
但是,现有的舆情事件计算方案存在一些问题:例如,基于时间窗口定时采集,再对收集的舆情事件进行聚类、分析等操作,该方式不够及时,导致事件延迟较大。
发明内容
本申请提供了一种事件名称的确定方法、装置、设备及存储介质,用以提高事件名称确定的及时性和准确性。
第一方面,本申请提供了一种事件名称的确定方法,包括:
获取实时事件消息;
提取所述实时事件消息对应的N个第一事件名,所述N为大于或等于1的整数;
将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名。
可选地,所述提取所述实时事件消息对应的N个第一事件名,包括:
从所述实时事件消息对应的事件文本中提取M个第二事件名,所述M为大于或等于N的整数;
依次执行第一比对过程:从所述M个第二事件名中选取一个所述第二事件名;计算选取的第二事件名与剩余的第二事件名的第一相似度;统计所述第一相似度大于第一预设阈值对应的第二事件名;
将统计得到的N个第二事件名作为所述第一事件名。
可选地,所述从所述实时事件消息对应的事件文本中提取M个第二事件名,包括:
判断所述事件文本中是否包括预设符号;
若是,基于所述预设符号,从所述事件文本中,提取所述M个第二事件名;
否则,对所述事件文本进行拆分,得到K个子文本;从所述K个子文本中提取所述M个第二事件名,所述K为大于或等于M的整数。
可选地,所述将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,包括:
依次计算每个所述第一事件名与所述预设事件名的第二相似度;
当存在所述第二相似度大于第二预设阈值时,将大于所述第二相似度对应的预设事件名作为所述目标事件名。
可选地,所述当存在所述第二相似度大于第二预设阈值时,将大于所述第二相似度对应的预设事件名作为所述目标事件名,包括:
当存在所述第二相似度大于第二预设阈值时,获取最大的所述第二相似度对应的预设事件名;
将所述最大的第二相似度对应的预设事件名,作为所述目标事件名。
可选地,其特征在于,所述将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,包括:
依次计算每个所述第一事件名与所述预设事件名的第三相似度;
当不存在所述第三相似度大于所述第三预设阈值时,基于所述N个第一事件名,确定所述目标事件名。
可选地,所述当不存在所述第三相似度大于所述第三预设阈值时,基于所述N个第一事件名,确定所述目标事件名,包括:
当不存在所述第三相似度大于所述第三预设阈值时,将所述N个第一事件名进行拼接,得到事件名拼接结果;
依次计算每个所述第一事件名与所述事件名拼接结果的第四相似度;
将最大的所述第四相似度对应的第一事件名,作为所述目标事件名。
可选地,所述基于匹配结果,确定所述实时事件消息的目标事件名之后,还包括:
存储所述实时事件消息,和所述实时事件消息对应的所述目标事件名。
第二方面,本申请提供了一种事件名称的确定装置,包括:
获取模块,用于获取实时事件消息;
提取模块,用于提取所述实时事件消息对应的N个第一事件名,所述N为大于或等于1的整数;
确定模块,用于将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的事件名称的确定方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的事件名称的确定方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取实时事件消息,提取实时事件消息对应的N个第一事件名,可见,本申请实时提取获取到的事件消息的第一事件名,相较于现有技术采用时间窗口,将时间窗口内的事件消息进行聚合分析,获取事件名称的方式,提高了事件名称提取的及时性;进而,本申请将N个第一事件名和预设事件名进行匹配,基于匹配结果确定实时事件消息的目标事件名,本申请将提取的N个第一事件名和预设事件名匹配来确定最终的目标事件名,有效的提高了事件名称的准确度,并由于时间名称提取的及时性和准确性,提高了用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例中事件名称的确定方法流程示意图;
图2为本申请实施例中提取实时事件消息对应的第一事件的流程示意图;
图3为本申请实施例中从事件文本中确定有效数据的流程示意图;
图4为本申请实施例中从事件文本中提取第二事件名的流程示意图;
图5为本申请实施例中第一确定实时事件消息的目标事件名的具体流程示意图;
图6为本申请实施例中第二确定实时事件消息的目标事件名的具体流程示意图;
图7为本申请实施例中基于匹配结果,确定实时事件消息的目标事件名的具体流程示意图;
图8为本申请实施例中事件名称的确定方法系统性说明示意图;
图9为本申请实施例中事件名称的确定装置结构示意图;
图10为本申请实施例中电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例中提供了一种事件名称的确定方法,该方法可以应用在服务器,也可以应用在终端,也可以应用在安装在终端的应用程序中,也可以应用在能够在终端打开的网站中。
本申请以该方法应用在服务器中为例进行说明,当然,此处仅是举例说明,并不用于对本申请的保护范围进行限制。并且,本申请中的一些其他举例说明,也不用于对本申请的保护范围的限制,便不在一一说明。具体如图1所示:
步骤101,获取实时事件消息。
具体地,获取实时事件消息,需要预先确定消息源,该消息源主要分为两种,一种是:具有合作关系的第一消息提供服务商,另一种是网络上第二消息提供服务商,其中,实时事件消息包括第一事件消息和第二事件消息。其中,第一消息提供服务商会通过feed接口实时将第一事件消息发送过来,本申请接收第一消息提供服务商发送的第一事件消息,以及主动去第二消息提供服务商抓取第二事件消息。其中,feed是用来接收第一事件消息的接口。
通过feed接口获取的第一事件消息,称为feed消息,其中feed消息就是一条条消息,包括消息发送、消息转发、消息评论等,本申请的实时事件消息是消息流,所以称为feed消息。
步骤102,提取实时事件消息对应的N个第一事件名。
其中,N为大于或等于1的整数。
一个具体实施例中,提取实时事件消息对应的N个第一事件名的具体实现如图2所示:
步骤201,从实时事件消息对应的事件文本中提取M个第二事件名。
其中,M为大于或等于N的整数;
具体地,从实时事件消息对应的事件文本中提取M个第二事件名之前,需根据预配置的关键信息,判断实时事件消息对应的事件是否为需关注事件;若是,执行从实时事件消息对应的事件文本中提取M个第二事件名的步骤;否则,将该实时事件消息滤除。
具体地,本申请包括多个业务方,比如,财经业务方、广告业务方、娱乐业务方、视频业务方等。其中,每个业务方提供自身需关注事件的关键信息,例如,财经业务方的关键信息为:财经、经济、股票、基金、理财等,娱乐业务方的关键信息为:明星名称、发布、活动、会员(VIP)等。
当获取到实时事件消息时,先通过关键信息,判断该实时事件消息对应的事件是否为需关注事件,若是,判断该实时事件消息属于哪个业务方,然后,从该实时事件消息中提取M个第二事件名,否则,将该实时事件消息滤除。预先判断该实时事件消息属于哪个业务方的目的在于,当确定目标事件名之后,可以直接将目标事件名发送给对应的业务方。
本申请通过预先配置业务方关注的关键信息,即可以按照业务方需求确定目标事件名,在进一步确定该目标事件名的受关注程度。使得本申请的复用性很高,即,如果需要添加新的业务方时,只需配置新的业务方的关键信息,便可以及时的确定针对新的业务方的目标事件名。
另外,从实时事件消息对应的事件文本中提取M个第二事件名之前,还需要对实时事件消息对应的事件文本进行处理,得到事件文本中的有效数据,以从有效数据中提取M个第二事件名。其中,从事件文本中确定有效数据的具体实现如图3所示:
步骤301,对事件文本进行预处理,得到预处理后的事件文本。
具体地,首先对事件文件进行规范化处理,得到一个干净、规整的事件文本,即预处理后的事件文本。例如,将繁体字转化为简体字,将外文语言转化为中文,将全角转为半角,去除URL,去除@账号信息等预处理操作。其中,URL是网上唯一的地址,即网络地址。
步骤302,将预处理后的事件文本输入至筛选模型,通过筛选模型滤除预处理后的事件文本中的无效数据,输出预处理后的事件文本中的有效数据。
其中,筛选模型通过训练S条样本数据获得,S为大于1的整数,一条样本数据包括:有效样本数据和无效样本数据。
其中,该筛选模型的训练过程包括:
获取S条样本数据,一条样本数据包括:有效样本数据和无效样本数据;
分别对每一条样本数据执行以下训练过程:将样本数据输入至初始筛选模型,通过初始筛选模型输出该样本数据中的有效样本数据;
计算初始筛选模型输出的有效样本数据和预设有效样本数据的一致率;
若该一致率不大于预设一致率,调整初始筛选模型参数后,重复执行训练过程,直至一致率大于预设一致率时,将该初始筛选模型作为最终的筛选模型。
具体地,该筛选模型可以为分类器,例如卷积神经网络(Convolutional NeuralNetworks,简称CNN)分类器、和Bert(Bidirectional Enoceder Representations fromTransformersbert,简称Bert)分类器等。
例如,通过分类器滤除没有包含名词、动词等相关词性的语句,保留获奖、发布等触发性的语句,最后得到预处理后的事件文件中的有效数据。
步骤202,依次执行第一比对过程:从M个第二事件名中选取一个第二事件名;计算选取的第二事件名与剩余的第二事件名的第一相似度;统计第一相似度大于第一预设阈值对应的第二事件名。
具体地,将每个第二事件名进行向量化处理,得到M个第一向量。依次执行第一比对过程:从M个第一向量中选取一个第一向量;计算选取的第一向量与剩余的第一向量的第一相似度;统计第一相似度大于第一预设阈值对应的第一向量。其中,可以使用产生词向量的相关模型(Word2vec)计算第二事件名的第一向量。
步骤203,将统计得到的N个第二事件名作为第一事件名。
具体地,将统计得到的第一向量对应的N个第二事件名作为第一事件名。
具体地,使用最大边界相关法(Maximal Marginal Relevance,简称MMR)从事件文本的有效数据中提取M个第二事件名。
一个具体实施例中,从实时事件消息对应的事件文本中提取M个第二事件名的具体实现如图4所示:
步骤401,判断事件文本中是否包括预设符号,若是,执行步骤402,否则,执行步骤403。
具体地,判断事件文本的有效数据中是否包括预设符号。其中,该预设符号可以为成对的预设符号,也可以为单个的预设符号。
例如,该预设符号为成对的预设符号,符号为#。
例如,该预设符号为单个的预设符号,符号为&。
当事件文本的有效数据中包括#或&中的任意一个或多个,则执行步骤402,当事件文本的有效数据中不包括#或&中的任意一个,则执行步骤403。
步骤402,基于预设符号,从事件文本中,提取M个第二事件名。
例如,从成对的预设符号中间的文本内容中,提取M个第二事件名。具体的,当有效数据中包括成对的#时,确定成对的#中间的文本内容为优先使用的话题内容。
例如,从单个的预设符号之后的文本内容中,提取M个第二事件名。具体的,当有效数据中包括单个&时,确定单个&之后的文本内容为优先使用的话题内容。
另外,一个事件文本可以提取出多个第二事件名,如果不能提取出第二事件名时,判定该事件文本是无效的,将该事件文本对应的实时事件消息滤除。
步骤403,对事件文本进行拆分,得到K个子文本;从K个子文本中提取M个第二事件名。
其中,K为大于或等于M的整数。
具体地,在得到K个子文本之后,滤除K个子文本中无效的数据,从滤除后的K个子文本中提取M个第二事件名。
具体地,当有效数据中不包括成对的#时,对有效数据进行拆分,先按照“,。!?”等符号进行断句,得到K个子文本;然后,再将K个子文本输入到筛选模型,得到K个子文本中的有效数据;最后,使用MMR从滤除后的子文本中抽取M个第二事件名。
例如,将K个子文本输入到筛选模型,得到K个子文本中的有效数据。进而,基于K个子文本中的有效数据,得到K1个第三事件名,其中,K1大于等于M,小于等于K。以K1等于7为例,M等于4为例进行说明。
分别将7个第三事件名进行向量化处理,得到7个第二向量;
依次执行比对过程:从7个第二向量中选取一个第二向量;计算选取的第二向量和剩余的第二向量的第五相似度;统计第五相似度大于第三预设阈值对应的第二向量;例如,统计得到了4个第二向量;
将统计得到4个第二向量对应的4个第三事件名作为第二事件名。
其中,可以使用Word2vec计算第三事件名的第二向量。
步骤103,将N个第一事件名和预设事件名进行匹配,基于匹配结果,确定实时事件消息的目标事件名。
一个具体实施例中,确定实时事件消息的目标事件名的具体实现如图5所示:
步骤501,依次计算每个第一事件名与预设事件名的第二相似度。
具体地,将每个第一事件名进行向量化处理,得到N个第三向量。获取预设事件名对应的预设向量。依次计算每个第三向量与预设向量的第二相似度。其中,预设事件名存储在事件库中。
具体地,抽取得到的N个第一事件名很有可能已经在事件库中存在,或者与某个事件意思一样而名称不同,因此,需要将N个第一事件名和事件库中的预设事件名进行匹配,以复用已经存在的事件名。
以N等于2为例进行说明,例如抽取得到的第一事件名为:A娱乐会员代言人a和a代言A娱乐会员,都会映射到事件库中a代言A娱乐会员,则最终确定第一事件名为a代言A娱乐会员。
另外,本申请采用实时计算事件名,因为线上要及时响应监听到的实时事件消息,但是,单次请求并不清楚全局情况,因此,会存在同一事件但是计算的事件名不同。为此,采用了离线事件合并的方式,以提高确定目标事件名的准确性。
具体为:预先建立事件库,并建立事件库索引,以供线上使用,当第一事件名和事件库里某个预设事件名相似时,复用事件库里已有的事件名。在事件库中存储事件名以及该事件名对应的语义向量。通过比较第一事件名的语义向量和事件库中的语义向量,根据比较结果,以复用已经存在的事件名。
在建立事件库后,需要定时更新该事件库,例如,一个小时更新一次。具体地,可以采用人工合并的方式,即通过人为的根据算法,确定预设时间段内确定的目标事件名是否在事件库中存在,若是存在,将确定的目标事件名合并到同一事件名下。
也可以采用聚类的方式,即对新增的事件名,并结合事件库中的所有历史事件名,采用聚类算法,将同一聚类下的事件名合并,并选取出现次数最多的事件名为合并后的事件名。
其中,聚类算法包括:k均值聚类算法(k-means clustering algorithm,简称k-means)、基于密度的聚类算法(Density-Based Spatial Clustering of Applicationswith Noise,简称DBSCAN)等。
步骤502,当存在第二相似度大于第二预设阈值时,将大于第二相似度对应的预设事件名作为目标事件名。
一个具体实施例中,当存在第二相似度大于第二预设阈值时,获取最大的第二相似度对应的预设事件名;将最大的第二相似度对应的预设事件名,作为目标事件名。
本申请采用最大的第二相似度对应的预设事件名作为目标事件名,有效的提高了目标事件名确定的准确性。
一个具体实施例中,确定实时事件消息的目标事件名的具体实现如图6所示:
步骤601,依次计算每个第一事件名与预设事件名的第三相似度。
具体地,将每个第一事件名进行向量化处理,得到N个第三向量。获取预设事件名对应的预设向量。依次计算每个第三向量与预设向量的第三相似度。其中,预设事件名存储在事件库中。
步骤602,当不存在第三相似度大于第三预设阈值时,基于N个第一事件名,确定目标事件名。
一个具体实施例中,当不存在第三相似度大于第三预设阈值时,将N个第一事件名进行拼接,得到事件名拼接结果;依次计算每个第一事件名与事件名拼接结果的第四相似度;将最大的第四相似度对应的第一事件名,作为目标事件名。
具体地,下面以N等于为例进行说明,其中,4个第一事件名的名称分别为AB、BCD、E和F,将四个第一事件名进行拼接得到ABBCDEF。然后,分别用每个第一事件名和拼接得到的事件名去匹配,计算每个第一事件名与拼接的的事件名的第四相似度,将最大的第四相似度对应的第一事件名,作为目标事件名。
其中,具体的比对过程可以为:首先,确定所有第一事件名中具有相同字段的第一事件名,例如,AB和BCD;然后,利用AB和BCD分别和拼接得到的事件名匹配,计算AB和BCD与拼接的的事件名的第四相似度,将最大的第四相似度对应的第一事件名,作为目标事件名。如果,确定所有第一事件名中不具有相同字段的第一事件名,分别用每个第一事件名和拼接得到的事件名去匹配,计算每个第一事件名与拼接的的事件名的第四相似度,将最大的第四相似度对应的第一事件名,作为目标事件名。
一个具体实施例中,在确定实时事件消息的目标事件名之后,存储实时事件消息,和实时事件消息对应的目标事件名。
具体地,将实时事件消息和实时事件消息对应的事件名存在事件库中。
具体地,基于匹配结果,确定实时事件消息的目标事件名的实现还可以如图7所示:
步骤701,将每个第一事件名进行向量化处理,得到N个第三向量。
步骤702,依次计算每个第三向量与事件库中的第四向量的第二相似度。
步骤703,当存在第二相似度大于第二预设阈值时,获取最大的第二相似度对应的第四向量,将最大的二相似度的第四向量对应的事件名作为目标事件名。
步骤704,当不存在第二相似度大于第二预设阈值时,从第一事件名中抽取目标事件名。
具体地,在确定实时事件消息的目标事件名之后,确定第一事件名的受关注程度,根据受关注程度,确定是否显示事件。例如,统计预设时间段内第一事件名对应的相关参数,其中,相关参数包括:第一事件名的出现次数,出现次数的涨幅情况,以及第一事件名的情感属性。其中,情感属性包括:正向情感、负向情感和中性情感。根据相关参数中的任意一项或多项,确定第一事件名的受关注程度。若受关注程度为重点关注,显示事件,否则,不显示事件。
具体地,根据第一事件名的出现次数,确定第一事件名的受关注程度,例如,当预设时间内第一事件名的出现次数达到第一预设次数时,确定第一事件名的受关注程度为重点关注,进行显示,否则,为非重点关注,不进行显示。
具体地,根据第一事件名的出现次数和出现次数的涨幅情况,确定第一事件名的受关注程度,例如,当预设时间内第一事件名的出现次数达到第一预设次数,且,该出现次数的涨幅情况大于预设涨幅时,确定第一事件名的受关注程度为重点关注,进行显示,否则,为非重点关注,不进行显示。
具体地,根据第一事件名的出现次数,出现次数的涨幅情况,以及第一事件名的情感属性,确定第一事件名的受关注程度,例如,当预设时间内第一事件名的出现次数达到第一预设次数,该出现次数的涨幅情况大于预设涨幅时,且情感属性为负向情感时,确定第一事件名的受关注程度为重点关注,进行显示,否则,为非重点关注,不进行显示。
另外,当第一事件名为重点关注时,将该事件发送至对应的业务方,并进行显示,否则,不显示该事件。
下面,通过图8对上述方法进行系统性的说明:
该方法的实现框架主要通过四部分完成,消息源、在线实时计算、离线计算和事件显示。
其中,消息源包括:具有合作关系的第一消息提供服务商和网络上第二消息提供服务商。
在线实时计算包括:抓取和过滤:获取和过滤事件消息;有效性判断:确定事件消息对应的事件文本中的有效数据;事件名生成:从有效数据中生成第二事件名;匹配计算最终事件名:将第二事件名在事件库中进行匹配,得到最终事件名。
离线计算包括:事件聚合:对新增的事件名,并结合事件库中的所有历史事件名,采用聚类算法,将同一聚类下的事件名合并;事件库:创建及更新事件库。
事件显示包括:统计监测:统计预设时间段内第一事件名对应的相关参数,根据相关参数中的任意一项或多项,确定第一事件名的受关注程度;舆情事件:将重点关注的事件进行显示。
本申请实施例提供的该方法,获取实时事件消息,提取实时事件消息对应的N个第一事件名,可见,本申请实时提取获取到的事件消息的第一事件名,相较于现有技术采用时间窗口,将时间窗口内的事件消息进行聚合分析,获取事件名称的方式,提高了事件名称提取的及时性;进而,本申请将N个第一事件名和预设事件名进行匹配,基于匹配结果确定实时事件消息的目标事件名,本申请将提取的N个第一事件名和预设事件名匹配来确定最终的目标事件名,有效的提高了事件名称的准确度,并由于时间名称提取的及时性和准确性,提高了用户体验。
基于同一构思,本申请实施例中提供了一种事件名称的确定装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图9所示,该装置主要包括:
获取模块901,用于获取实时事件消息;
提取模块902,用于提取实时事件消息对应的N个第一事件名,N为大于或等于1的整数;
确定模块903,用于将N个第一事件名和预设事件名进行匹配,基于匹配结果,确定实时事件消息的目标事件名。
一个具体实施例中,提取模块902,用于从所述实时事件消息对应的事件文本中提取M个第二事件名,所述M为大于或等于N的整数;依次执行第一比对过程:从所述M个第二事件名中选取一个所述第二事件名;计算选取的第二事件名与剩余的第二事件名的第一相似度;统计所述第一相似度大于第一预设阈值对应的第二事件名;将统计得到的N个第二事件名作为所述第一事件名。
一个具体实施例中,提取模块902包括提取子模块,提取子模块用于判断所述事件文本中是否包括预设符号;若是,基于所述预设符号,从所述事件文本中,提取所述M个第二事件名;否则,对所述事件文本进行拆分,得到K个子文本;从所述K个子文本中提取所述M个第二事件名,所述K为大于或等于M的整数。
一个具体实施例中,确定模块903用于依次计算每个所述第一事件名与所述预设事件名的第二相似度;当存在所述第二相似度大于第二预设阈值时,将大于所述第二相似度对应的预设事件名作为所述目标事件名。
一个具体实施例中,确定模块903包括第一确定子模块,第一确定子模块用于当存在所述第二相似度大于第二预设阈值时,获取最大的所述第二相似度对应的预设事件名;将所述最大的第二相似度对应的预设事件名,作为所述目标事件名。
一个具体实施例中,确定模块903用于依次计算每个所述第一事件名与所述预设事件名的第三相似度;当不存在所述第三相似度大于所述第三预设阈值时,基于所述N个第一事件名,确定所述目标事件名。
一个具体实施例中,确定模块903包括第二确定子模块,第二确定子模块用于当不存在所述第三相似度大于所述第三预设阈值时,将所述N个第一事件名进行拼接,得到事件名拼接结果;依次计算每个所述第一事件名与所述事件名拼接结果的第四相似度;将最大的所述第四相似度对应的第一事件名,作为所述目标事件名。
一个具体实施例中,该装置还包括存储模块,用于存储所述实时事件消息,和所述实时事件消息对应的所述目标事件名。
基于同一构思,本申请实施例中还提供了一种电子设备,如图10所示,该电子设备主要包括:处理器1001、存储器1002和通信总线1003,其中,处理器1001和存储器1002通过通信总线1003完成相互间的通信。其中,存储器1002中存储有可被至处理器1001执行的程序,处理器1001执行存储器1002中存储的程序,实现如下步骤:实时监听事件消息;生成事件消息对应的第一事件名;确定第一事件名的受关注程度,根据受关注程度,确定是否显示事件。
上述电子设备中提到的通信总线1003可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线1003可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1002可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器1001的存储装置。
上述的处理器1001可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的事件名称的确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种事件名称的确定方法,其特征在于,包括:
获取实时事件消息,当获取到所述实时事件消息时,通过预配置的关键信息,判断所述实时事件消息对应的事件是否为需关注事件,若不为需关注事件,将所述实时事件消息滤除;若为需关注事件,判断所述实时事件消息属于哪个业务方;
提取所述实时事件消息对应的N个第一事件名,所述N为大于或等于1的整数;
将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名;将所述目标事件名发送给所述实时事件消息所属的业务方;
其中,所述将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,包括:
依次计算每个所述第一事件名与所述预设事件名的第三相似度;
当不存在所述第三相似度大于第三预设阈值时,将所述N个第一事件名进行拼接,得到事件名拼接结果;
依次计算每个所述第一事件名与所述事件名拼接结果的第四相似度;
将最大的所述第四相似度对应的第一事件名,作为所述目标事件名。
2.根据权利要求1所述的事件名称的确定方法,其特征在于,所述提取所述实时事件消息对应的N个第一事件名,包括:
从所述实时事件消息对应的事件文本中提取M个第二事件名,所述M为大于或等于N的整数;
依次执行第一比对过程:从所述M个第二事件名中选取一个所述第二事件名;计算选取的第二事件名与剩余的第二事件名的第一相似度;统计所述第一相似度大于第一预设阈值对应的第二事件名;
将统计得到的N个第二事件名作为所述第一事件名。
3.根据权利要求2所述的事件名称的确定方法,其特征在于,所述从所述实时事件消息对应的事件文本中提取M个第二事件名,包括:
判断所述事件文本中是否包括预设符号;
若是,基于所述预设符号,从所述事件文本中,提取所述M个第二事件名;
否则,对所述事件文本进行拆分,得到K个子文本;从所述K个子文本中提取所述M个第二事件名,所述K为大于或等于M的整数。
4.根据权利要求1-3任一项所述的事件名称的确定方法,其特征在于,所述将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,包括:
依次计算每个所述第一事件名与所述预设事件名的第二相似度;
当存在所述第二相似度大于第二预设阈值时,将大于所述第二相似度对应的预设事件名作为所述目标事件名。
5.根据权利要求4所述的事件名称的确定方法,其特征在于,所述当存在所述第二相似度大于第二预设阈值时,将大于所述第二相似度对应的预设事件名作为所述目标事件名,包括:
当存在所述第二相似度大于第二预设阈值时,获取最大的所述第二相似度对应的预设事件名;
将最大的所述第二相似度对应的预设事件名,作为所述目标事件名。
6.根据权利要求1所述的事件名称的确定方法,其特征在于,所述基于匹配结果,确定所述实时事件消息的目标事件名之后,还包括:
存储所述实时事件消息,和所述实时事件消息对应的所述目标事件名。
7.一种事件名称的确定装置,其特征在于,包括:
获取模块,用于获取实时事件消息,当获取到所述实时事件消息时,通过预配置的关键信息,判断所述实时事件消息对应的事件是否为需关注事件,若不为需关注事件,将所述实时事件消息滤除;若为需关注事件,判断所述实时事件消息属于哪个业务方;
提取模块,用于提取所述实时事件消息对应的N个第一事件名,所述N为大于或等于1的整数;
确定模块,用于将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,将目标事件名发送给所述实时事件消息所属的业务方;
其中,所述将所述N个第一事件名和预设事件名进行匹配,基于匹配结果,确定所述实时事件消息的目标事件名,包括:
依次计算每个所述第一事件名与所述预设事件名的第三相似度;
当不存在所述第三相似度大于第三预设阈值时,将所述N个第一事件名进行拼接,得到事件名拼接结果;
依次计算每个所述第一事件名与所述事件名拼接结果的第四相似度;
将最大的所述第四相似度对应的第一事件名,作为所述目标事件名。
8.一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至6任一项所述的事件名称的确定方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的事件名称的确定方法。
CN202110573900.5A 2021-05-25 2021-05-25 事件名称的确定方法、装置、设备及存储介质 Active CN113343687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110573900.5A CN113343687B (zh) 2021-05-25 2021-05-25 事件名称的确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110573900.5A CN113343687B (zh) 2021-05-25 2021-05-25 事件名称的确定方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113343687A CN113343687A (zh) 2021-09-03
CN113343687B true CN113343687B (zh) 2023-09-05

Family

ID=77471395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110573900.5A Active CN113343687B (zh) 2021-05-25 2021-05-25 事件名称的确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113343687B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2672440A1 (en) * 2012-06-07 2013-12-11 Apple Inc. Intelligent presentation of documents
CN111191022A (zh) * 2019-12-27 2020-05-22 苏宁云计算有限公司 商品短标题生成方法及装置
CN111460289A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 新闻资讯的推送方法和装置
CN112507697A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 事件名的生成方法、装置、设备及介质
KR20210038467A (ko) * 2020-03-20 2021-04-07 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162470A1 (en) * 2006-01-10 2007-07-12 International Business Machines Corporation Method and apparatus for event transformation and adaptive correlation for monitoring business solutions
US8396874B2 (en) * 2010-02-17 2013-03-12 Yahoo! Inc. System and method for using topic messages to understand media relating to an event

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2672440A1 (en) * 2012-06-07 2013-12-11 Apple Inc. Intelligent presentation of documents
CN111191022A (zh) * 2019-12-27 2020-05-22 苏宁云计算有限公司 商品短标题生成方法及装置
KR20210038467A (ko) * 2020-03-20 2021-04-07 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체
CN111460289A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 新闻资讯的推送方法和装置
CN112507697A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 事件名的生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113343687A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US11599729B2 (en) Method and apparatus for intelligent automated chatting
CN110377759B (zh) 事件关系图谱构建方法及装置
CN107797984B (zh) 智能交互方法、设备及存储介质
US10332012B2 (en) Knowledge driven solution inference
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
US9213946B1 (en) Comparing models
CN106844685B (zh) 用于识别网站的方法、装置及服务器
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
CA3061788A1 (en) Electronic communication system with drafting assistant and method of using same
KR20190002202A (ko) 학습 기반의 비속어 탐지 장치 및 방법
Onyenwe et al. The impact of political party/candidate on the election results from a sentiment analysis perspective using# AnambraDecides2017 tweets
CN103635898B (zh) 喜好可视化系统和审查系统
CN115982473A (zh) 一种基于aigc的舆情分析编排系统
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN113343687B (zh) 事件名称的确定方法、装置、设备及存储介质
Lampos Detecting events and patterns in large-scale user generated textual streams with statistical learning methods
Phand et al. Enhanced sentiment classification using geo location tweets
CN116431912A (zh) 用户画像推送方法及装置
Murthy et al. TwitSenti: a real-time Twitter sentiment analysis and visualization framework
Raina et al. Twitter sentiment analysis using apache storm
Cohen et al. Sentiment analysis in microblogging: a practical implementation
Rajeshwari et al. Framework for opinion as a service on review data of customer using semantics based analytics
CN110705251A (zh) 计算机执行的文本分析方法及装置
Iio TWTRENDS--A VISUALIZATION SYSTEM ON TOPIC MAPS EXTRACTED FROM TWITTER TRENDS.
Timm et al. Dynamic analysis of communication processes using twitter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant