CN111488430B - 事件的数据处理的方法、装置、设备以及存储介质 - Google Patents

事件的数据处理的方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN111488430B
CN111488430B CN202010265338.5A CN202010265338A CN111488430B CN 111488430 B CN111488430 B CN 111488430B CN 202010265338 A CN202010265338 A CN 202010265338A CN 111488430 B CN111488430 B CN 111488430B
Authority
CN
China
Prior art keywords
event
search sequence
ranking
access
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010265338.5A
Other languages
English (en)
Other versions
CN111488430A (zh
Inventor
孟攀飞
张众
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010265338.5A priority Critical patent/CN111488430B/zh
Publication of CN111488430A publication Critical patent/CN111488430A/zh
Application granted granted Critical
Publication of CN111488430B publication Critical patent/CN111488430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种事件的数据处理方法、装置、设备及存储介质,涉及大数据技术领域。具体实现方案为:确定特定事件的事件词语;根据所述事件词语,确定至少两个事件搜索序列;根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度;根据至少两个所述事件搜索序列的新鲜度,从至少两个所述事件搜索序列中确定所述特定事件的时新搜索序列。实现了对事件的时新搜索序列进行精确挖掘,避免中小级别事件相关时新搜索序列的遗漏,提高了事件的时新搜索序列挖掘效率。

Description

事件的数据处理的方法、装置、设备以及存储介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及大数据技术,具体涉及一种事件的数据处理的方法、装置、设备以及存储介质。
背景技术
一个社会事件发生并引发广泛关注,会在事件的相关搜索序列(query)中反映出来,事件搜索序列的变迁反映事件不同时期社会关注点的变化。搜索运营需要及时挖掘时新搜索序列,产出大数据分析报告,提升搜索流量,媒体和政府机构也需要这些大数据分析,做针对性的合理应对。
目前,存在事件的时新搜索序列很难被挖掘到,事件的时新搜索序列挖掘效率较低,无法进行有效的搜索运营等技术问题。
发明内容
提供了一种事件的数据处理的方法、装置、设备以及存储介质。
根据第一方面,提供了一种事件的数据处理方法,该方法包括:
确定特定事件的事件词语;
根据所述事件词语,确定至少两个事件搜索序列;
根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度;
根据至少两个所述事件搜索序列的新鲜度,从至少两个所述事件搜索序列中确定所述特定事件的时新搜索序列。
根据第二方面,提供了一种事件的数据处理装置,该装置包括:
事件词语确定模块,用于确定特定事件的事件词语;
序列确定模块,用于根据所述事件词语,确定至少两个事件搜索序列;
新鲜度确定模块,用于根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度;
时新确定模块,用于根据至少两个所述事件搜索序列的新鲜度,从至少两个所述事件搜索序列中确定所述特定事件的时新搜索序列。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的事件的数据处理方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任一实施例所述的事件的数据处理方法。
根据本申请的技术解决了现有技术中,实现了对事件的时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的一种事件的数据处理方法的流程示意图;
图2是根据本申请实施例的一种事件的数据处理方法的流程示意图;
图3是根据本申请实施例的事件搜索序列的新鲜度排序页面示意图;
图4是根据本申请实施例的一种事件的数据处理方法的流程示意图;
图5是根据本申请实施例的一种事件的数据处理装置的结构框图
图6是用来实现本申请实施例的一种事件的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请实施例提供的一种事件的数据处理方法的流程示意图,本实施例用于确定时新搜索序列的情况,该方法可以由一种事件的数据处理装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于具有计算能力的电子设备中。如图1所示,本实施例提供的一种事件的数据处理方法可以包括:
S110、确定特定事件的事件词语。
其中,特定事件可以是用户关注的任意事件,例如突发事件、重要活动事件等。事件词语是指与特定事件相关的词语,包括事件词语的信息即为特定事件信息,事件词语可以是特定事件关联的对象名称、地点名称等。例如,体育赛事事件的事件词语可以为该体育赛事的名称、地点、时间等。又如森林火灾事件的事件词语可以为森林和火灾。
具体的,可以是由工作人员输入事件词语,也可以从特定事件的历史事件词语里选取查询次数多的词语作为事件词语,还可以将在特定事件的文章中出现频次多的词语作为事件词语。
S120、根据事件词语,确定至少两个事件搜索序列。
其中,事件搜索序列是指用于搜索特定事件信息的搜索序列(query),或者说在搜索特定事件过程中所使用的搜索序列。具体的,可以将包括至少一个事件词语的搜索序列作为事件搜索序列,即根据事件词语,确定至少两个衍生出的事件搜索序列。
S130、根据事件搜索序列在当前周期的访问量、在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的新鲜度。
其中,基准周期是针对当前周期的历史时间,例如当前周期可以预设为当日的24小时,基准周期可以是前一天的24小时。当前周期的访问量是指用户在当前周期内,通过搜索该事件搜索序列,对事件进行访问的访问量。当前事件访问排名可以是指该事件搜索序列在当前周期的所有事件搜索序列中的访问量排名。具体的,可以先统计用户在当前周期内,搜索事件中的该事件搜索序列的访问量,以及用户对该事件中其他事件搜索序列进行访问的访问量。再将该事件中,该事件搜索序列的访问量与其他事件搜索序列的访问量进行比较,确定该事件搜索序列访问量在当前周期中的排名。在当前周期内,该事件搜索序列的访问量越高,排名越高。
其中,基准周期的访问量是指用户在基准周期内,通过搜索该事件搜索序列,对事件进行访问的访问量。基期事件访问排名可以是指该事件搜索序列在基准周期的所有事件搜索序列中的访问量排名。具体的,可以先确定该事件搜索序列在基准周期内的访问量,以及该事件中其他事件搜索序列在基准周期内的访问量,比较该事件中该事件搜索序列与其他事件搜索序列的访问量,确定该事件搜索序列访问量在基准周期中的排名。在基准周期内,该事件搜索序列的访问量越高,排名越高。
其中,事件搜索序列的新鲜度是指该事件搜索序列在特定事件的新事件搜索序列中的受关注度,用于挖掘特定事件的时新词。需要说明的是,新鲜度可以受热度影响,但并非由热度决定。热度较小的事件搜索序列的新鲜度可能较大。
具体的,事件搜索序列在当前周期的访问量越高,新鲜度越高;事件搜索序列在当前周期的当前事件访问排名越高,新鲜度越高;事件搜索序列的当前事件访问排名较基期事件访问排名的排名提升越多,新鲜度越高。另外,也可以根据事件搜索序列在当前周期的访问量、基准周期的访问量、当前事件访问排名和基期事件访问排名,确定该事件搜索序列的新鲜度。
S140、根据至少两个事件搜索序列的新鲜度,从至少两个事件搜索序列中确定特定事件的时新搜索序列。
其中,时新搜索序列为当前周期内,新鲜度较高的实时的事件搜索序列。在得到至少两个事件搜索序列之后,计算至少两个事件搜索序列的新鲜度,根据新鲜度确定事件搜索序列中特定事件的时新搜索序列,将新鲜度较高的事件搜索序列作为时新搜索序列。
上述申请中的一个实施例具有如下优点或有益效果:确定事件搜索序列,计算事件搜索序列的访问量及访问排名,得到事件搜索序列的新鲜度,根据新鲜度,确定时新搜索序列。解决了现有技术中,只根据访问量确定时新搜索序列,造成的中小级别事件的相关搜索序列被遗漏的问题,实现了对事件时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
图2是根据本申请实施例提供的一种事件的数据处理方法的流程示意图,本实施例为上述实施例的进一步优化。如图2所示,本实施例提供的一种事件的数据处理方法可以包括:
S210、确定特定事件的事件词语。
S220、根据事件词语,确定至少两个事件搜索序列。
S230、根据事件搜索序列在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的排名提升幅度;根据事件搜索序列的排名提升幅度和在当前周期的访问量,确定事件搜索序列的新鲜度。
其中,排名提升幅度是指事件搜索序列的当前事件访问排名较基期事件访问排名的排名变化程度。具体的,比较事件搜索序列在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定当前事件访问排名较基期事件访问排名的提升情况。例如,当前事件访问排名为4,基期事件访问排名为10,则事件搜索序列的访问排名提升6名。
本实施例中,可选的,根据事件搜索序列在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的排名提升幅度,包括:将事件搜索序列在基准周期的基期事件访问排名减去在当前周期的当前事件访问排名,得到事件搜索序列的排名提升值;将事件搜索序列的排名提升值与当前事件访问排名之间比值,作为事件搜索序列的排名提升幅度。
具体的,排名提升值是指事件搜索序列的基期事件访问排名与当前事件访问排名的差值。具体的,将事件搜索序列在基准周期的基期事件访问排名与在当前周期的当前事件访问排名相减,得到事件搜索序列的排名提升值。计算排名提升值与当前事件访问排名的比值,确定事件搜索序列的排名提升幅度。例如,存在两个事件搜索序列,包括序列一和序列二。序列一的当前事件访问排名为4,基期事件访问排名为10,序列二的当前事件访问排名为3,基期事件访问排名为9。根据排名情况确定序列一和序列二的排名提升值均为6,计算序列一中6与4的比值,以及序列二中6与3的比值,得到序列一的排名提升幅度为1.5,序列二的排名提升幅度为2,提升幅度越大的序列,成为时新搜索序列的可能性越大。
通过将基期事件访问排名与当前事件访问排名相减,得到排名提升值,将排名提升值与当前事件访问排名相除,得到排名提升幅度。解决了单纯通过排名提升值判断排名提升情况时造成的偏差,避免在排名提升值一致时的判断失误问题,提高了排名提升幅度的计算精确性,有利于对时新搜索序列的判断,提高时新搜索序列的挖掘效率。
本实施例中,可选的,根据事件搜索序列的排名提升幅度和在当前周期的访问量,确定事件搜索序列的新鲜度,包括:将事件搜索序列的排名提升幅度与在当前周期的访问量之间的乘积,作为事件搜索序列的新鲜度。
具体的,在确定事件搜索序列的排名提升幅度后,将事件搜索序列的排名提升幅度和在当前周期的访问量相乘,乘积结果为事件搜索序列的新鲜度。新鲜度的计算公式如下所示:
其中,F表示事件搜索序列的新鲜度,Rank0表示事件搜索序列在基准周期的基期事件访问排名,Rank1表示事件搜索序列在当前周期的当前事件访问排名,PV表示事件搜索序列在当前周期的访问量。通过计算排名提升幅度和访问量相乘,提高新鲜度的计算精度,避免单纯通过排名提升幅度判断新鲜度所造成的的误差,提升事件搜索序列的新鲜度的统计效率。图3是本实施例中事件搜索序列的新鲜度排序页面示意图。在设置基准周期和当前周期后,统计事件搜索序列的基期事件访问排名、当前事件访问排名和当前周期访问量,计算得出排名提升值和新鲜度。
本实施例中,可选的,在确定事件搜索序列的新鲜度之前,还包括:将事件搜索序列在当前周期的事件搜索序列集中的访问量排名,作为当前事件访问排名;将事件搜索序列在基准周期的事件搜索序列集中的访问量排名,作为基期事件访问排名。
具体的,当前周期的事件搜索序列集为当前周期内包含事件搜索序列的集合。事件搜索序列在当前周期的事件搜索序列集中的访问量排名是指,该事件搜索序列的访问量在当前周期的事件搜索序列集中所有事件搜索序列访问量的排名。具体的,可以先确定该事件搜索序列所在的当前周期的事件搜索序列集,统计该事件搜索序列在当前周期内的访问量,再确定事件搜索序列集中,其他事件搜索序列在当前周期内的访问量,确定该事件搜索序列在当前周期内的访问量排名。
基准周期的事件搜索序列集为基准周期内包含事件搜索序列的集合。事件搜索序列在基准周期的事件搜索序列集中的访问量排名是指,该事件搜索序列的访问量在基准周期的事件搜索序列集中所有事件搜索序列访问量的排名。具体的,可以先确定该事件搜索序列所在的基准周期的事件搜索序列集,统计该事件搜索序列在基准周期内的访问量,再确定事件搜索序列集中,其他事件搜索序列在基准周期内的访问量,确定该事件搜索序列在基准周期内的访问量排名。
若单纯关注访问量,则可能遗漏时新搜索序列。例如,存在事件搜索序列在当前周期内的访问量为万级,在10亿级的访问量环境下,该事件搜索序列很容易被忽视,通过计算事件搜索序列在事件搜索序列集中的访问量排名,提高了对排名提升幅度的计算精度,有利于对新鲜度的计算,提高时新搜索序列的挖掘效率,避免了单纯统计访问量造成的新鲜度计算误差较大的问题。
S240、根据至少两个事件搜索序列的新鲜度,从至少两个事件搜索序列中确定特定事件的时新搜索序列。
上述申请中的一个实施例具有如下优点或有益效果:确定事件搜索序列,计算事件搜索序列的当前事件访问排名和基期事件访问排名,确定排名提升幅度,根据排名提升幅度和访问量,得到事件搜索序列的新鲜度,从而确定时新搜索序列。解决了现有技术中,只根据访问量确定时新搜索序列,造成的中小级别事件的相关搜索序列被遗漏的问题,实现了对事件时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
图4是根据本申请实施例提供的一种事件的数据处理方法的流程示意图,本实施例为上述实施例的进一步优化。如图4所示,本实施例提供的一种事件的数据处理方法可以包括:
S410、获取特定事件的事件词语;基于搜索序列匹配工具,根据事件词语和历史搜索序列扩充事件词语。
其中,事件词语是与特定事件相关的词语,可以由工作人员进行输入,也可以从特定事件的历史事件词语中进行选取。
搜索序列匹配工具用于查找与事件词语相关联的历史搜索序列,根据历史搜索序列对事件词语进行扩充,将扩充后的词语作为新的事件词语。历史搜索序列是指在当前周期之前,用于搜索特定事件的事件搜索序列。例如,特定事件为森林火灾,事件词语为“森林”,历史搜索序列为“森林面积”,则可将“森林面积”扩充为事件词语。
本实施例中,可选的,基于搜索序列匹配工具,根据事件词语和历史搜索序列扩充事件词语,包括:将包括事件词语的历史搜索序列,作为特定事件的历史事件搜索序列;对历史事件搜索序列进行分词,确定历史搜索词语;对历史搜索词语进行过滤,得到候选事件词语;从候选事件词语中选择新的事件词语。
具体的,历史事件搜索序列是指包括事件词语的历史搜索序列,根据搜索序列匹配工具,获取包括事件词语的历史搜索序列,将历史搜索序列确定为特定事件的历史事件搜索序列。
分词工具是一种自然语言处理工具,用于将词句进行分割。利用分词工具,对历史事件搜索序列进行分词,得到分解后的历史搜索词语,其中,历史搜索词语为历史事件搜索序列的组成成分。例如,历史事件搜索序列为“森林环境”,对“森林环境”进行分词,得到的历史搜索词语为“森林”和“环境”。预先获取的事件词语为“森林”,则可将“环境”添加为事件词语。
根据预设的过滤规则,对历史搜索词语进行过滤,得到新的事件词语。具体的,可以将与特定事件无关的词语滤除,得到候选事件词语,候选事件词语为历史搜索词语中符合过滤规则被保留的事件词语。例如,历史事件搜索序列为“森林最新面积”,分词后的历史搜索词语为“森林”、“最新”和“面积”,则可以将“最新”过滤,得到的候选事件词语为“森林”和“面积”。从候选事件词语中选择至少一个新的事件词语,例如,候选事件词语为“森林”和“面积”,选择“面积”为新的事件词语。
通过扩充事件词语,并对历史事件搜索序列进行分词,提高了对时新搜索序列的查询范围,避免时新搜索序列的查询遗漏。通过对历史事件搜索序列进行过滤,进一步提高时新搜索序列的挖掘精确性。
本实施例中,可选的,对历史搜索词语进行过滤,包括:根据预设的事件通用词语和特定事件已有的事件词语,对历史搜索词语进行过滤。
具体的,事件通用词语是指无意义或与特定事件无关的词语,可以预设多个事件通用词语,若分词后的历史搜索词语为预设的事件通用词语,则将该历史搜索词语进行过滤。例如,可以将“最新”、“比较”和“周期”预设为事件通用词语,若分词后的历史搜索词语为“比较”、“森林”和“面积”,则滤除“比较”,将“森林”和“面积”作为新的事件词语。
也可以将分词后的历史搜索词语与获取到的事件词语进行对比,若存在重复的词语,则将历史搜索词语中的该词语进行过滤。例如,获取到的事件词语为“森林”,分词后的历史搜索词语为“森林”和“面积”,则将历史搜索词语中的“森林”进行过滤,只有“面积”为新的事件词语。
通过对历史搜索词语进行过滤,避免对无关词语的统计和计算,节约时新搜索序列的挖掘时间,提高时新搜索序列的判断精确性和挖掘效率。
本实施例中,可选的,从候选事件词语中选择新的事件词语,包括:根据候选事件词语的访问量,从候选事件词语中选择新的事件词语。
具体的,确定候选事件词语的访问量,根据访问量对候选事件词语进行排序,从候选事件词语中选择符合访问量要求的词语作为新的事件词语。例如,预设访问量要求为访问量大于10万,候选事件词语包括“森林”、“面积”和“火灾”,“森林”的访问量为20万,“面积”的访问量为5万,“火灾”的访问量为25万,则最终得到的新的事件词语为“森林”和“火灾”。通过访问量对事件词语进行选择,实现了对事件词语的精准挖掘,提高事件词语的挖掘效率。
S420、根据事件词语,确定至少两个事件搜索序列。
S430、根据事件搜索序列在当前周期的访问量、在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的新鲜度。
S440、根据至少两个事件搜索序列的新鲜度,从至少两个事件搜索序列中确定特定事件的时新搜索序列。
上述申请中的一个实施例具有如下优点或有益效果:对特定事件的事件词语进行扩充,提高事件词语的范围和精确性,基于事件词语得到事件搜索序列,计算事件搜索序列的访问量及访问排名,得到事件搜索序列的新鲜度,从而确定时新搜索序列。解决了只根据现有事件词语进行统计所造成的事件词语遗漏的问题,避免中小级别事件的相关搜索序列被忽略,实现了对事件时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
图5是根据本申请实施例提供的一种事件的数据处理装置的结构示意图,可执行本申请实施例所提供的事件的数据处理方法,具备执行方法相应的功能模块和有益效果。如图5所示,该装置500可以包括:
事件词语确定模块501,用于确定特定事件的事件词语;
序列确定模块502,用于根据事件词语,确定至少两个事件搜索序列;
新鲜度确定模块503,用于根据事件搜索序列在当前周期的访问量、在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的新鲜度;
时新确定模块504,用于根据至少两个事件搜索序列的新鲜度,从至少两个事件搜索序列中确定特定事件的时新搜索序列。
可选的,新鲜度确定模块503,包括:
提升幅度确定单元,用于根据事件搜索序列在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的排名提升幅度;
新鲜度计算单元,用于根据事件搜索序列的排名提升幅度和在当前周期的访问量,确定事件搜索序列的新鲜度。
可选的,提升幅度确定单元,包括:
提升值获取单元,用于将事件搜索序列在基准周期的基期事件访问排名减去在当前周期的当前事件访问排名,得到事件搜索序列的排名提升值;
幅度确定单元,用于将事件搜索序列的排名提升值与当前事件访问排名之间比值,作为事件搜索序列的排名提升幅度。
可选的,新鲜度计算单元包括:
乘积确定单元,用于将所述事件搜索序列的排名提升幅度与所述在当前周期的访问量之间的乘积,作为所述事件搜索序列的新鲜度。
可选的,该装置还包括:
当前排名确定模块,用于将事件搜索序列在当前周期的事件搜索序列集中的访问量排名,作为当前事件访问排名;
基期排名确定模块,用于将事件搜索序列在基准周期的事件搜索序列集中的访问量排名,作为基期事件访问排名。
可选的,事件词语确定模块501,包括:
事件词语获取单元,用于获取特定事件的事件词语;
事件词语扩充单元,用于基于搜索序列匹配工具,根据事件词语和历史搜索序列扩充事件词语。
可选的,事件词语扩充单元,包括:
历史序列确定单元,用于将包括事件词语的历史搜索序列,作为特定事件的历史事件搜索序列;
历史词语确定单元,用于对历史事件搜索序列进行分词,确定历史搜索词语;
历史词语过滤单元,用于对历史搜索词语进行过滤,得到候选事件词语;
候选词语选择单元,用于从所述候选事件词语中选择新的事件词语。
可选的,历史词语过滤单元,具体用于:
根据预设的事件通用词语和特定事件已有的所述事件词语,对历史搜索词语进行过滤。
可选的,候选词语选择单元包括:
访问量选择单元,用于根据所述候选事件词语的访问量,从所述候选事件词语中选择新的事件词语。
上述申请中的一个实施例具有如下优点或有益效果:确定事件搜索序列,计算事件搜索序列的访问量及访问排名,得到事件搜索序列的新鲜度,根据新鲜度,确定时新搜索序列。解决了现有技术中,只根据访问量确定时新搜索序列,造成的中小级别事件的相关搜索序列被遗漏的问题,实现了对事件时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的事件的数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的事件的数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的事件的数据处理方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的事件的数据处理方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的事件的数据处理方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据事件的数据处理方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至事件的数据处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
事件的数据处理方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与事件的数据处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,确定事件搜索序列,计算事件搜索序列的访问量及访问排名,得到事件搜索序列的新鲜度,根据新鲜度,确定时新搜索序列。解决了现有技术中,只根据访问量确定时新搜索序列,造成的中小级别事件的相关搜索序列被遗漏的问题,实现了对事件时新搜索序列的精准挖掘,提高时新搜索序列的挖掘效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种事件的数据处理方法,其特征在于,包括:
确定特定事件的事件词语;
根据所述事件词语,确定至少两个事件搜索序列;
根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度;
根据至少两个所述事件搜索序列的新鲜度,从至少两个所述事件搜索序列中确定所述特定事件的时新搜索序列;
在确定所述事件搜索序列的新鲜度之前,还包括:
将所述事件搜索序列在当前周期的事件搜索序列集中的访问量排名,作为所述当前事件访问排名;
将所述事件搜索序列在基准周期的事件搜索序列集中的访问量排名,作为所述基期事件访问排名;
其中,所述事件搜索序列的新鲜度是指所述事件搜索序列在特定事件的事件搜索序列中的受关注度,用于挖掘特定事件的时新词;所述新鲜度受热度影响,但不由热度决定。
2.根据权利要求1所述的方法,其特征在于,根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度,包括:
根据所述事件搜索序列在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的排名提升幅度;
根据所述事件搜索序列的排名提升幅度和在当前周期的访问量,确定所述事件搜索序列的新鲜度。
3.根据权利要求2所述的方法,其特征在于,根据所述事件搜索序列在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的排名提升幅度,包括:
将所述事件搜索序列在基准周期的基期事件访问排名减去所述在所述当前周期的当前事件访问排名,得到所述事件搜索序列的排名提升值;
将所述事件搜索序列的排名提升值与所述当前事件访问排名之间比值,作为所述事件搜索序列的排名提升幅度。
4.根据权利要求2所述的方法,其特征在于,根据所述事件搜索序列的排名提升幅度和在当前周期的访问量,确定所述事件搜索序列的新鲜度,包括:
将所述事件搜索序列的排名提升幅度与所述在当前周期的访问量之间的乘积,作为所述事件搜索序列的新鲜度。
5.根据权利要求1所述的方法,其特征在于,确定特定事件的事件词语,包括:
获取所述特定事件的事件词语;
基于搜索序列匹配工具,根据所述事件词语和历史搜索序列扩充所述事件词语。
6.根据权利要求5所述的方法,其特征在于,基于搜索序列匹配工具,根据所述事件词语和历史搜索序列扩充所述事件词语,包括:
将包括所述事件词语的历史搜索序列,作为所述特定事件的历史事件搜索序列;
对所述历史事件搜索序列进行分词,确定历史搜索词语;
对所述历史搜索词语进行过滤,得到候选事件词语;
从所述候选事件词语中选择新的事件词语。
7.根据权利要求6所述的方法,其特征在于,对所述历史搜索词语进行过滤,包括:
根据预设的事件通用词语和所述特定事件已有的所述事件词语,对所述历史搜索词语进行过滤。
8.根据权利要求6所述的方法,其特征在于,从所述候选事件词语中选择新的事件词语,包括:
根据所述候选事件词语的访问量,从所述候选事件词语中选择新的事件词语。
9.一种事件的数据处理的装置,其特征在于,包括:
事件词语确定模块,用于确定特定事件的事件词语;
序列确定模块,用于根据所述事件词语,确定至少两个事件搜索序列;
新鲜度确定模块,用于根据所述事件搜索序列在当前周期的访问量、在所述当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定所述事件搜索序列的新鲜度;
时新确定模块,用于根据至少两个所述事件搜索序列的新鲜度,从至少两个所述事件搜索序列中确定所述特定事件的时新搜索序列;
所述装置还包括:
当前排名确定模块,用于在确定所述事件搜索序列的新鲜度之前,将事件搜索序列在当前周期的事件搜索序列集中的访问量排名,作为当前事件访问排名;
基期排名确定模块,用于将事件搜索序列在基准周期的事件搜索序列集中的访问量排名,作为基期事件访问排名;
其中,所述事件搜索序列的新鲜度是指所述事件搜索序列在特定事件的事件搜索序列中的受关注度,用于挖掘特定事件的时新词;所述新鲜度受热度影响,但不由热度决定。
10.根据权利要求9所述的装置,其特征在于,所述新鲜度确定模块包括:
提升幅度确定单元,用于根据事件搜索序列在当前周期的当前事件访问排名和在基准周期的基期事件访问排名,确定事件搜索序列的排名提升幅度;
新鲜度计算单元,用于根据事件搜索序列的排名提升幅度和在当前周期的访问量,确定事件搜索序列的新鲜度。
11.根据权利要求10所述的装置,其特征在于,所述提升幅度确定单元包括:
提升值获取单元,用于将事件搜索序列在基准周期的基期事件访问排名减去在当前周期的当前事件访问排名,得到事件搜索序列的排名提升值;
幅度确定单元,用于将事件搜索序列的排名提升值与当前事件访问排名之间比值,作为事件搜索序列的排名提升幅度。
12.根据权利要求10所述的装置,其特征在于,所述新鲜度计算单元包括:
乘积确定单元,用于将所述事件搜索序列的排名提升幅度与所述在当前周期的访问量之间的乘积,作为所述事件搜索序列的新鲜度。
13.根据权利要求9所述的装置,其特征在于,所述事件词语确定模块包括:
事件词语获取单元,用于获取特定事件的事件词语;
事件词语扩充单元,用于基于搜索序列匹配工具,根据事件词语和历史搜索序列扩充事件词语。
14.根据权利要求13所述的装置,其特征在于,所述事件词语扩充单元包括:
历史序列确定单元,用于将包括事件词语的历史搜索序列,作为特定事件的历史事件搜索序列;
历史词语确定单元,用于对历史事件搜索序列进行分词,确定历史搜索词语;
历史词语过滤单元,用于对历史搜索词语进行过滤,得到候选事件词语;
候选词语选择单元,用于从所述候选事件词语中选择新的事件词语。
15.根据权利要求14所述的装置,其特征在于,所述历史词语过滤单元具体用于:
根据预设的事件通用词语和特定事件已有的所述事件词语,对历史搜索词语进行过滤。
16.根据权利要求14所述的装置,其特征在于,所述候选词语选择单元包括:
访问量选择单元,用于根据所述候选事件词语的访问量,从所述候选事件词语中选择新的事件词语。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的事件的数据处理方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的事件的数据处理方法。
CN202010265338.5A 2020-04-07 2020-04-07 事件的数据处理的方法、装置、设备以及存储介质 Active CN111488430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010265338.5A CN111488430B (zh) 2020-04-07 2020-04-07 事件的数据处理的方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010265338.5A CN111488430B (zh) 2020-04-07 2020-04-07 事件的数据处理的方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111488430A CN111488430A (zh) 2020-08-04
CN111488430B true CN111488430B (zh) 2023-08-04

Family

ID=71812519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010265338.5A Active CN111488430B (zh) 2020-04-07 2020-04-07 事件的数据处理的方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111488430B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
CN107273404A (zh) * 2017-04-26 2017-10-20 努比亚技术有限公司 搜索引擎的评估方法、装置及计算机可读存储介质
CN109739963A (zh) * 2018-12-27 2019-05-10 苏州龙信信息科技有限公司 信息检索方法、装置、设备和介质
CN110069676A (zh) * 2017-09-28 2019-07-30 北京国双科技有限公司 关键词推荐方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912841B2 (en) * 2006-09-13 2011-03-22 I. Know Nv. Data processing based on data linking elements

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
CN107273404A (zh) * 2017-04-26 2017-10-20 努比亚技术有限公司 搜索引擎的评估方法、装置及计算机可读存储介质
CN110069676A (zh) * 2017-09-28 2019-07-30 北京国双科技有限公司 关键词推荐方法和装置
CN109739963A (zh) * 2018-12-27 2019-05-10 苏州龙信信息科技有限公司 信息检索方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
国内基于大数据的个性化服务研究进展――架构体系与关键技术;孙雨生等;《现代情报》;20180215(第02期);全文 *

Also Published As

Publication number Publication date
CN111488430A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
EP3937027B1 (en) Method and apparatus for processing label data, device, and storage medium
CN111522967B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
JP7300475B2 (ja) エンティティ関係マイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112269789A (zh) 存储数据的方法和装置、以及读取数据的方法和装置
CN112380847B (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN112000863B (zh) 用户行为数据的分析方法、装置、设备和介质
CN111461343A (zh) 模型参数更新方法及其相关设备
CN111291082B (zh) 数据聚合处理方法、装置、设备及存储介质
CN111310058B (zh) 资讯主题的推荐方法、装置、终端及存储介质
CN112084150A (zh) 模型训练、数据检索方法,装置,设备以及存储介质
CN111259090A (zh) 关系数据的图生成方法、装置、电子设备和存储介质
CN111984545B (zh) 检测单元测试稳定性的方法、装置、电子设备及存储介质
CN111414487B (zh) 事件主题的关联扩展方法、装置、设备及介质
CN111259058B (zh) 数据挖掘方法、数据挖掘装置和电子设备
CN111488430B (zh) 事件的数据处理的方法、装置、设备以及存储介质
CN111125362B (zh) 一种异常文本确定方法、装置、电子设备和介质
CN111984857B (zh) 信息的推送方法、装置、电子设备和存储介质
CN113032209B (zh) 运行监控方法、装置、服务器及介质
CN115329150A (zh) 生成搜索条件树的方法、装置、电子设备及存储介质
CN111340222B (zh) 神经网络模型搜索方法、装置以及电子设备
CN111767444B (zh) 页面特征构建方法、装置、设备和存储介质
CN112507181B (zh) 搜索请求分类方法、装置、电子设备及存储介质
CN113220982A (zh) 广告搜索方法、装置、电子设备和介质
CN112328807A (zh) 反作弊方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant