CN110598199B - 数据流式处理方法、装置、计算机设备和存储介质 - Google Patents

数据流式处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110598199B
CN110598199B CN201810600256.4A CN201810600256A CN110598199B CN 110598199 B CN110598199 B CN 110598199B CN 201810600256 A CN201810600256 A CN 201810600256A CN 110598199 B CN110598199 B CN 110598199B
Authority
CN
China
Prior art keywords
user
log information
keyword
service
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810600256.4A
Other languages
English (en)
Other versions
CN110598199A (zh
Inventor
王志清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810600256.4A priority Critical patent/CN110598199B/zh
Publication of CN110598199A publication Critical patent/CN110598199A/zh
Application granted granted Critical
Publication of CN110598199B publication Critical patent/CN110598199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提出一种数据流式处理方法、装置、计算机设备和存储介质,其中,方法包括:获取预设关键词集及预设关键词集中各预设关键词对应的触发时间,检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词,若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息,对第一目标日志信息进行解析,确定第一用户的特征数据,将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。该方法提高了特征数据的时效性,能够满足不同第二业务的个性化需求,提高了适用性。

Description

数据流式处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据流式处理方法、装置、计算机设备和存储介质。
背景技术
随着信息时代的到来,数据开始急剧膨胀,业务也变得复杂,每个用户都是一个数据源,每时每刻都在产生着数据与个性化、实时化的需求,原有的人力以及服务器已经不足以支撑数据处理平台的业务。由此,数据流式处理便应运而生。
目前,流式系统中数据流式处理方式,主要是通过离线的方式,对上游业务用户的日志信息进行统计分析。具体地,将一天内所有用户的全部日志信息进行汇总统计分析,将分析结果发送下游业务。这种方式,虽然可以保证分析结果的准确性,但是时效性较差、适用性差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请提出一种数据流式处理方法,以实现提高分析结果的时效性和适用性。
本申请一方面实施例提出了一种数据流式处理方法,包括:
获取预设关键词集及所述预设关键词集中各预设关键词对应的触发时间;
检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词;
若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息;
对所述第一目标日志信息进行解析,确定所述第一用户的特征数据;
将所述第一用户的特征数据发送给与所述第一关键词匹配的第二业务,其中,所述第二业务在流式系统中位于所述第一业务下游。
本申请实施例的数据流式处理方法,通过获取预设关键词集及预设关键词集中各预设关键词对应的触发时间,检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词,若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息,对第一目标日志信息进行解析,确定第一用户的特征数据,将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。本实施例中,通过实时检测第一业务对应的各用户当前的日志信息是否包含预设关键词集中任一预设关键词,当任一预设关键词出现在用户的日志信息中时,根据预设关键词对应的触发时间,获取用户日志信息并进行解析,将获取的特征数据发送给与预设关键词匹配的下游第二业务,由此在确定日志信息中出现预设关键词时,根据与预设关键词对应的触发时间获取日志信息,从而提高了特征数据的时效性。同时,各第二业务具有对应的触发时间,并将用户的特征数据发给与预设关键词匹配的下游第二业务,从而可以满足不同第二业务的个性化需求,提高了适用性。
本申请另一方面实施例提出了一种数据流式处理装置,包括:
第一获取模块,用于获取预设关键词集及所述预设关键词集中各预设关键词对应的触发时间;
检测模块,用于检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词;
第二获取模块,用于在确定在第一时刻第一关键词出现在第一用户的日志信息中时,根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息;
第一确定模块,用于对所述目标日志信息进行解析,确定所述第一用户的特征数据;
发送模块,用于将所述第一用户的特征数据发送给与所述第一关键词匹配的第二业务,其中,所述第二业务在流式系统中位于所述第一业务下游。
本申请实施例的数据流式处理装置,通过获取预设关键词集及预设关键词集中各预设关键词对应的触发时间,检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词,若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息,对第一目标日志信息进行解析,确定第一用户的特征数据,将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。本实施例中,通过实时检测第一业务对应的各用户当前的日志信息是否包含预设关键词集中任一预设关键词,当任一预设关键词出现在用户的日志信息中时,根据预设关键词对应的触发时间,获取用户日志信息并进行解析,将获取的特征数据发送给与预设关键词匹配的下游第二业务,由此在确定日志信息中出现预设关键词时,根据与预设关键词对应的触发时间获取日志信息,从而提高了特征数据的时效性。同时,各第二业务具有对应的触发时间,并将用户的特征数据发给与预设关键词匹配的下游第二业务,从而可以满足不同第二业务的个性化需求,提高了适用性。
本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的数据流式处理方法。
本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的数据流式处理方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种数据流式处理方法的流程示意图;
图2为本申请实施例提供的另一种数据流式处理方法的流程示意图;
图3为本申请实施例提供的另一种数据流式处理方法的流程示意图;
图4为本申请实施例提供的一种数据流式处理装置的结构示意图;
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的数据流式处理方法、装置、计算机设备和存储介质。
本申请实施例,针对相关技术中,流式系统的数据流式处理方式,存在时效性较差、适用性差的问题,提出一种数据流式处理方法。
本发明实施例的数据流式处理方法,通过实时检测第一业务对应的各用户当前的日志信息是否包含预设关键词集中任一预设关键词,当任一预设关键词出现在用户的日志信息中时,根据预设关键词对应的触发时间,获取用户日志信息并进行解析,将获取的特征数据发送给与预设关键词匹配的下游第二业务,由此在确定日志信息中出现预设关键词时,根据与预设关键词对应的触发时间获取日志信息,从而提高了特征数据的时效性。同时,各第二业务具有对应的触发时间,并将用户的特征数据发给与关键词匹配的下游第二业务,从而可以满足不同第二业务的个性化需求,提高了适用性。
图1为本申请实施例提供的一种数据流式处理方法的流程示意图。
本申请实施例的数据流式处理方法,可由本申请提供的数据流式处理装置执行,上述数据流式处理装置可配置于计算机设备中。
如图1所示,该数据流式处理方法可包括:
步骤101,获取预设关键词集及预设关键词集中各预设关键词对应的触发时间。
本实施例中,流式系统中包括上游业务和下游业务,可将上游业务用户的日志信息的分析结果,推送给下游业务,作为下游业务提供服务的依据。具体地,根据上游业务用户在短时间内的日志信息,如100秒内的日志信息,得到用户的特征数据,将特征数据发送给下游业务,使下游业务根据用户的特征数据,挖掘出用户短期的兴趣点,并根据用户的短期兴趣点提供服务。
本实施例中,上游业务和下游业务可以是为用户提供服务的应用程序。
其中,用户的日志信息包括但不限于查询语句、页面标题、页面内容等。
例如,上游业务为检索服务,获取包含“汽车”关键词的短时间内用户的日志信息,并进行分析,确定用户的特征数据,发送给下游业务,以使下游业务根据用户的特征数据提供相关服务。
本实施例中,预设关键词集是由预设关键词组成的,预设关键词可以是流式系统的下游业务相关的关键词,例如提供汽车服务的下游业务,对应的关键词为“汽车”。
由于流式系统中可能有多个下游业务,每个下游业务可能要求对不同时间长度内的日志信息进行分析,本实施例中,预设关键词集中每个预设关键词具有对应的触发时间。其中,触发时间可以理解为获取的日志信息所处的时间段的长度。
例如,预设关键词集中包括“汽车”、“保险”、“手机”、“智能家居”4个预设关键词。表1中示出了这些预设关键词对应的触发时间,其中,“汽车”对应的触发时间为300秒;“保险”对应的触发时间为400秒;“手机”对应的触发时间为100秒;“智能家居”对应的触发时间为200秒。
表1
预设关键词 触发时间
汽车 300秒
保险 400秒
手机 100秒
智能家居 200秒
需要说明的是,预设关键词集中预设关键词的个数,及每个预设关键词对应的触发时间,本实施例对此不作限定。
在获取预设关键词集时,作为一种可能的实现方式,可以对各第二业务的属性信息进行解析,得到预设关键词集以及各预设关键词对应的触发时间。其中,各第二业务处于流式系统中第一业务的下游,属性信息可包括第二业务的名称、所属的行业等。
比如,对各第二业务的名称进行解析,确定各第二业务对应的预设关键词,由此各第二业务对应的预设关键词构成预设关键词集。
由于在实际应用中,各第二业务对实时性要求不同,可以根据各第二业务对实时性的要求,确定预设关键词对应的触发时间。可以理解是,对实时性要求越高的第二业务,预设关键词对应的触发时间越短。
在实际应用中,为了满足个性化需求,各第二业务也可主动上报预设关键词及预设关键词对应的触发时间。由此,作为另一种可能的实现方式,可获取各第二业务上报的各预设关键词,及各预设关键词对应的触发时间,根据各预设关键词得到预设关键词集。
本实施例中,各预设关键词具有对应的触发时间,可以满足下游各第二业务的个性化需求。
步骤102,检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词。
相关技术中,数据流式处理方式通过离线的方式,对上游业务用户的日志信息进行统计分析,这种方式分析结果的时效性较差。并且,可能一些用户的日志信息中并未出现与第二业务相关的内容,对所有用户的日志信息进行分析,会导致分析结果并不适用各第二业务,适用性差。
本实施例中,实时检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词,以在确定包含预设关键词时获取用户的日志信息。
在判断用户的日志信息中是否包括任一预设关键词时,可以判断用户的查询语句中,是否包括任一预设关键词;或者,判断搜索结果的页面标题中是否包括任一预设关键词;或者,判断搜索结果的页面内容中是否包括任一预设关键词。
步骤103,若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息。
本实施例中,将检测到用户当前的日志信息中包括任一关键词的时刻,称为第一时刻,将该用户称为第一用户。
在确定第一时刻第一关键词出现在第一用户的日志信息中时,可根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息。具体而言,获取从第一时刻开始,到触发时间结束,该时间段内第一用户日志信息,作为第一用户的第一目标日志信息。
也就是说,可从第一用户的日志信息中,获取与第一关键词对应的触发时间匹配的连续时间段内的日志信息,作为第一目标日志信息。其中,连续时间段的起始时刻为第一时刻。即从第一用户的日志信息中,获取从第一时刻开始的,与第一关键词对应的触发时间内的日志信息,作为第一用户的第一目标日志信息。
例如,一天中,第一关键词在12:01:50时出现在第一用户的日志信息中,第一关键词对应的触发时间为150秒,则从第一用户的日志信息中,获取从12:01:50开始,180秒内的第一用户的日志信息,为第一目标日志信息,即获取从12:01:50到12:04:50时间段内的第一用户的日志信息,为第一目标日志信息。
本实施例中,当第一关键词在第一时刻开始出现在第一用户的日志信息中时,从第一用户的日志信息中,获取从第一时刻开始,与第一关键词对应的触发时间匹配的连续时间段内的第一用户的日志信息,为第一用户的第一目标日志信息,从而从第一关键词出现在第一用户的日志信息的第一时刻,开始获取日志信息,从而可以使获取的日志信息更加具有针对性。
步骤104,对第一目标日志信息进行解析,确定第一用户的特征数据。
本实施例中,在获取第一用户的第一目标日志信息后,对第一目标日志信息进行解析,确定第一用户的特征数据。
例如,第一用户的日志信息包括查询语句“什么牌子的汽车比较省油”,可以确定第一用户对省油的汽车比较感兴趣,可以确定第一用户的特征数据为“省油”。
相关技术中,通过离线方式对日志信息进行统计分析,可能一些用户的日志信息中并未出现第一关键词,对所有用户的日志信息进行分析,可能会到导致分析结果对与第一关键词匹配的第二业务的适用性较差。而本实施例中,通过对在第一关键词出现在用户的日志信息中时,根据触发时间获取的第一目标日志信息进行分析,从而可以提高特征数据的适用性。
步骤105,将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。
本实施例中,各预设关键词具有对应的第二业务。在获取第一用户的特征数据后,将第一用户的特征数据发送给与第一关键词匹配的,在流式系统中位于第一业务下游的第二业务。这样,第二业务可以根据第一用户的特征数据提供服务。
例如,第一用户的日志信息中出现了预设关键词“汽车”,则将第一用户的特征数据,发送给与预设关键词“汽车”匹配的第二业务。
本实施例中,各预设关键词具有对应的触发时间,通过在用户日志信息中出现预设关键词时,根据与预设关键词匹配的触发时间,获取用户的日志信息,根据用户日志信息确定用户的特征数据,并发送给与预设关键词匹配的第二业务,从而在保证特征数据时效性的同时,不仅可以减轻网络负担,而且可以满足各第二业务对触发时间的个性化需求。
为了提高确定的用户特征数据的准确性,还可设置第一关键词在用户日志信息中出现的位置,或者频次,或者位置和频次。进一步地,上述步骤103中,在根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息之前,还可执行:确定第一关键词在第一用户的日志信息中出现的位置和/或频次满足预设条件。
也就是说,在第一用户的日志信息中出现的位置和/或频次满足预设条件时,根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息。
例如,假设预设关键词“汽车”,对应的预设条件是“汽车”在日志信息中的出现位置为页面标题。当预设关键词“汽车”在第一用户的日志信息的页面标题中出现时,可以根据预设关键词“汽车”对应的触发时间,获取第一用户的第一目标日志信息。
又如,假设预设关键词“手机”,对应的预设条件是“手机”在日志信息中出现频次大于2次。当预设关键词“手机”在第一用户的日志信息中出现频次大于2次时,根据预设关键词“手机”对应的触发时间,获取第一用户的第一目标日志信息
又如,假设预设关键词“保险”,对应的预设条件是“保险”在日志信息中的出现位置为页面内容,且出现频次大于3次。当预设关键词“保险”出现在第一用户的日志信息中的页面内容中,且出现频次大于3次时,根据预设关键词“保险”对应的触发时间,获取第一用户的第一目标日志信息。
本实施例中,在确定第一关键词在第一用户的日志信息中出现的位置和/或频次满足预设条件时,根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息,从而提高了获取第一目标日志信息的准确性,使得根据第一目标日志信息确定的第一用户的特征数据更加精准。
在实际应用中,同一用户可能会查询多个不同的领域,例如,用户通过搜索引擎搜索了“什么牌子的汽车比较省油”、还利用搜索引擎搜索了“最近比较火的电视剧”等等。由此,在确定在第一时刻第一关键词出现在第一用户的日志信息中之后,还可继续检测第一用户的日志信息中是否包含出第一关键词以外的其他的预设关键词,下面结合图2进行详细说明。
图2为本申请实施例提供的另一种数据流式处理方法的流程示意图。
在确定在第一时刻第一关键词出现在第一用户的日志信息中之后,如图2所示,该数据流式处理方法还可包括:
步骤201,继续检测第一用户的日志信息中是否包括除第一关键词外的其它任一预设关键词。
由于第一用户的日志信息中出现过第一关键词,也可能会出现预设关键词集中其他任一预设关键词,由此确定在第一时刻第一关键词出现在第一用户的日志信息中之后,可继续检测第一用户的日志信息中是否包括除第一关键词外的其他任一预设关键词,具体检测方法可以参见上述实施例中记载的相关内容,故在此不再赘述。
步骤202,若确定在第二时刻第二关键词出现在第一用户的日志信息中,则根据第二关键词对应的触发时间,获取第一用户的第二目标日志信息,其中,第二时刻晚于第一时刻。
若在第一时刻之后的第二时刻,检测到第一用户的日志信息中包括第二关键词,则根据第二关键词对应的触发时间获取第一用户的第二目标日志信息。具体地,第一用户的日志信息中,从第二时刻开始,获取与第二关键词对应的触发时间匹配的连续时间段内的第一用户的日志信息,为第一用户的第二日志信息。
例如,第一关键词为“汽车”,第一时刻为13:15:00,确定在第二时刻13:16:30第二关键词“手机”出现在第一用户的日志信息中,则从第二时刻13:16:30开始,获取与第二关键词“手机”对应的触发时间100秒内的第一用户的日志信息,为第二目标日志信息。
在获取第二目标日志信息后,可根据第二目标日志信息,确定第一用户的特征数据,将特征数据发送给与第二关键词对应的第二业务。
本实施例中,通过在第一关键词出现在第一用户的日志信息后,继续检测第一用户的日志信息,以确定是否包含除第一关键词外的其他预设关键词,在第二关键词出现在第一用户的日志信息时,获取第一用户的第二目标日志信息,从而可以满足各第二业务对同一用户的短期特征需求。
在实际应用中,在获取与第一关键词对应的触发时间内的日志信息后,第一关键词可能还会出现在第一用户的日志信息中,下面结合图3进行详细说明。图3为本申请实施例提供的另一种数据流式处理方法的流程示意图。
如图3所示,在上述步骤103之后该数据流式处理方法还可包括:
步骤301,继续检测第一用户的日志信息中是否包括预设关键词集中的任一预设关键词。
本实施例中,在获取第一目标日志信息后,继续检测第一用户的日志信息中是否包括预设关键词集中的任一预设关键词,具体的检测方法可参见上述实施例中记载的相关内容,在此步骤赘述。
步骤302,若确定在第三时刻第一关键词再次出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第三目标日志信息,其中,第三时刻为所述连续时间段结束后的任一时刻。
本实施例中,当确定在第三时刻第一关键词再次出现在第一用户的日志信息中,可以从第一用户的日志信息中,从第三时刻开始,获取与第一关键词对应的触发时间匹配的连续时间段内的第一用户的日志信息,为用户的第三目标日志信息。可以理解的是,第三时刻为获取第一目标日志信息的连续时间段结束后的任一时刻。
可选地,也可从第三时刻开始记录第一用户的日志信息,当记录时长达到触发时间时停止记录,获取记录的第一用户的日志信息,为第一用户的第三目标日志信息。
本申请实施例的数据流式处理方法,通过在获取第一目标日志信息后,继续检测第一用户的日志信息中是否包括预设关键词集中的任一预设关键词,当第一关键词再次出现在第一用户的日志信息中时,获取第一用户的第三目标日志信息,从而保证了特征数据的时效性。
为了实现上述实施例,本申请实施例还提出一种数据流式处理装置。图4为本申请实施例提供的一种数据流式处理装置的结构示意图。
如图4所示,该数据流式处理装置包括:第一获取模块410、检测模块420、第二获取模块430、第一确定模块440、发送模块450。
第一获取模块410用于获取预设关键词集及预设关键词集中各预设关键词对应的触发时间。
检测模块420用于检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词。
第二获取模块430用于在确定在第一时刻第一关键词出现在第一用户的日志信息中时,根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息。
第一确定模块440用于对目标日志信息进行解析,确定第一用户的特征数据。
发送模块450用于将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。
在本申请实施例一种可能的实现方式中,第一获取模块410还用于:
对各第二业务的属性信息进行解析,确定预设关键词集及各预设关键词对应的触发时间,其中,预设关键词集中包括与各第二业务分别对应的预设关键词;
或者,
获取各第二业务上报的各预设关键词及各预设关键词对应的触发时间。
在本申请实施例一种可能的实现方式中,各用户当前的日志信息中,包括以下信息中的至少一个:查询语句、页面标题、页面内容。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第二确定模块,用于在根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息之前,确定第一关键词在第一用户的日志信息中出现的位置和/或频次满足预设条件。
在本申请实施例一种可能的实现方式中,第二获取模块430还用于:
获取第一用户的日志信息中,与第一关键词对应的触发时间匹配的连续时间段内的日志信息,为第一目标日志信息,其中,连续时间段的起始时刻为第一时刻。
在本申请实施例一种可能的实现方式中,该装置还可包括:
检测模块420还用于确定在第一时刻第一关键词出现在第一用户的日志信息中之后,继续检测第一用户的日志信息中是否包括除第一关键词外的其它任一预设关键词;
第三获取模块,用于在确定在第二时刻第二关键词出现在第一用户的日志信息中时,根据第二关键词对应的触发时间,获取第一用户的第二目标日志信息,其中,第二时刻晚于第一时刻。
在本申请实施例一种可能的实现方式中,检测模块420还用于获取第一用户的第一目标日志信息之后,继续检测第一用户的日志信息中是否包括预设关键词集中的任一预设关键词;
第二获取模块430还用于在确定在第三时刻第一关键词再次出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第三目标日志信息,其中,第三时刻为连续时间段结束后的任一时刻。
需要说明的是,前述对数据流式处理方法实施例的解释说明,也适用于该实施例的数据流式处理装置,故在此不再赘述。
本申请实施例的数据流式处理装置,通过获取预设关键词集及预设关键词集中各预设关键词对应的触发时间,检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词,若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据第一关键词对应的触发时间,获取第一用户的第一目标日志信息,对第一目标日志信息进行解析,确定第一用户的特征数据,将第一用户的特征数据发送给与第一关键词匹配的第二业务,其中,第二业务在流式系统中位于第一业务下游。本实施例中,通过实时检测第一业务对应的各用户当前的日志信息是否包含预设关键词集中任一预设关键词,当任一预设关键词出现在用户的日志信息中时,根据预设关键词对应的触发时间,获取用户日志信息并进行解析,将获取的特征数据发送给与预设关键词匹配的下游第二业务,由此在确定日志信息中出现预设关键词时,根据与预设关键词对应的触发时间获取日志信息,从而提高了特征数据的时效性。同时,各第二业务具有对应的触发时间,并将用户的特征数据发给与预设关键词匹配的下游第二业务,从而可以满足不同第二业务的个性化需求,提高了适用性。
为了实现上述实施例,本申请实施例还提出一种计算机设备,包括处理器和存储器;
其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的数据流式处理方法。
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的数据流式处理方法。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种数据流式处理方法,其特征在于,包括:
获取预设关键词集及所述预设关键词集中各预设关键词对应的触发时间;
实时检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词;
若确定在第一时刻第一关键词出现在第一用户的日志信息中,则根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息;
对所述第一目标日志信息进行解析,确定所述第一用户的特征数据;
将所述第一用户的特征数据发送给与所述第一关键词匹配的第二业务,以使所述第二业务根据所述第一用户的特征数据,挖掘出所述第一用户短期的兴趣点,并根据所述第一用户的短期兴趣点提供服务,其中,所述第二业务在流式系统中位于所述第一业务下游;
所述根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息,包括:
获取所述第一用户的日志信息中,与所述第一关键词对应的触发时间匹配的连续时间段内的日志信息,为所述第一目标日志信息,其中,所述连续时间段的起始时刻为所述第一时刻。
2.如权利要求1所述的方法,其特征在于,所述获取预设关键词集,包括:
对各第二业务的属性信息进行解析,确定所述预设关键词集及各预设关键词对应的触发时间,其中,所述预设关键词集中包括与各第二业务分别对应的预设关键词;
或者,
获取所述各第二业务上报的各预设关键词及所述各预设关键词对应的触发时间。
3.如权利要求1所述的方法,其特征在于,所述各用户当前的日志信息中,包括以下信息中的至少一个:查询语句、页面标题、页面内容。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息之前,还包括:
确定所述第一关键词在所述第一用户的日志信息中出现的位置和/或频次满足预设条件。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述确定在第一时刻第一关键词出现在第一用户的日志信息中之后,还包括:
继续检测所述第一用户的日志信息中是否包括除所述第一关键词外的其它任一预设关键词;
若确定在第二时刻第二关键词出现在所述第一用户的日志信息中,则根据所述第二关键词对应的触发时间,获取所述第一用户的第二目标日志信息,其中,第二时刻晚于所述第一时刻。
6.如权利要求1-4中任一项所述的方法,其特征在于,所述获取所述第一用户的第一目标日志信息之后,还包括:
继续检测所述第一用户的日志信息中是否包括所述预设关键词集中的任一预设关键词;
若确定在第三时刻所述第一关键词再次出现在所述第一用户的日志信息中,则根据所述第一关键词对应的触发时间,获取所述第一用户的第三目标日志信息,其中,所述第三时刻为所述连续时间段结束后的任一时刻。
7.一种数据流式处理装置,其特征在于,包括:
第一获取模块,用于获取预设关键词集及所述预设关键词集中各预设关键词对应的触发时间;
检测模块,用于实时检测第一业务对应的各用户当前的日志信息中是否包括任一预设关键词;
第二获取模块,用于在确定在第一时刻第一关键词出现在第一用户的日志信息中时,根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息;
第一确定模块,用于对所述目标日志信息进行解析,确定所述第一用户的特征数据;
发送模块,用于将所述第一用户的特征数据发送给与所述第一关键词匹配的第二业务,以使所述第二业务根据所述第一用户的特征数据,挖掘出所述第一用户短期的兴趣点,并根据所述第一用户的短期兴趣点提供服务,其中,所述第二业务在流式系统中位于所述第一业务下游;
所述第二获取模块,具体用于根据所述第一关键词对应的触发时间,获取所述第一用户的第一目标日志信息,包括:获取所述第一用户的日志信息中,与所述第一关键词对应的触发时间匹配的连续时间段内的日志信息,为所述第一目标日志信息,其中,所述连续时间段的起始时刻为所述第一时刻。
8.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一项所述的数据流式处理方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据流式处理方法。
CN201810600256.4A 2018-06-12 2018-06-12 数据流式处理方法、装置、计算机设备和存储介质 Active CN110598199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810600256.4A CN110598199B (zh) 2018-06-12 2018-06-12 数据流式处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810600256.4A CN110598199B (zh) 2018-06-12 2018-06-12 数据流式处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110598199A CN110598199A (zh) 2019-12-20
CN110598199B true CN110598199B (zh) 2023-07-25

Family

ID=68848828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810600256.4A Active CN110598199B (zh) 2018-06-12 2018-06-12 数据流式处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110598199B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154995B (zh) * 2021-12-08 2022-09-20 北京汇收钱科技股份有限公司 一种应用于大数据风控的异常支付数据分析方法及系统
CN114995973A (zh) * 2022-05-17 2022-09-02 巨石集团有限公司 日志处理方法、非易失性存储介质以及日志处理装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315779A (zh) * 2017-06-05 2017-11-03 海致网络技术(北京)有限公司 日志分析方法和系统
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107612740A (zh) * 2017-09-30 2018-01-19 武汉光谷信息技术股份有限公司 一种分布式环境下的日志监控系统及方法
CN107622084A (zh) * 2017-08-10 2018-01-23 深圳前海微众银行股份有限公司 日志管理方法、系统以及计算机可读存储介质
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN107992398A (zh) * 2017-12-22 2018-05-04 宜人恒业科技发展(北京)有限公司 一种业务系统的监控方法和监控系统
CN108038192A (zh) * 2017-12-11 2018-05-15 广东欧珀移动通信有限公司 应用搜索方法和装置、电子设备、计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060912A1 (en) * 2011-09-07 2013-03-07 Reality Mobile Llc Streaming-Content Analytics

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315779A (zh) * 2017-06-05 2017-11-03 海致网络技术(北京)有限公司 日志分析方法和系统
CN107622084A (zh) * 2017-08-10 2018-01-23 深圳前海微众银行股份有限公司 日志管理方法、系统以及计算机可读存储介质
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN107612740A (zh) * 2017-09-30 2018-01-19 武汉光谷信息技术股份有限公司 一种分布式环境下的日志监控系统及方法
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN108038192A (zh) * 2017-12-11 2018-05-15 广东欧珀移动通信有限公司 应用搜索方法和装置、电子设备、计算机可读存储介质
CN107992398A (zh) * 2017-12-22 2018-05-04 宜人恒业科技发展(北京)有限公司 一种业务系统的监控方法和监控系统

Also Published As

Publication number Publication date
CN110598199A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
US11714852B2 (en) Content descriptor
CN108563655B (zh) 基于文本的事件识别方法和装置
CN109348275B (zh) 视频处理方法和装置
KR101268693B1 (ko) 단문 메시지를 이용한 미디어 이벤트 구조 및 콘텍스트 식별
CN109669663B (zh) 音区幅值获取方法、装置、电子设备及存储介质
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
CN109947993B (zh) 基于语音识别的情节跳转方法、装置及计算机设备
CN109684634B (zh) 情感分析方法、装置、设备及存储介质
US20150286464A1 (en) Method, system and storage medium for monitoring audio streaming media
US9053186B2 (en) Method and apparatus for detecting and explaining bursty stream events in targeted groups
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
CN106326386B (zh) 搜索结果的展示方法和装置
CN110598199B (zh) 数据流式处理方法、装置、计算机设备和存储介质
CN111949798B (zh) 图谱的构建方法、装置、计算机设备和存储介质
US20100287174A1 (en) Identifying a level of desirability of hyperlinked information or other user selectable information
CN109597996B (zh) 一种语义解析方法、装置、设备和介质
CN108235126B (zh) 在视频中插入推荐信息的方法和装置
US8463725B2 (en) Method for analyzing a multimedia content, corresponding computer program product and analysis device
CN111797345B (zh) 应用页面展现方法、装置、计算机设备和存储介质
CN111210817B (zh) 数据处理方法及装置
CN112446717B (zh) 广告投放方法及装置
CN111261157A (zh) 一种短视频的控制方法、装置、设备及存储介质
CN112288452B (zh) 广告预览方法、装置、电子设备及存储介质
CN111259181B (zh) 用于展示信息、提供信息的方法和设备
CN111768215B (zh) 广告投放方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant