CN107330029A - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN107330029A
CN107330029A CN201710486348.XA CN201710486348A CN107330029A CN 107330029 A CN107330029 A CN 107330029A CN 201710486348 A CN201710486348 A CN 201710486348A CN 107330029 A CN107330029 A CN 107330029A
Authority
CN
China
Prior art keywords
data
target
data flow
sub
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710486348.XA
Other languages
English (en)
Inventor
张时骏
郭毅
陈箭飞
周松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710486348.XA priority Critical patent/CN107330029A/zh
Publication of CN107330029A publication Critical patent/CN107330029A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置及电子设备,所述方法包括:获得目标需求;从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。应用本发明实施例提供的方案,减少了获得目标结果的过程中的耗时。

Description

一种数据处理方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置及电子设备。
背景技术
随着大量的应用面市以及网络带宽的提升,用户能够方便的对应用进行操作,在用户操作应用的过程中会产生相应的数据,这些数据是用户的主观体验和意见反馈,一定程度上反应了用户的使用习惯,是对应用进行改进,以提升用户体验的重要依据。例如,需要对应用中的内容进行优化,将用户比较感兴趣的内容放到最显著的位置,就需要确定出每个内容的用户点击率。在实际应用中,确定出用户点击率就是目标需求,而确定出的目标需求的值就是目标结果。通常情况下,目标需求还可以是确定用户的平均播放时长、点击展示比等。因此,对上述数据进行处理以得到与目标需求对应的目标结果是亟待解决的技术问题。
现有技术中,将读取的数据源中的数据流放到同一个数据库中,根据目标需求,对整个数据库中进行检索,再根据检索出来的数据和目标需求,确定出与目标需求对应的目标结果。实际应用中,数据源可以为点击日志、评论日志以及展示日志等文件,然后将从数据源获得的数据存储到一个数据库中,再遍历该数据库从而检索出需要的数据,进而获得目标结果。
在实际应用中,获得大部分的目标结果只需要用到一部分数据,例如,在确定用户的点击率时,只需要用到数据库中的点击日志,而不用评论日志以及展示日志等文件。因此现有技术中只有在遍历整个数据库中的所有数据后才能获得所需的数据,会导致检索的数据量比较大,进而导致获得目标结果的耗时较长的问题。
发明内容
本发明实施例的目的在于提供一种数据处理方法、装置及电子设备,以减少获得目标结果的过程中的耗时。具体技术方案如下:
为达到上述目的,本发明实施例提供了一种数据处理方法,所述方法包括:
获得目标需求;
从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
可选的,在根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果之前,所述方法还包括:
对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据;
去除所述目标子数据流中非法数据。
可选的,所述从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流,包括:
获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
可选的,所述根据所述目标子数据流包含的各条数据的内容,获得与所述目标需求对应的目标结果,包括:
统计所述目标子数据流中的预设类型数据的内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
将所述统计结果作为目标结果。
可选的,所述根据所述目标子数据流包含的各条数据的内容,获得与所述目标需求对应的目标结果,包括:
统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
按照预设的格式对所述统计结果进行封装;
将封装后的统计结果作为目标结果。
为达到上述目的,本发明实施例提供了一种数据处理装置,所述装置包括:第一获得模块、第二获得模块以及第三获得模块,其中,
所述第一获得模块,用于获得目标需求;
所述第二获得模块,用于从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
所述第三获得模块,用于根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
可选的,所述装置还包括验证模块和数据去除模块,所述验证模块用于在所述第三获得模块根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果之前,对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据。
所述数据去除模块,用于去除所述目标子数据流中的非法数据。
可选的,所述第二获得模块,还用于:
获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
可选的,所述第三获得模块,包括:
第一统计单元,用于统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
结果获得单元,用于将所述统计结果作为目标结果。
可选的,所述第三获得模块,包括:
第二统计单元,用于统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
封装单元,用于按照预设的格式对所述统计结果进行封装;
结果设置单元,用于将封装后的统计结果作为目标结果。
为达到上述目的,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。
为达到上述目的,本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的一种数据处理方法。
为达到上述目的,本发明实施还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的一种数据处理方法。
应用本发明实施例提供的方案,将从数据源中读取的至少一个目标数据流按照各条数据对应的类型信息分成多个子数据流,每个子数据流中仅包含一种类型的数据,再根据与目标需求对应的类型相匹配的目标子数据流获得目标结果,由于目标子数据流只是目标数据流中的一部分,相对应现有技术需要检索全部的数据流,检索的数据量减少了,进而减少了获得目标结果的过程中的耗时。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例应用的场景示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的目标子数据流的获得流程示意图;
图4为本发明实施例提供的一种目标结果的获得流程示意图;
图5为本发明实施例提供的另一种目标结果的获得流程示意图;
图6为本发明实施例提供的另一种数据处理方法的流程示意图;
图7为本发明实施例提供的一种数据处理装置的结构示意图;
图8为本发明实施例提供的另一种数据处理装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例所提供的一种数据处理方法,可以应用于多媒体内容识别、交互,内容创作、大数据分析、检索和推荐领域中的电子设备上,在具体应用中,该电子设备可以为终端设备,也可以为服务器,在此不做限定。
下面对本发明实施例在大数据分析领域的典型应用进行介绍:如图1所示,图1为本发明实施例应用的场景示意图,作为数据源的存储服务器11存储有用户的点击数,存储服务器12存储有针对用户的展示数据,存储服务器13存储有用户的评论数据。数据处理服务器20接收运维终端30发送过来的统计点击展示比的目标需求,并根据目标需求点击展示比判断该目标需求需要统计用户的点击数据和针对该用户的展示数据。数据处理服务器20从上述三个存储服务器中获得目标数据流,根据该目标数据流中的各条数据的类型对该目标数据流中的数据进行分类,得到多个子数据流,如用户的点击数据的子数据流、针对该用户的展示数据的子数据流、用户的评论数据的子数据流等。然后从上述多个子数据流中获得与目标需求需要统计的数据的类型对应的目标子数据流:用户的点击数据的子数据流和针对该用户的展示数据的子数据流。再对上述两个目标子数据流中的各条数据进行统计,统计出用户的电子数据的子数据流中包含的数据的条数,以及针对该用户的展示数据的子数据流中包含的数据的条数,根据二者之商计算点击展示比,将该点击展示比作为目标结果发送给运维终端30。
为解决现有技术问题,本发明实施例提供了一种数据处理方法、装置及电子设备,下面首先就一种数据处理方法进行介绍。
图2为本发明实施例提供的一种数据处理方法的流程示意图,如图1所示,该方法包括:
S101:获得目标需求。
示例性的,以目标需求为用户的点击展示比为例进行说明,用户的点击展示比是指用户点击的文件数量占系统向用户显示的文件数量的比值,一般来说,用户点击比还可以是指用户点击的链接数量占系统向用户显示的链接数量的比值。例如,系统向用户展示了a个文件,用户点击了其中的b个文件,且b小于等于a,则b/a即为用户的点击展示比。所谓的系统可以是视频播放网站、数据库管理系统等。
在实际应用中,目标需求还可以是用户的评论数量、用户的点赞数量等,本发明实施例并不对目标需求的内容作出限定。
S102:从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流。
需要强调的是,至少一个目标数据流可以是从数据源中读取的,且在读取后,根据至少一个目标数据流中的各条数据的类型信息,将所述至少一个目标数据流划分为多个子数据流,以便后续基于多个子数据流的部分子数据流对目标需求进行处理,提高处理效率。示例性的,从数据源,如手机端用户展示日志、手机端用户点击日志、手机端用户评论日志以及网页端用户展示日志等,读取的数据流如下:
1、mobile/show/id=1&userid=100;
mobile/show/id=2&userid=100;
mobile/show/id=3&userid=200;
2、mobile/click/id=1&userid=100;
mobile/click/id=3&userid=200;
mobile/click/id=3&userid=100;
3、mobile/comment/id=1&userid=100&content=a;
mobile/comment/id=2&userid=100&content=a;
web/comment/id=3&userid=100&content=a;
4、web/show/id=2&userid=100;
web/show/id=3&userid=100;
web/show/id=4&userid=300;
上述读取的序号为“1”、“2”、“3”、“4”的数据流即为目标数据流。
在实际应用中,还可以数据库为数据源获得目标数据流。每一个目标数据流中都包含一个或者多条数据,例如,手机端用户展示日志,可能包含了相同用户的多条展示日志,或者不同用户的一条或者多条展示日志。
针对上述四个目标数据流中的每一条数据,根据该条数据的类型信息,将该条数据放到与该条数据的类型信息对应的子数据流中,例如,“/show”是指该条数据的类型为用户展示数据,“/click”是指该条数据的类型为用户点击数据,“/comment”是指该条数据的类型为用户评论数据。例如,序号为“1”的子数据流和序号为“4”的子数据流的类型均为展示数据,将上述两个子数据流中的数据放到展示子数据流中。
类似的,将序号为“2”的子数据流中的数据放到点击子数据流中;将序号为“3”的子数据流中的数据放到评论子数据流中。
获得的各个子数据流如下:
展示子数据流:
mobile/show/id=1&userid=100;
mobile/show/id=2&userid=100;
mobile/show/id=3&userid=200;
web/show/id=2&userid=100;
web/show/id=3&userid=100;
web/show/id=4&userid=300;
点击子数据流:
mobile/click/id=1&userid=100;
mobile/click/id=2&userid=200;
web/click/id=3&userid=100;
评论子数据流:
mobile/comment/id=1&userid=100&content=a;
mobile/comment/id=2&userid=100&content=a;
web/comment/id=3&userid=100&content=a;
假设S101步骤中的目标需求是用户的点击展示比,因此获得用户的点击展示比需要用户的点击类型的数据和用户的展示类型的对应的目标子数据流。由于目标需求是用户的点击展示比,因此目标子数据流为展示子数据流和点击子数据流。从展示子数据流、点击子数据流以及评论子数据流三个子数据流中确定展示子数据流和点击子数据流为目标子数据流。
S103:根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
S102步骤中获得的目标子数据流为展示子数据流和点击子数据流,根据上述两种目标子数据流中各条数据包含的各条数据,统计出目标需求对应的用户的点击展示比为:3/6=0.5,可以将该用户的点击展示比作为目标结果。
显然,目标子数据流中包含了用户ID为100的展示数据的条数为4条,用户ID为100的点击数据的条数为2条,则该用户ID的点击展示比为:2/4=0.5,可以将该点击展示比作为目标结果。
应用本发明图2所示实施例提供的方案,将从数据源中读取的至少一个目标数据流按照各条数据对应的类型信息分成多个子数据流,每个子数据流中仅包含一种类型的数据,再根据与目标需求对应的类型相匹配的目标子数据流获得目标结果,由于目标子数据流只是目标数据流中的一部分,相对应现有技术需要检索全部的数据流,检索的数据量减少了,进而减少了获得目标结果的过程中的耗时。
图3为本发明实施例提供的目标子数据流的获得流程示意图,如图3所示,S102步骤可以为S102A:获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
S101步骤中的目标需求是用户的点击展示比,因此获得用户的点击展示比需要用户的点击类型的数据和用户的展示类型的数据。因此,从展示子数据流、点击子数据流以及评论子数据流三个子数据流中确定展示子数据流和点击子数据流为目标子数据流。
应用本发明图3所示实施例,根据目标需求对应的数据流的类型,将与该类型对应的子数据流,作为目标子数据流,获得目标子数据流的过程更加准确。
图4为本发明实施例提供的一种目标结果的获得流程示意图,如图4所示,S103步骤可以包括:
S103A:统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容。
在实际应用中,预设内容可以为用户ID、视频ID,本发明实施例在此并不对预设内容进行限定。
示例性的,以预设内容为用户ID为例,如果目标需求是用户ID为100的点击展示比。
由于S102步骤中获得的目标子数据流为展示子数据流和点击子数据流,根据上述两种子数据流中各条数据包含的用户ID,统计出包含用户ID100的各条点击数据和各条展示数据。
显然,目标子数据流中包含了用户ID为100的展示数据的条数为4条,用户ID为100的点击数据的条数为2条,则该用户ID的点击展示比为:2/4=0.5。
S103B:将所述统计结果作为目标结果。
具体的,将S103A步骤中获得的用户ID为100的点击展示比0.5作为目标结果。
应用本发明图4所示实施例,根据目标子数据流中的预设内容,获得与该预设内容对应的目标结果,获得的目标结果更加准确。
图5为本发明实施例提供的另一种目标结果的获得流程示意图,如图5所示,S103步骤可以包括:
S103C:统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容。
在实际应用中,预设内容可以为用户ID、视频ID,本发明实施例在此并不对预设内容进行限定。
示例性的,以预设内容为用户ID为例,如果目标需求是用户ID为100的点击展示比。
由于S102步骤中获得的目标子数据流为展示子数据流和点击子数据流,根据上述两种子数据流中各条数据包含的用户ID,统计出包含用户ID100的各条点击数据和各条展示数据。
显然,目标子数据流中包含了用户ID为100的展示数据的条数为4条,用户ID为100的点击数据的条数为2条,则该用户ID的点击展示比为:2/4=0.5。
S103D:按照预设的格式对统计结果进行封装。
示例性的,还可以根据与下游业务方约定的格式对获得的点击展示比进行封装,如:按照ctr/userid格式进行封装,封装后的结果如下:
ctr/userid=100&ratio=0.5。
S103E:将封装后的统计结果作为目标结果。
具体的,将S103D步骤中获得封装结果作为目标结果。
应用本发明图5所示实施例,可以将预设格式的目标结果发送给下游设备,使下游设备更方便读取目标结果。
图6为本发明实施例提供的另一种数据处理方法的流程示意图,如图6所示,本发明图6所示实施例在图2所示实施例的基础上,在S103步骤之前,所述方法还包括:
S104:对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据。
示例性的,对目标子数据流,展示子数据流和点击子数据流中包含的各条数据进行合法性验证,例如,ID=2不存在,验证结果如下:
则合法数据为:
1、mobile/show/id=1&userid=100;
mobile/show/id=3&userid=200;
2、mobile/click/id=1&userid=100;
mobile/click/id=3&userid=200;
mobile/click/id=3&userid=100;
3、mobile/comment/id=1&userid=100&content=a;
web/comment/id=3&userid=100&content=a;
4、web/show/id=3&userid=100;
web/show/id=4&userid=300;
非法数据为:
mobile/show/id=2&userid=100;
mobile/comment/id=2&userid=100&content=a;
web/show/id=2&userid=100;
S105:去除所述目标子数据流中的非法数据。
示例性的,带有ID=2的数据为非法的目标数据,需要将带有ID=2的目标数据丢弃掉。
验证后的目标数据流为:
展示子数据流:
mobile/show/id=1&userid=100;
mobile/show/id=3&userid=200;
web/show/id=3&userid=100;
web/show/id=4&userid=300;
点击子数据流:
mobile/click/id=1&userid=100;
mobile/click/id=3&userid=100;
显然,验证后的目标子数据流中包含了用户id为100的展示数据的条数为2条,用户id为100的点击数据的条数为2条,则该用户id的点击展示比为:2/2=1,该点击展示比即为目标结果。
示例性的,还可以在S102步骤中对获得的至少一个目标数据流中包含的各条数据进行验证;还可以在S102步骤中对获得的多个子数据流中包含的各条数据进行合法性验证验证,这也是合理的。
需要说明的是,对目标子数据流中的各条数据进行合法性验证,包括但不仅限于验证用户id,本发明实施例在此并不对其作出限定。
应用本发明图6所示实施例,将目标子数据流中不合法的数据去除后,没有了非法数据的干扰,获得的目标结果更加精确。
与本发明图2所示实施例相对应,本发明实施例中还提供了一种数据处理装置。
图7为本发明实施例提供的一种数据处理装置的结构示意图,如图7所示,该装置包括:第一获得模块701、第二获得模块702以及第三获得模块703,其中,
所述第一获得模块701,用于获得目标需求;
所述第二获得模块702,用于从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
所述第三获得模块703,用于根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
应用本发明图7所示实施例提供的方案,将从数据源中读取的至少一个目标数据流按照各条数据对应的类型信息分成多个子数据流,每个子数据流中仅包含一种类型的数据,再根据与目标需求对应的类型相匹配的目标子数据流获得目标结果,由于目标子数据流只是目标数据流中的一部分,相对应现有技术需要检索全部的数据流,检索的数据量减少了,进而减少了获得目标结果的过程中的耗时。
可选的,在本发明实施例的一种具体实施方式中,所述第二获得模块702,还用于:
获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
可选的,在本发明实施例的一种具体实施方式中,所述第三获得模块703,包括:第一统计单元和第一结果确定单元,其中,
第一统计单元(图中未示出),用于统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
第一结果设置单元(图中未示出),用于将所述统计结果作为目标结果。
可选的,在本发明实施例的一种具体实施方式中,所述第三获得模块703,包括:第二统计单元、封装单元以及第二结果确定单元,其中,
第二统计单元(图中未示出),用于统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
封装单元(图中未示出),用于按照预设的格式对统计结果进行封装;
第二结果设置单元(图中未示出),用于将封装后的所述统计结果作为目标结果。
与本发明图6所示实施例相对应,图8为本发明实施例提供的另一种数据处理装置的结构示意图,本发明图8所示实施例在图7所示实施例的基础上增加了验证模块704和数据去除模块705,其中,
验证模块704,用于在所述第三获得模块根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果之前,对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据;
数据去除模块705,用于去除所述目标子数据流中的非法数据。
应用本发明图8所示实施例提供的方案,将目标子数据流中不合法的数据去除后,没有了非法数据的干扰,获得的目标结果更加精确。
本发明实施例还提供了一种电子设备,如图9所示,图9为本发明实施例提供的一种电子设备的结构示意图,该电子设备包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获得目标需求;
从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Ne twork Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种数据处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读介质、计算机程序实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获得目标需求;
从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
2.根据权利要求1所述的方法,其特征在于,在根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果之前,所述方法还包括:
对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据;
去除所述目标子数据流中的非法数据。
3.根据权利要求1所述的方法,其特征在于,所述获得所述目标需求所对应的目标子数据流,包括:
获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标子数据流包含的各条数据的内容,获得与所述目标需求对应的目标结果,包括:
统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
将所述统计结果作为目标结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标子数据流包含的各条数据的内容,获得与所述目标需求对应的目标结果,包括:
统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
按照预设的格式对所述统计结果进行封装;
将封装后的统计结果作为目标结果。
6.一种数据处理装置,其特征在于,所述装置包括:第一获得模块、第二获得模块以及第三获得模块,其中,
所述第一获得模块,用于获得目标需求;
所述第二获得模块,用于从预设的多个子数据流中,获得所述目标需求所对应的目标子数据流;其中,所述多个子数据流为:根据至少一个目标数据流中的各条数据的类型信息,对所述至少一个目标数据流进行分类所得的;所述至少一个目标数据流为从至少一个数据源中所读取的数据流;
所述第三获得模块,用于根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括验证模块和数据去除模块;
所述验证模块,用于在所述第三获得模块根据所述目标子数据流中的各条数据的内容,获得与所述目标需求对应的目标结果之前,对所述目标子数据流中的各条数据进行合法性验证,得到验证结果,所述验证结果包括合法数据和非法数据;
所述数据去除模块,用于去除所述目标子数据流中的非法数据。
8.根据权利要求6所述的装置,其特征在于,所述第二获得模块,还用于:
获得与预设类型对应的子数据流,并将所述子数据流作为目标子数据流,其中,所述预设类型为与所述目标需求相匹配的数据流的类型。
9.根据权利要求6所述的装置,其特征在于,所述第三获得模块,包括:
第一统计单元,用于统计所述目标子数据流中的预设内容,获得统计结果其中,所述预设内容为与所述目标需求相匹配的内容;
第一结果设置单元,用于将所述统计结果作为目标结果。
10.根据权利要求6所述的装置,其特征在于,所述第三获得模块,包括:
第二统计单元,用于统计所述目标子数据流中的预设内容,获得统计结果,其中,所述预设内容为与所述目标需求相匹配的内容;
封装单元,用于按照预设的格式对所述统计结果进行封装;
第二结果设置单元,用于将封装后的统计结果作为目标结果。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201710486348.XA 2017-06-23 2017-06-23 一种数据处理方法、装置及电子设备 Pending CN107330029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710486348.XA CN107330029A (zh) 2017-06-23 2017-06-23 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710486348.XA CN107330029A (zh) 2017-06-23 2017-06-23 一种数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN107330029A true CN107330029A (zh) 2017-11-07

Family

ID=60194771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710486348.XA Pending CN107330029A (zh) 2017-06-23 2017-06-23 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107330029A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360564A (zh) * 2021-07-12 2021-09-07 杭州安恒信息技术股份有限公司 基于etl的数据流处理方法、系统、装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064890A (zh) * 2012-12-11 2013-04-24 泉州豪杰信息科技发展有限公司 一种gps海量数据处理方法
US20130110884A1 (en) * 2011-10-28 2013-05-02 Microsoft Corporation Spreadsheet program-based data classification for source target mapping
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN104572831A (zh) * 2014-12-10 2015-04-29 南车青岛四方机车车辆股份有限公司 高速列车需求数据的处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130110884A1 (en) * 2011-10-28 2013-05-02 Microsoft Corporation Spreadsheet program-based data classification for source target mapping
CN103064890A (zh) * 2012-12-11 2013-04-24 泉州豪杰信息科技发展有限公司 一种gps海量数据处理方法
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN104572831A (zh) * 2014-12-10 2015-04-29 南车青岛四方机车车辆股份有限公司 高速列车需求数据的处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王睿 等: "《企业信息化基本要求与评价》", 30 January 2010, 上海科学技术出版社 *
陈积银 等: "《数据新闻入门教程》", 31 August 2016, 西安交通大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360564A (zh) * 2021-07-12 2021-09-07 杭州安恒信息技术股份有限公司 基于etl的数据流处理方法、系统、装置及可读存储介质

Similar Documents

Publication Publication Date Title
US20220264187A1 (en) Methods and apparatus to perform computer-based monitoring of audiences of network-based media by using information theory to estimate intermediate level unions
CN110233769A (zh) 一种流量检测方法和流量检测设备
WO2017113677A1 (zh) 处理用户行为数据的方法和系统
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN108780479A (zh) 用于对异常进行检测和评分的系统和方法
CN108540431A (zh) 账号类型的识别方法、装置和系统
CN108335150A (zh) 用于监测媒体呈现的装置和计算机可读存储介质
CN107632722A (zh) 一种多维度用户身份验证方法及装置
CN107920062A (zh) 一种业务逻辑攻击检测模型的构建方法和计算设备
CN104951499A (zh) 一种跨域用户关联方法及信息推送方法
CN104111970A (zh) 统计页面平均停留时间、确定页面用户黏性的方法和装置
Andrews et al. Calculating the benefits of sponsored data for an individual content provider
CN111327609B (zh) 数据审核方法及装置
CN106610994A (zh) 点击路径的统计方法和装置
CN107330029A (zh) 一种数据处理方法、装置及电子设备
CN109168044A (zh) 一种视频特征的确定方法及装置
CN107734006A (zh) 一种统计日志发送方法、装置及电子设备
CN110110219B (zh) 根据网络行为确定用户偏好的方法及装置
CN108121749A (zh) 网站用户行为分析方法及装置
CN109359109A (zh) 一种基于分布式流计算的数据处理方法及系统
CN107911721A (zh) 一种互联网影视作品的量化评价指标确定方法及系统
CN108021713A (zh) 一种文档聚类的方法和装置
CN107730271A (zh) 基于虚拟交互对象的相似用户确定方法、装置及电子设备
CN108062415A (zh) 用户行为的统计方法、装置及终端设备
CN104965878B (zh) 一种基于分组信息进行用户工作单位挖掘的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107