CN109409419A - 用于处理数据的方法和装置 - Google Patents

用于处理数据的方法和装置 Download PDF

Info

Publication number
CN109409419A
CN109409419A CN201811158538.XA CN201811158538A CN109409419A CN 109409419 A CN109409419 A CN 109409419A CN 201811158538 A CN201811158538 A CN 201811158538A CN 109409419 A CN109409419 A CN 109409419A
Authority
CN
China
Prior art keywords
data
target
data set
processing request
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811158538.XA
Other languages
English (en)
Other versions
CN109409419B (zh
Inventor
李纪超
黄文冠
李文峰
宝腾飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811158538.XA priority Critical patent/CN109409419B/zh
Publication of CN109409419A publication Critical patent/CN109409419A/zh
Application granted granted Critical
Publication of CN109409419B publication Critical patent/CN109409419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本申请实施例公开了用于处理数据的方法和装置。该方法的一具体实施方式包括:接收用户的数据处理请求;若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。该实施方式可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况,便于该人员基于该分布情况,实现对数据集的快速整理。

Description

用于处理数据的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于处理数据的方法和装置。
背景技术
目前,用于模型训练的数据通常以便于算法处理的格式被存放于文件或其它媒介,由研发人员负责数据的整理工作。而非研发人员一般很难有一个直观的途径了解数据,并对数据进行整理。
发明内容
本申请实施例提出了用于处理数据的方法和装置。
第一方面,本申请实施例提供了一种用于处理数据的方法,该方法包括:接收用户的数据处理请求;若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。
在一些实施例中,第一数据集中的数据关联类别标签,目标信息为类别标签;以及对选取出的数据进行统计分析,生成与目标信息对应的分析结果,包括:确定选取出的数据的数目;确定数目与第一数据集中的数据的总数目的比值;生成包括目标信息和比值的分析结果。
在一些实施例中,第一数据集中的数据关联类别标签和与该类别标签对应的分数,目标信息为分数区间;以及从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果,包括:从第一数据集中选取出所关联的分数处于目标信息内的数据;将选取出的数据中的关联同一类别标签的数据划分到同一数据组;对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;生成包括目标信息和所组成的信息对的分析结果。
在一些实施例中,上述方法还包括:若数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:获取数据处理请求所指向的第二数据集和与该第二数据集对应的目标类别标识;获取与目标类别标识相关联的分类模型;对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;将选取出的目标数据返回给用户。
在一些实施例中,分类模型是用于筛选出归属于目标类别的数据的正则表达式;以及对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别,包括:对于第二数据集中的数据,利用分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于目标类别。
在一些实施例中,分类模型是经训练后的用于进行类别预测的机器学习模型;以及对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别,包括:对于第二数据集中的数据,将该数据输入分类模型,得到预测结果,其中,预测结果包括预测出的该数据的类别标签;确定预测结果中的类别标签所指示的类别是否为目标类别;若是,则确定该数据归属于目标类别。
在一些实施例中,上述方法还包括:若数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:获取数据处理请求所指向的至少两个数据集和第一目标匹配方式;基于第一目标匹配方式,对至少两个数据集进行比较,生成第一比较结果;向用户展示第一比较结果。
在一些实施例中,上述方法还包括:若数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:获取数据处理请求所指向的至少两条数据和第二目标匹配方式;基于第二目标匹配方式,对至少两条数据的内容进行比较,生成第二比较结果;向用户展示第二比较结果。
在一些实施例中,上述方法还包括:若数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:获取数据处理请求所指向的至少一条数据;将至少一条数据中的数据作为待匹配数据,确定待匹配数据与目标数据库中的数据之间的相似度;从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据;将获取到的待匹配数据的关联数据返回给用户。
第二方面,本申请实施例提供了一种用于处理数据的装置,该装置包括:接收单元,被配置成接收用户的数据处理请求;统计分析单元,被配置成若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。
在一些实施例中,第一数据集中的数据关联类别标签,目标信息为类别标签;以及统计分析单元进一步被配置成:确定选取出的数据的数目;确定数目与第一数据集中的数据的总数目的比值;生成包括目标信息和比值的分析结果。
在一些实施例中,第一数据集中的数据关联类别标签和与该类别标签对应的分数,目标信息为分数区间;以及统计分析单元进一步被配置成:从第一数据集中选取出所关联的分数处于目标信息内的数据;将选取出的数据中的关联同一类别标签的数据划分到同一数据组;对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;生成包括目标信息和所组成的信息对的分析结果。
在一些实施例中,上述装置还包括:第一获取单元,被配置成若数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:获取数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识;获取与目标类别标识相关联的分类模型;对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;将选取出的目标数据返回给用户。
在一些实施例中,分类模型是用于筛选出归属于目标类别的数据的正则表达式;以及第一获取单元进一步被配置成:对于第二数据集中的数据,利用分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于目标类别。
在一些实施例中,分类模型是经训练后的用于进行类别预测的机器学习模型;以及第一获取单元进一步被配置成:对于第二数据集中的数据,将该数据输入分类模型,得到预测结果,其中,预测结果包括预测出的该数据的类别标签;确定预测结果中的类别标签所指示的类别是否为目标类别;若是,则确定该数据归属于目标类别。
在一些实施例中,上述装置还包括:第一比较单元,被配置成若数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:获取数据处理请求所指向的至少两个数据集和第一目标匹配方式;基于第一目标匹配方式,对至少两个数据集进行比较,生成第一比较结果;向用户展示第一比较结果。
在一些实施例中,上述装置还包括:第二比较单元,被配置成若数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:获取数据处理请求所指向的至少两条数据和第二目标匹配方式;基于第二目标匹配方式,对至少两条数据的内容进行比较,生成第二比较结果;向用户展示第二比较结果。
在一些实施例中,上述装置还包括:第二获取单元,被配置成若数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:获取数据处理请求所指向的至少一条数据;将至少一条数据中的数据作为待匹配数据,确定待匹配数据与目标数据库中的数据之间的相似度;从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据;将获取到的待匹配数据的关联数据返回给用户。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于处理数据的方法和装置,通过接收用户的数据处理请求,可以响应于确定数据处理请求是与数据集相关的数据统计请求,执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。从而可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况,使该人员基于该分布情况,实现对数据集的快速整理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于处理数据的方法的一个实施例的流程图;
图3是根据本申请的用于处理数据的方法的一个应用场景的示意图;
图4是根据本申请的用于处理数据的方法的又一个实施例的流程图;
图5是根据本申请的用于处理数据的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于处理数据的方法或用于处理数据的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、数据整理类应用等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器。例如,服务器105可以接收用户通过终端设备101、102、103发送的数据处理请求,并对该数据处理请求进行分析等处理。
需要说明的是,本申请实施例所提供的用于处理数据的方法一般由服务器105执行。相应地,用于处理数据的装置一般设置于服务器105中。
需要指出的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于处理数据的方法的一个实施例的流程200。该用于处理数据的方法的流程200,包括以下步骤:
步骤201,接收用户的数据处理请求。
在本实施例中,用于处理数据的方法的执行主体(例如图1所示的服务器105)可以接收用户通过终端设备(例如图1所示的终端设备101、102、103)发送的数据处理请求。
需要说明的是,上述执行主体可以向用户提供数据处理界面。该数据处理界面例如可以包括多种选项(例如菜单、按钮、下拉列表框、单选按钮、复选框等等)、输入区域等,供用户进行信息配置。用户在数据处理界面上配置完信息后,可以通过点击相应的选项,向上述执行主体发送数据处理请求。其中,数据处理请求可以是与数据集或数据集中的数据相关的请求。例如,与数据集相关的数据统计请求,与数据集相关的目标数据获取请求,对数据集之间进行比较的请求,对数据集中的数据进行内容比较的请求,对数据集中的数据进行关联数据获取的请求。当然,数据处理请求还可以是对数据集或数据集中的数据进行基本操作的请求。例如,对数据集进行合并、拆分、创建、删除、修改或查看等基本操作的请求,对数据集中的数据进行删除或缺失信息填补等基本操作的请求。
应该理解,数据处理请求可以包括与待处理的数据集或数据相关的信息。上述执行主体可以通过对该信息进行分析,确定数据处理请求是哪种类型的请求。当然,数据处理请求还可以包括请求类别标识。请求类别标识可以是请求类别的编号或类别名称等。请求类别例如可以包括数据统计、数据集比较、数据内容比较、关联数据获取、合并、拆分、创建、删除、修改、查看、复制、缺失信息填补等等。上述执行主体可以基于数据处理请求中的请求类别标识,确定数据处理请求属于哪种类型的请求。
对于以上各种请求所包括的与待处理的数据集或数据相关的信息,可以参考以下描述的内容:
与数据集相关的数据统计请求可以包括数据集标识和目标信息集合等信息。其中,该数据集标识可以是其所指示的数据集的编号或名称等。该数据集可以是待进行数据分析的数据集。该目标信息集合与该数据集相关联。目标信息可以是类别标签、分数或分数区间(例如[0,0.5)、[0.5,1])等。该数据集中的数据可以关联类别标签。当然,该数据在关联类别标签的同时,还可以关联与该类别标签对应的分数。该分数可以称为该数据归属于该类别标签所指示的类别的概率。对于关联分数区间集合的数据集,该分数区间集合中的分数区间可以是通过对该数据集中的数据所关联的分数形成的分数序列进行区间划分得到的。
对数据集之间进行比较的请求可以包括数据集标识集合等信息。该数据集标识集合可以包括至少两个待比较的数据集的数据集标识。
对数据集中的数据进行内容比较的请求可以包括数据集标识和数据标识集合等信息。该数据标识集合可以包括至少两条待进行内容比较的数据的数据标识。该数据集标识可以是该至少两条待进行内容比较的数据所归属的数据集的标识。其中,数据标识可以是其所指示的数据的序号。
对数据集中的数据进行关联数据获取的请求可以包括数据集标识和数据标识集合等信息。该数据标识集合可以包括至少一条待进行关联数据获取的数据的数据标识。该数据集标识可以是该至少一条待进行关联数据获取的数据所归属的数据集的标识。
对数据集进行合并的请求可以包括数据集标识集合、新数据集名称、目标存储位置等信息。该数据集标识集合可以包括至少两个待合并的数据集的数据集标识。新数据集名称可以是合并后所得的新数据集的数据集名称。目标存储位置可以是新数据集的存储位置。
对数据集进行拆分的请求可以包括数据集标识和拆分引导信息等信息。该数据集标识所指示的数据集是待拆分的数据集。该拆分引导信息可以用于引导上述执行主体按照用户的拆分需求对该数据集进行拆分。
对数据集进行创建的请求可以包括待创建的数据集的数据集名称、目标存储位置等信息。
对数据集进行删除或查看的请求可以包括数据集标识等信息。该数据集标识所指示的数据集可以是待删除或待查看的数据集。
对数据集进行修改的请求可以包括待修改的数据集的数据集标识、属性名称和与该属性名称对应的新属性值等信息。其中,该新属性值可以用于替换该数据集在该属性名称所指示的属性下已有的属性值。
对数据集中的数据进行删除的请求可以包括数据集标识和数据标识集合等信息。其中,该数据标识集合可以包括至少一条待删除的数据的数据标识。该数据集标识可以是该至少一条待删除的数据所归属的数据集的标识。
对数据集中的数据进行复制的请求可以包括源数据集标识、待复制数据信息和目标数据集标识。其中,源数据集标识所指示的数据集可以是待复制数据所在的数据集。待复制数据信息例如可以包括待复制数据的数据标识或所对应的分数区间等。另外,待复制数据信息在包括分数区间的同时还可以包括类别标签。此外,该请求还可以包括目标标签、目标分数等。目标标签可以是待复制数据在目标数据集中所要关联的类别标签。目标分数可以是待复制数据在目标数据集中所要关联的分数。
对数据集中的数据进行缺失信息填补的请求可以包括待进行缺失信息填补的数据的数据标识、该数据所在的数据集的数据集标识、属性名称和与该属性名称对应的待填补内容等信息。
在本实施例中,若上述执行主体确定接收到的数据处理请求是与数据集相关的数据统计请求,则上述执行主体可以执行步骤202。
需要说明的是,上述执行主体通过支持用户发送以上各种类型的数据处理请求,可以便于用户实现对数据集的快速整理,获得干净的用于训练的数据,节约用户时间,并提高数据质量。
步骤202,响应于确定数据处理请求是与数据集相关的数据统计请求,获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合。
在本实施例中,上述执行主体可以响应于确定接收到的数据处理请求是与数据集相关的数据统计请求,获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合。其中,数据处理请求可以包括数据集标识和目标信息集合。第一数据集可以是该数据集标识所指示的数据集。第一数据集可以预先存储在上述执行主体本地。因而上述执行主体可以基于该数据集标识从本地获取第一数据集。另外,上述执行主体可以从数据处理请求中获取与第一数据集对应的目标信息集合。
步骤203,对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果。
在本实施例中,对于目标信息集合中的目标信息,例如每条目标信息,上述执行主体可以从第一数据集中选取出与该目标信息相关联的数据,对选取出的数据进行统计分析,生成与该目标信息对应的分析结果。
作为示例,第一数据集中的数据关联类别标签,目标信息为类别标签。对于目标信息集合中的每条目标信息,上述执行主体可以先从第一数据集中选取出与该目标信息相关联的数据。而后上述执行主体可以确定选取出的数据的数目。然后上述执行主体可以生成包括该目标信息和该数目的分析结果。需要说明的是,此类分析结果可以方便用户了解不同类别标签下存在多少条数据。
在本实施例的一些可选的实现方式中,若第一数据集中的数据关联类别标签,目标信息为类别标签,则对于目标信息集合中的每条目标信息,上述执行主体可以先从第一数据集中选取出与该目标信息相关联的数据。而后上述执行主体可以确定选取出的数据的数目。然后上述执行主体可以确定该数目与第一数据集中的数据的总数目的比值。最后上述执行主体可以生成包括该目标信息和该比值的分析结果。需要说明的是,此类分析结果可以方便用户了解不同类别标签下的数据在数据集中所占的比例。
在本实施例的一些可选的实现方式中,若第一数据集中的数据关联类别标签和与该类别标签对应的分数,目标信息为分数区间,则对于目标信息集合中的每条目标信息,上述执行主体可以先从第一数据集中选取出所关联的分数处于该目标信息内的数据。而后上述执行主体可以将选取出的数据中的关联同一类别标签的数据划分到同一数据组。之后对于划分出的数据组,上述执行主体可以将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对。最后上述执行主体可以生成包括该目标信息和所组成的信息对的分析结果。此类分析结果可以方便用户了解不同分数区间下不同的类别标签的数目。
步骤204,向用户展示所生成的分析结果。
在本实施例中,上述执行主体在执行完步骤203后,可以向用户展示所生成的分析结果。例如,上述执行主体可以在用户触发数据处理请求的数据处理界面上展示所生成的分析结果,或者基于所生成的分析结果生成一个新界面,将该新界面推送给用户,以向用户展示所生成的分析结果。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是与数据集相关的目标数据获取请求,执行如图4所示的实施例提供的用于处理数据的方法的流程400。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是对数据集之间进行比较的请求,执行以下第一比较操作:获取数据处理请求所指向的至少两个数据集和第一目标匹配方式;基于第一目标匹配方式,对上述至少两个数据集进行比较,生成第一比较结果;向用户展示第一比较结果。这里,上述执行主体可以在用户触发数据处理请求的数据处理界面上展示第一比较结果,或者基于第一比较结果生成一个新界面,将该新界面推送给用户,以向用户展示第一比较结果。
需要说明的是,数据处理请求可以包括数据集标识集合。上述至少两个数据集可以是该数据集标识集合中各个数据集标识分别指示的数据集。上述执行主体本地可以预先存储上述至少两个数据集。上述执行主体可以基于该数据集标识集合,从本地获取上述至少两个数据集。
上述第一目标匹配方式可以是上述执行主体预先设置的,也可以是用户设定的。例如,若数据处理请求还包括匹配方式,则上述执行主体可以从数据处理请求获取匹配方式作为第一目标匹配方式。上述第一目标匹配方式可以用于指引上述执行主体对上述至少两个数据集进行比较操作。第一目标匹配方式例如可以包括相同数据匹配和/或不同数据匹配等。其中,相同数据匹配可以用于指示匹配出不同数据集之间共有的数据。不同数据匹配可以用于指示匹配出不同数据集之间不同的数据。
作为示例,假设上述第一目标匹配方式包括相同数据匹配和不同数据匹配。上述至少两个数据集包括数据集A和数据集B。其中,数据集A包括数据D1、D2、D3。数据集B包括数据D2、D4、D5。上述执行主体对数据集A和数据集B进行相同数据匹配后,可以确定数据集A和数据集B均包括数据D2。另外,上述执行主体可以基于相同数据匹配结果,进行不同数据匹配。例如,上述执行主体在确定出数据集A和数据集B均包括数据D2后,便可以将数据集A中的除数据D2以外的数据(数据D1、D3)确定为不同于数据集B中的数据的数据。上述执行主体也可以将数据集B中的除数据D2以外的数据(数据D4、D5)确定为不同于数据集A中的数据的数据。上述执行主体可以生成用于指示以下信息的第一比较结果:数据集A和数据集B均包括数据D2;数据集A比数据集B多出了数据D1、D3;数据集B比数据集A多出了数据D4、D5。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是对数据集中的数据进行内容比较的请求,执行以下第二比较操作:获取数据处理请求所指向的至少两条数据和第二目标匹配方式;基于第二目标匹配方式,对上述至少两条数据的内容进行比较,生成第二比较结果;向用户展示第二比较结果。这里,上述执行主体可以在用户触发数据处理请求的数据处理界面上展示第二比较结果,或者基于第二比较结果生成一个新界面,将该新界面推送给用户,以向用户展示第二比较结果。
需要说明的是,数据处理请求可以包括数据集标识和数据标识集合。上述至少两条数据可以是该数据标识集合中的各个数据标识分别指示的数据。上述至少两条数据包含在该数据集标识所指示的数据集中。上述执行主体可以预先存储该数据集。因而上述执行主体可以基于该数据集标识在本地查找出该数据集,而后从该数据集中获取上述至少两条数据。
上述第二目标匹配方式可以是上述执行主体预先设置的,也可以是用户设定的。例如,若数据处理请求还包括匹配方式,则上述执行主体可以从数据处理请求获取匹配方式作为第二目标匹配方式。上述第二目标匹配方式可以用于指引上述执行主体对上述至少两条数据进行内容比较。上述第二目标匹配方式例如可以是相近数据匹配。
作为示例,假设上述第二目标匹配方式是相近数据匹配,上述至少两条数据包括数据D1和数据D2。上述执行主体可以采用相应的相似度计算算法计算数据D1和数据D2的内容之间的相似度。若该相似度达到相似度阈值(例如0.5等),则上述执行主体可以生成用于指示数据D1和数据2的内容之间的相似度达到相似度阈值的第二比较结果。其中,第二比较结果例如可以包括数据D1和数据D2的数据标识和计算出的相似度。应该理解,相似度阈值是可以根据实际需要设置的,在此不做具体限定。
需要说明的是,上述执行主体本地可以预置与不同数据类型(例如文本、语音、图像等等)分别关联的相似度计算算法。以文本类型为例,用于计算文本类型的数据之间的相似度的相似度计算算法例如可以包括余弦相似度算法、编辑距离、Jaccard相似性系数等等。应该理解,本实施例不对上述执行主体采用的相似度计算算法做任何限定。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是对数据集中的数据进行关联数据获取的请求,执行以下关联数据获取操作:获取数据处理请求所指向的至少一条数据;将上述至少一条数据中的数据作为待匹配数据,例如将上述至少一条数据中的每条数据作为待匹配数据,确定待匹配数据与目标数据库中的数据之间的相似度;从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据;将获取到的待匹配数据的关联数据返回给用户。需要说明的是,通过支持用户对数据的关联数据进行获取,可以方便用户在训练数据稀缺时,通过获取训练数据的关联数据来扩充训练数据。
其中,数据处理请求可以包括数据集标识和数据标识集合。上述至少一条数据可以是该数据标识集合中的各个数据标识分别指示的数据。上述至少一条数据可以包含在该数据集标识所指示的数据集中。需要指出的是,上述执行主体本地可以预先存储该数据集。因而上述执行主体可以基于该数据集标识在本地查找到该数据集。而后上述执行主体可以基于该数据标识集合从该数据集中获取上述至少一条数据。
上述目标数据库可以是上述执行主体预先设置的,也可是用户设定的。例如,数据处理请求可以包括数据库标识。上述目标数据库可以是该数据库标识所指示的数据库。需要说明的是,上述执行主体可以采用相应的相似度计算算法计算待匹配数据与目标数据库中的数据之间的相似度。
上述执行主体可以在用户触发数据处理请求的数据处理界面上展示获取到的待匹配数据的关联数据,或者基于获取到的待匹配数据的关联数据生成一个新界面,将该新界面推送给用户,以将获取到的待匹配数据的关联数据返回给用户。可选地,数据处理请求还可以包括用户设定的位置信息。上述执行主体可以将获取到的待匹配数据的关联数据存放到该位置信息所指示的位置。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是对数据集进行合并、拆分、创建、删除、修改或查看等基本操作的请求,基于数据处理请求执行相应的操作。这里,数据处理请求可以包括与待处理的数据集相关的信息(参看以上已描述的相关内容),上述执行主体可以基于该信息执行相应的操作。
在本实施例的一些可选的实现方式中,上述执行主体可以响应于确定接收到的数据处理请求是对数据集中的数据进行删除或缺失信息填补等基本操作的请求,基于数据处理请求,对数据处理请求所指向的数据进行相应的处理。这里,数据处理请求可以包括与待处理的数据相关的信息(参看以上已描述的相关内容),上述执行主体可以基于该信息对数据处理请求所指向的数据进行相应的处理。
继续参见图3,图3是根据本实施例的用于处理数据的方法的应用场景的一个示意图。在图3的应用场景中,用户A负责管理的数据集可以存储在服务器301中。服务器301可以向用户A提供数据处理界面,供用户A通过该数据处理界面发送各种数据处理请求。当用户A在训练数据准备阶段,想要了解数据集302中的数据在不同类别标签下的分布情况时,可以通过终端设备303访问数据处理界面,在数据处理界面上输入数据集302的数据集标识和数据集302所关联的类别标签集合304,然后执行预设的操作来触发数据处理请求。其中,类别标签集合304可以包括类别标签L1和类别标签L2。该数据处理请求可以包括该数据集标识和类别标签集合304。服务器301在接收到该数据处理请求后,可以对该数据处理请求进行分析,确定出该数据处理请求是与数据集相关的数据统计请求,服务器301便可以基于该数据处理请求中的数据集标识从本地获取数据集302,以及从该数据处理请求中获取类别标签集合304。而后,对于类别标签集合304中的类别标签L1,服务器301可以从数据集302中选取出与类别标签L1相关联的数据,统计该数据的数目,生成包括类别标签L1和该数目的分析结果305。对于类别标签集合304中的类别标签L2,服务器301可以从数据集302中选取出与类别标签L2相关联的数据,统计出该数据的数目,生成包括类别标签L2和该数目的分析结果306。最后服务器301可以在用户A发送该数据处理请求的数据处理界面上展示分析结果305和分析结果306。
本申请的上述实施例提供的方法,通过接收用户的数据处理请求,可以响应于确定数据处理请求是与数据集相关的数据统计请求,执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。从而可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况,使该人员基于该分布情况,实现对数据集的快速整理。
进一步参考图4,其示出了用于处理数据的方法的又一个实施例的流程400。该用于处理数据的方法的流程400,包括以下步骤:
步骤401,响应于确定接收到的数据处理请求是与数据集相关的目标数据获取请求,获取数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识。
在本实施例中,用于处理数据的方法的执行主体(例如图1所示的服务器105)可以响应于确定接收到的数据处理请求是与数据集相关的目标数据获取请求,获取该数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识。其中,该数据处理请求可以包括数据集标识和目标类别标识。目标类别标识可以是目标类别的类别名称。第二数据集是该数据集标识所指示的数据集。上述执行主体可以从该数据处理请求中获取目标类别标识。
需要说明的是,上述执行主体本地可以预先存储第二数据集。因而,上述执行主体可以基于该数据集标识从本地获取第二数据集。
步骤402,获取与目标类别标识相关联的分类模型。
在本实施例中,上述执行主体可以获取与目标类别标识相关联的分类模型。其中,该分类模型可以是用于筛选出归属于目标类别的数据的正则表达式或规则,也可以是经训练后的用于进行类别预测的机器学习模型。该机器学习模型例如可以是CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、SVM(Support VectorMachine,支持向量机)或NBM(Naive Bayesian Model,朴素贝叶斯模型)等。上述分类模型可以预先存储在上述执行主体本地。
作为示例,上述数据处理请求还可以包括模型标识。上述执行主体可以基于该模型标识从本地获取该模型标识所指示的分类模型。
再例如,上述执行主体本地预先存储的各个分类模型可以分别关联类别标签集合。上述执行主体可以从该各个分类模型中获取所关联的类别标签集合包括目标类别标签的分类模型作为与目标类别标识相关联的分类模型。其中,目标类别标签所指示的类别为目标类别。
步骤403,对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别,若归属于,则选取该数据作为目标数据。
在本实施例中,对于第二数据集中的数据,例如每条数据,上述执行主体可以利用获取到的分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别。若确定该数据归属于目标类别,则上述执行主体可以选取该数据作为目标数据。
作为示例,上述执行主体可以采用以下第一确定方法确定第二数据集中的数据是否归属于目标类别:
若分类模型是用于筛选出归属于目标类别的数据的正则表达式,则对于第二数据集中的每条数据,上述执行主体可以利用分类模型,对该数据进行匹配操作,以确定该数据是否满足分类模型所指示的条件。若该数据满足分类模型所指示的条件,则上述执行主体可以确定匹配成功,进而可以确定该数据归属于目标类别;否则,上述执行主体可以确定匹配失败,进而可以确定该数据不归属于目标类别。
再例如,上述执行主体可以采用以下第二确定方法确定第二数据集中的数据是否归属于目标类别:
若分类模型是经训练后的用于进行类别预测的机器学习模型,则对于第二数据集中的每条数据,上述执行主体可以将该数据输入分类模型,得到预测结果。其中,预测结果可以包括预测出的该数据的类别标签。而后上述执行主体可以确定预测结果中的类别标签所指示的类别是否为目标类别,若是,则上述执行主体可以确定该数据归属于目标类别;否则,上述执行主体可以确定该数据不归属于目标类别。
步骤404,将选取出的目标数据返回给用户。
在本实施例中,上述执行主体可以将在步骤403中选取出的目标数据返回给用户。例如,在用户触发数据处理请求的数据处理界面上展示选取出的目标数据,或者基于选取出的目标数据生成一个新界面,将该新界面推送给用户,以将选取出的目标数据返回给用户。
可选地,数据处理请求还可以包括用户设定的位置信息。上述执行主体可以将选取出的数据存放到该位置信息所指示的位置。
从图4中可以看出,本实施例中的用于处理数据的方法的流程400突出了对与数据集相关的目标数据获取请求进行处理的步骤。由此,本实施例描述的方案可以通过分类模型(例如用于分类的正则表达式或者机器学习模型等)来召回数据,可以帮助用户快速地获得模型训练所需的正例。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于处理数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于处理数据的装置500包括:接收单元501被配置成接收用户的数据处理请求;统计分析单元502被配置成若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。
在本实施例中,用于处理数据的装置500中:接收单元501的具体处理及其所带来的技术效果可参考图2对应实施例中的步骤201的相关说明。统计分析单元502的具体处理及其所带来的技术效果可参考图2对应实施例中的步骤202、步骤203和步骤204的相关说明。在此不再赘述。
在本实施例的一些可选的实现方式中,第一数据集中的数据可以关联类别标签,目标信息可以为类别标签;以及统计分析单元502可以进一步被配置成:确定选取出的数据的数目;确定数目与第一数据集中的数据的总数目的比值;生成包括目标信息和比值的分析结果。
在本实施例的一些可选的实现方式中,第一数据集中的数据可以关联类别标签和与该类别标签对应的分数,目标信息可以为分数区间;以及统计分析单元502可以进一步被配置成:从第一数据集中选取出所关联的分数处于目标信息内的数据;将选取出的数据中的关联同一类别标签的数据划分到同一数据组;对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;生成包括目标信息和所组成的信息对的分析结果。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:第一获取单元(图中未示出),被配置成若数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:获取数据处理请求所指向的第二数据集和与第二数据集对应的目标类别标识;获取与目标类别标识相关联的分类模型;对于第二数据集中的数据,利用分类模型,对该数据进行类别预测,以确定该数据是否归属于目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;将选取出的目标数据返回给用户。
在本实施例的一些可选的实现方式中,分类模型可以为用于筛选出归属于目标类别的数据的正则表达式;以及第一获取单元可以进一步被配置成:对于第二数据集中的数据,利用分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于目标类别。
在本实施例的一些可选的实现方式中,分类模型可以是经训练后的用于进行类别预测的机器学习模型;以及第一获取单元可以进一步被配置成:对于第二数据集中的数据,将该数据输入分类模型,得到预测结果,其中,预测结果可以包括预测出的该数据的类别标签;确定预测结果中的类别标签所指示的类别是否为目标类别;若是,则确定该数据归属于目标类别。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:第一比较单元(图中未示出),被配置成若数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:获取数据处理请求所指向的至少两个数据集和第一目标匹配方式;基于第一目标匹配方式,对至少两个数据集进行比较,生成第一比较结果;向用户展示第一比较结果。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:第二比较单元(图中未示出),被配置成若数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:获取数据处理请求所指向的至少两条数据和第二目标匹配方式;基于第二目标匹配方式,对至少两条数据的内容进行比较,生成第二比较结果;向用户展示第二比较结果。
在本实施例的一些可选的实现方式中,上述装置500还可以包括:第二获取单元(图中未示出),被配置成若数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:获取数据处理请求所指向的至少一条数据;将至少一条数据中的数据作为待匹配数据,确定待匹配数据与目标数据库中的数据之间的相似度;从目标数据库中获取与待匹配数据的相似度达到相似度阈值的数据作为待匹配数据的关联数据;将获取到的待匹配数据的关联数据返回给用户。
本申请的上述实施例提供的装置,通过接收用户的数据处理请求,可以响应于确定数据处理请求是与数据集相关的数据统计请求,执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。从而可以方便负责整理数据的非研发人员了解数据集中的数据在目标信息下的分布情况,使该人员基于该分布情况,实现对数据集的快速整理。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器105)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,该程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元和统计分析单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收用户的数据处理请求的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备:接收用户的数据处理请求;若数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:获取数据处理请求所指向的第一数据集和与第一数据集对应的目标信息集合;对于目标信息集合中的目标信息,从第一数据集中选取出与目标信息相关联的数据,对选取出的数据进行统计分析,生成与目标信息对应的分析结果;向用户展示所生成的分析结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种用于处理数据的方法,包括:
接收用户的数据处理请求;
若所述数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:
获取所述数据处理请求所指向的第一数据集和与所述第一数据集对应的目标信息集合;
对于所述目标信息集合中的目标信息,从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果;
向所述用户展示所生成的分析结果。
2.根据权利要求1所述的方法,其中,所述第一数据集中的数据关联类别标签,所述目标信息为类别标签;以及
所述对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果,包括:
确定选取出的数据的数目;
确定所述数目与所述第一数据集中的数据的总数目的比值;
生成包括所述目标信息和所述比值的分析结果。
3.根据权利要求1所述的方法,其中,所述第一数据集中的数据关联类别标签和与该类别标签对应的分数,所述目标信息为分数区间;以及
所述从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果,包括:
从所述第一数据集中选取出所关联的分数处于所述目标信息内的数据;
将选取出的数据中的关联同一类别标签的数据划分到同一数据组;
对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;
生成包括所述目标信息和所组成的信息对的分析结果。
4.根据权利要求1所述的方法,其中,所述方法还包括:
若所述数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:
获取所述数据处理请求所指向的第二数据集和与所述第二数据集对应的目标类别标识;
获取与所述目标类别标识相关联的分类模型;
对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;
将选取出的目标数据返回给所述用户。
5.根据权利要求4所述的方法,其中,所述分类模型是用于筛选出归属于所述目标类别的数据的正则表达式;以及
所述对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别,包括:
对于所述第二数据集中的数据,利用所述分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于所述目标类别。
6.根据权利要求4所述的方法,其中,所述分类模型是经训练后的用于进行类别预测的机器学习模型;以及
所述对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别,包括:
对于所述第二数据集中的数据,将该数据输入所述分类模型,得到预测结果,其中,所述预测结果包括预测出的该数据的类别标签;确定所述预测结果中的类别标签所指示的类别是否为所述目标类别;若是,则确定该数据归属于所述目标类别。
7.根据权利要求1所述的方法,其中,所述方法还包括:
若所述数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:
获取所述数据处理请求所指向的至少两个数据集和第一目标匹配方式;
基于所述第一目标匹配方式,对所述至少两个数据集进行比较,生成第一比较结果;
向所述用户展示所述第一比较结果。
8.根据权利要求1所述的方法,其中,所述方法还包括:
若所述数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:
获取所述数据处理请求所指向的至少两条数据和第二目标匹配方式;
基于所述第二目标匹配方式,对所述至少两条数据的内容进行比较,生成第二比较结果;
向所述用户展示所述第二比较结果。
9.根据权利要求1所述的方法,其中,所述方法还包括:
若所述数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:
获取所述数据处理请求所指向的至少一条数据;
将所述至少一条数据中的数据作为待匹配数据,确定所述待匹配数据与目标数据库中的数据之间的相似度;
从所述目标数据库中获取与所述待匹配数据的相似度达到相似度阈值的数据作为所述待匹配数据的关联数据;
将获取到的所述待匹配数据的关联数据返回给所述用户。
10.一种用于处理数据的装置,包括:
接收单元,被配置成接收用户的数据处理请求;
统计分析单元,被配置成若所述数据处理请求是与数据集相关的数据统计请求,则执行以下统计分析操作:
获取所述数据处理请求所指向的第一数据集和与所述第一数据集对应的目标信息集合;
对于所述目标信息集合中的目标信息,从所述第一数据集中选取出与所述目标信息相关联的数据,对选取出的数据进行统计分析,生成与所述目标信息对应的分析结果;
向所述用户展示所生成的分析结果。
11.根据权利要求10所述的装置,其中,所述第一数据集中的数据关联类别标签,所述目标信息为类别标签;以及
所述统计分析单元进一步被配置成:
确定选取出的数据的数目;
确定所述数目与所述第一数据集中的数据的总数目的比值;
生成包括所述目标信息和所述比值的分析结果。
12.根据权利要求10所述的装置,其中,所述第一数据集中的数据关联类别标签和与该类别标签对应的分数,所述目标信息为分数区间;以及
所述统计分析单元进一步被配置成:
从所述第一数据集中选取出所关联的分数处于所述目标信息内的数据;
将选取出的数据中的关联同一类别标签的数据划分到同一数据组;
对于划分出的数据组,将该数据组所关联的类别标签和该数据组中的数据的数目组成信息对;
生成包括所述目标信息和所组成的信息对的分析结果。
13.根据权利要求10所述的装置,其中,所述装置还包括:
第一获取单元,被配置成若所述数据处理请求是与数据集相关的目标数据获取请求,则执行以下获取操作:
获取所述数据处理请求所指向的第二数据集和与所述第二数据集对应的目标类别标识;
获取与所述目标类别标识相关联的分类模型;
对于所述第二数据集中的数据,利用所述分类模型,对该数据进行类别预测,以确定该数据是否归属于所述目标类别标识所指示的目标类别;若归属于,则选取该数据作为目标数据;
将选取出的目标数据返回给所述用户。
14.根据权利要求13所述的装置,其中,所述分类模型是用于筛选出归属于所述目标类别的数据的正则表达式;以及
所述第一获取单元进一步被配置成:
对于所述第二数据集中的数据,利用所述分类模型,对该数据进行匹配操作;若匹配成功,则确定该数据归属于所述目标类别。
15.根据权利要求13所述的装置,其中,所述分类模型是经训练后的用于进行类别预测的机器学习模型;以及
所述第一获取单元进一步被配置成:
对于所述第二数据集中的数据,将该数据输入所述分类模型,得到预测结果,其中,所述预测结果包括预测出的该数据的类别标签;确定所述预测结果中的类别标签所指示的类别是否为所述目标类别;若是,则确定该数据归属于所述目标类别。
16.根据权利要求10所述的装置,其中,所述装置还包括:
第一比较单元,被配置成若所述数据处理请求是对数据集之间进行比较的请求,则执行以下第一比较操作:
获取所述数据处理请求所指向的至少两个数据集和第一目标匹配方式;
基于所述第一目标匹配方式,对所述至少两个数据集进行比较,生成第一比较结果;
向所述用户展示所述第一比较结果。
17.根据权利要求10所述的装置,其中,所述装置还包括:
第二比较单元,被配置成若所述数据处理请求是对数据集中的数据进行内容比较的请求,则执行以下第二比较操作:
获取所述数据处理请求所指向的至少两条数据和第二目标匹配方式;
基于所述第二目标匹配方式,对所述至少两条数据的内容进行比较,生成第二比较结果;
向所述用户展示所述第二比较结果。
18.根据权利要求10所述的装置,其中,所述装置还包括:
第二获取单元,被配置成若所述数据处理请求是对数据集中的数据进行关联数据获取的请求,则执行以下关联数据获取操作:
获取所述数据处理请求所指向的至少一条数据;
将所述至少一条数据中的数据作为待匹配数据,确定所述待匹配数据与目标数据库中的数据之间的相似度;
从所述目标数据库中获取与所述待匹配数据的相似度达到相似度阈值的数据作为所述待匹配数据的关联数据;
将获取到的所述待匹配数据的关联数据返回给所述用户。
19.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201811158538.XA 2018-09-30 2018-09-30 用于处理数据的方法和装置 Active CN109409419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811158538.XA CN109409419B (zh) 2018-09-30 2018-09-30 用于处理数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811158538.XA CN109409419B (zh) 2018-09-30 2018-09-30 用于处理数据的方法和装置

Publications (2)

Publication Number Publication Date
CN109409419A true CN109409419A (zh) 2019-03-01
CN109409419B CN109409419B (zh) 2021-05-07

Family

ID=65466721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811158538.XA Active CN109409419B (zh) 2018-09-30 2018-09-30 用于处理数据的方法和装置

Country Status (1)

Country Link
CN (1) CN109409419B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685799A (zh) * 2020-12-29 2021-04-20 五八有限公司 设备指纹生成方法、装置、电子设备和计算机可读介质
CN112989364A (zh) * 2019-12-13 2021-06-18 伊姆西Ip控股有限责任公司 用于数据仿真的方法、设备和计算机程序产品
CN115544250A (zh) * 2022-09-01 2022-12-30 睿智合创(北京)科技有限公司 一种数据处理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160323364A1 (en) * 2015-04-28 2016-11-03 Xiaomi Inc. Method and device for displaying information flows in social network, and server
CN106469328A (zh) * 2016-08-31 2017-03-01 四川创能电力工程有限公司 一种智能管理系统及信息管理方法
CN106559385A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据鉴权方法和装置
CN106658446A (zh) * 2016-12-29 2017-05-10 江西博瑞彤芸科技有限公司 短消息的统计分析方法
CN106874507A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于推送信息的方法、装置及服务器
CN107203774A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 对数据的归属类别进行预测的方法及装置
CN107391750A (zh) * 2017-08-15 2017-11-24 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN108038739A (zh) * 2017-12-27 2018-05-15 北京奇虎科技有限公司 一种根据统计数据关联度确定扩展用户的方法和系统
CN108388563A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 信息输出方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160323364A1 (en) * 2015-04-28 2016-11-03 Xiaomi Inc. Method and device for displaying information flows in social network, and server
CN106559385A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据鉴权方法和装置
CN107203774A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 对数据的归属类别进行预测的方法及装置
CN106469328A (zh) * 2016-08-31 2017-03-01 四川创能电力工程有限公司 一种智能管理系统及信息管理方法
CN106658446A (zh) * 2016-12-29 2017-05-10 江西博瑞彤芸科技有限公司 短消息的统计分析方法
CN108388563A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 信息输出方法和装置
CN106874507A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于推送信息的方法、装置及服务器
CN107391750A (zh) * 2017-08-15 2017-11-24 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN108038739A (zh) * 2017-12-27 2018-05-15 北京奇虎科技有限公司 一种根据统计数据关联度确定扩展用户的方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Y.L ET AL: "A data analysis algorithm based on statistical filtration and linear discriminant analysis", 《2006 6TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION》 *
李涛等: "《事件挖掘的理论算法及应用》", 31 March 2016 *
林在康等: "《矿业信息技术基础》", 28 February 2009 *
游善平: "开源环境下的考试数据统计分析研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989364A (zh) * 2019-12-13 2021-06-18 伊姆西Ip控股有限责任公司 用于数据仿真的方法、设备和计算机程序产品
CN112685799A (zh) * 2020-12-29 2021-04-20 五八有限公司 设备指纹生成方法、装置、电子设备和计算机可读介质
CN112685799B (zh) * 2020-12-29 2022-11-29 五八有限公司 设备指纹生成方法、装置、电子设备和计算机可读介质
CN115544250A (zh) * 2022-09-01 2022-12-30 睿智合创(北京)科技有限公司 一种数据处理方法及系统

Also Published As

Publication number Publication date
CN109409419B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN109582691A (zh) 用于控制数据查询的方法和装置
CN109325213A (zh) 用于标注数据的方法和装置
CN109189857A (zh) 基于区块链的数据共享系统、方法和装置
CN109976997A (zh) 测试方法和装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN108776692A (zh) 用于处理信息的方法和装置
CN108170843B (zh) 用于获取数据的方法和装置
CN108429816A (zh) 用于生成信息的方法和装置
CN109409419A (zh) 用于处理数据的方法和装置
CN110019080A (zh) 数据访问方法和装置
CN110019263A (zh) 信息存储方法和装置
CN109241033A (zh) 创建实时数据仓库的方法和装置
CN109460652A (zh) 用于标注图像样本的方法、设备及计算机可读介质
CN109389182A (zh) 用于生成信息的方法和装置
CN110119445A (zh) 生成特征向量和基于特征向量进行文本分类的方法和装置
CN106776638A (zh) 数据库操作方法和装置
CN109873756A (zh) 用于发送信息的方法和装置
CN109597810A (zh) 一种任务切分方法、装置、介质及电子设备
CN109033312A (zh) 用于获取信息的方法和装置
CN109101309A (zh) 用于更新用户界面方法和装置
CN110188113B (zh) 一种利用复杂表达式进行数据比对的方法、装置及存储介质
CN109213824A (zh) 数据抓取系统、方法和装置
CN109614549A (zh) 用于推送信息的方法和装置
CN110245357A (zh) 主实体识别方法和装置
CN109885564A (zh) 用于发送信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder