CN114416786A - 流数据的处理方法、装置、存储介质及计算机设备 - Google Patents

流数据的处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114416786A
CN114416786A CN202111493756.0A CN202111493756A CN114416786A CN 114416786 A CN114416786 A CN 114416786A CN 202111493756 A CN202111493756 A CN 202111493756A CN 114416786 A CN114416786 A CN 114416786A
Authority
CN
China
Prior art keywords
records
clustering
result
probability
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111493756.0A
Other languages
English (en)
Inventor
刘俊龙
申晨
沈旭
黄建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111493756.0A priority Critical patent/CN114416786A/zh
Publication of CN114416786A publication Critical patent/CN114416786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种流数据的处理方法、装置、存储介质及计算机设备。其中,该方法包括:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。本发明解决了相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。

Description

流数据的处理方法、装置、存储介质及计算机设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种流数据的处理方法、装置、存储介质及计算机设备。
背景技术
在道路交通的场景中,需要对城市摄像头的流数据进行实时解析,得到人/机动车/非机动车的解析结果,例如,特征向量以及属性等信息,然后对这些解析结果进行批次聚类,和车辆数据库/人员数据库进行比对归档。但是相关技术中,数据流通过多批次聚类后得到的类别,当出现类别漂移、精度下降等等现象时,往往难以察觉。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种流数据的处理方法、装置、存储介质及计算机设备,以至少解决相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
根据本发明实施例的一个方面,提供了一种流数据的处理方法,包括:解析流数据,生成解析结果;对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;基于所述任意两条或多条记录均属于目标记录的概率,对任意一个所述聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,包括:从所述聚类结果中进行采样,得到满足预定条目数的待评估记录;按照预定的分割方式将所述预定条目数的待评估记录进行分割,分割得到所述聚类结果中的多个子类;将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;基于每个子类中包含的每个记录的匹配概率,确定所述每个子类中归属于所述目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
可选地,通过如下任意一种或多种方式从所述聚类结果中采样得到满足预定条目数的待评估记录:从所述聚类结果中随机抽取所述预定条目数的记录作为所述待评估记录;按时空分布从所述聚类结果中抽取所述预定条目数的记录作为所述待评估记录;按照所述聚类结果中每条记录的特征向量计算每条记录的最近近邻的至少一条记录,并从中选取所述预定条目数的记录作为所述待评估记录,其中,选取得到的所述预定条目数的记录的近邻记录组成的集合超过预定数量级。
可选地,在确定所述每个子类中归属于所述目标记录的记录的概率之后,所述方法还包括:统计所述每个子类中归属于所述目标记录的记录个数,并确定所述每个子类中未归属于所述目标记录的样本记录;将所述每个子类中未归属于所述目标记录的样本记录进行融合处理。
可选地,对所述解析结果进行分批次聚类,得到多个批次的聚类结果,包括:按照时间戳将所述解析结果进行切分,得到至少一个批次的分类结果;对每个批次的分类结果分别进行聚类,获取所述多个批次的聚类结果。
根据本发明实施例的另一个方面,提供了一种流数据的处理方法,包括:解析流数据,生成解析结果;对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;从任意一个所述聚类结果中确定类中心,其中,所述类中心用于表征待归属的类的属性;基于所述类中心,将任意一个所述聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;对任意一个二次聚类后的聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
根据本发明实施例的另一个方面,提供了一种流数据的处理方法,包括:如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,所述视图流数据包括:视频流数据和/或图片流数据;在交互界面上展示对所述视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果之前,所述方法还包括:对任意一个所述聚类结果中包含的一条或多条视图记录进行评估,确定任意两条或多条视图记录中包含了相同目标对象的概率;基于所述任意两条或多条视图记录中具有相同目标对象的概率,对所述任意一个所述聚类结果进行优化处理。
根据本发明实施例的另一个方面,提供了一种流数据的处理装置,包括:第一解析模块,用于解析流数据,生成解析结果;第一聚类模块,用于对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;评估模块,用于对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;第一优化模块,用于基于所述任意两条或多条记录均属于目标记录的概率,对任意一个所述聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,所述评估模块包括:采样模块,用于从所述聚类结果中进行采样,得到满足预定条目数的待评估记录;分割模块,用于按照预定的分割方式将所述预定条目数的待评估记录进行分割,分割得到所述聚类结果中的多个子类;匹配模块,用于将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;第一确定模块,用于基于每个子类中包含的每个记录的匹配概率,确定所述每个子类中归属于所述目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
根据本发明实施例的另一个方面,提供了一种流数据的处理装置,包括:第二解析模块,用于解析流数据,生成解析结果;第二聚类模块,用于对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;第二确定模块,用于从任意一个所述聚类结果中确定类中心,其中,所述类中心用于表征待归属的类的属性;第三聚类模块,用于基于所述类中心,将任意一个所述聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;第二优化模块,用于对任意一个二次聚类后的聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
根据本发明实施例的另一个方面,提供了一种流数据的处理装置,其特征在于,包括:解析模块,用于如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,所述视图流数据包括:视频流数据和/或图片流数据;第一展示模块,用于在交互界面上展示对所述视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;第二展示模块,用于在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
根据本发明实施例的另一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的流数据的处理方法。
根据本发明实施例的一个方面,提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的流数据的处理方法。
在本发明实施例中,对解析流数据生成的解析结果进行分批次聚类,得到多个批次的聚类结果后,对多个批次的聚类结果中的任意一条记录进行评估,达到了确定出每条记录属于目标记录的概率的目的,而且,还可以基于任意两条或多条记录均属于目标记录的概率,起到对任意一个聚类结果进行拆分、合并、删除和替换的优化处理的效果,进而解决了相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现流数据的处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例1的流数据的处理方法一的流程图;
图3是根据本发明实施例1的流数据的处理方法二的流程图;
图4是根据本发明实施例1的流数据的处理方法三的流程图;
图5是本发明可选实施方式提供的不同情形下估计目标数的示意图;
图6是本发明可选实施方式提供的边匹配概率与匹配概率的示意图;
图7是根据本发明实施例2提供的流数据的处理装置一的结构框图;
图8是根据本发明实施例3提供的流数据的处理装置二的结构框图;
图9是根据本发明实施例4提供的流数据的处理装置三的结构框图;
图10是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
聚类:将若干结构化记录按照某种类别定义聚成多个集合的过程,即将物理或抽象对象的集合分成有类似的对象组成的多个类的过程;
多批次聚类:在流数据场景,需要根据时间切分批次不断进行聚类,以及前后批次聚类结果的合并;
概率采样:根据某种概率密度定义进行采样,以得到采样序列结果,其分布与真实分布接近;
类评估:根据类别定义对类内元素是否属于同一类进行质量评估,通常一个类内包含的真实类别个数(理想状态为1),以及各记录属于同一类的最大占比,是比较常用的类内质量评估;
视图解析:视频流/图片流解析结果,包含人体/车辆小图抽取得到的特征向量、属性等等;
特征向量:对图片计算的一维数组,通常两个图片的相似度可以通过两者的特征向量计算欧式距离得到;
匹配概率:任意两条记录为同一类的概率。在人体图片的场景下,即当两张人体的特征向量为d时两者为同一人的概率,可通过标注数据统计或学习得到;
指示函数:字母I代表指示函数,I(True)=1,,I(False)=0。
实施例1
根据本发明实施例,还提供了一种流数据的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现流数据的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他流数据的处理电路在本文中通常可以被称为“流数据的处理电路”。该流数据的处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,流数据的处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该流数据的处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的流数据的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及流数据的处理,即实现上述的应用程序的流数据的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的流数据的处理方法。图2是根据本发明实施例1的流数据的处理方法一的流程图,如图2所示,该方法包括如下步骤:
步骤S202,解析流数据,生成解析结果;
步骤S204,对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
步骤S206,对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;
步骤S208,基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
通过上述步骤,对解析流数据生成的解析结果进行分批次聚类,得到多个批次的聚类结果后,对多个批次的聚类结果中的任意一条记录进行评估,达到了确定出任意两条或多条记录均属于目标记录的概率的目的,而且,还可以基于任意两条或多条记录均属于目标记录的概率,起到对任意一个聚类结果进行拆分、合并、删除和替换的优化处理的效果,进而解决了相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
需要说明的是,流数据可以包括多种流数据,在不同的场景中包括的流数据不应相同,例如,在城市交通的场景中,基于摄像头,获取的流数据可以是视频流数据;在电商场景中,也可以是商品流数据等等。解析结果根据流数据的不同而不同。例如,在道路交通的场景中,基于摄像头,获取视频流数据时,得到的解析结果为视图解析结果。
作为一种可选的实施例,解析流数据,生成解析结果。其中,解析结果包括对流数据解析得到的目标对象的向量特征和属性等等。在不同的场景中,依据流数据的不同,所解析的目标对象也不同。例如,在道路交通的场景中,目标对象可能为车辆、人体等。通过对流数据进行解析,生成解析结果,以便能够根据解析结果中包括的向量特征进行分批次聚类,能够保证准确、有效地进行分批次聚类操作。
作为一种可选的实施例,以道路交通的场景为例,时时刻刻都会有流数据的产生,为了更好地分析各时段的流数据,以及为了减少对大量的解析结果进行处理的工作量,因此需要对流数据解析得到的解析结果进行分批次的聚类处理,以便高效地基于视频解析结果分析出聚类结果。通过对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率。即在不同的批次中,能够得到包括任意两条记录之间的匹配概率的聚类结果。匹配概率越高,认为两条记录越相似,通过获取任意两条记录之间的匹配概率,能够更加清楚地了解到记录与记录之间的相似关系,进而能够了解到聚类处理的质量好坏,科学评估多批次聚类的质量。
作为一种可选的实施例,在进行分批次的聚类处理时,可以按照多种方式进行分批次的切分,例如,按照时间戳将解析结果进行切分,得到至少一个批次的分类结果。按照时间戳将解析结果进行切分,不仅更好地分析各时间戳下的解析结果,而且能够减少对大量的解析结果进行处理的工作量,进而对每个批次的分类结果分别进行聚类,获取多个批次的聚类结果。
作为一种可选的实施例,对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,即对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意一个聚类结果包含的至少两条记录以及任意两条记录之间的匹配概率属于目标记录的概率。即判断聚类结果中包括的一条或多条记录与目标记录的相似性。当记录评估的结果属于目标记录的概率越高,认为该记录与目标记录越相似。需要说明的是,在确定概率时,可以根据视图特征结果中的特征向量计算得到。在对任意一个聚类结果中包含的一条或多条记录进行评估时,存在聚类结果中包括的记录条数众多的情况,在该情况下,可以从聚类结果中进行采样,得到满足预定条目数的待评估记录,以提高系统运行的效率,降低工作量。在得到满足预定条目数的待评估记录后,按照预定的分割方式将预定条目数的待评估记录进行分割,分割得到聚类结果中的多个子类。即通过预定的分割方式将待评估记录进行多种可能性的划分,多个子类表示该记录与目标记录之间可能存在的多个可能性结果。通过分割得到聚类结果中的多个子类,将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率,进而能够基于每个子类中包含的每个记录的匹配概率,确定每个子类中归属于目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。能够更加准确地判断出各记录属于预定目标的概率,从而更为有效地反映出多批次聚类的质量。
作为一种可选的实施例,通过对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,还可以通过不断地采样,更精确的评估出聚类结果的质量。通过不断采样,每个回合都可以得到聚类结果中包含的一条或多条记录属于何种类别的采样结果。采样结果可以统计聚类结果中包含的一条或多条记录属于目标记录的概率,其中,概率可以通过次数占比的形式表示出来,即可得到多批次聚类结果的不同目标数估计分布,从而更为有效地反映出多批次聚类的质量。
作为一种可选的实施例,在得到满足预定条目数的待评估记录时,可以通过如下任意一种或多种方式,例如:从聚类结果中随机抽取预定条目数的记录作为待评估记录;按时空分布从聚类结果中抽取预定条目数的记录作为待评估记录;按照聚类结果中每条记录的特征向量计算每条记录的最近近邻的至少一条记录,并从中选取预定条目数的记录作为待评估记录,其中,选取得到的预定条目数的记录的近邻记录组成的集合超过预定数量级。即假设要选m条记录,按照每条记录的特征向量计算每条记录的最近近邻的K条记录,再选取m条记录,使得这m条的K近邻记录组成的集合尽可能大。通过设置不同的待评估记录的选取方式,能够在不同的应用与场景中,可以相应选择选取预定条目数的待评估记录的方法,使得待评估记录的选取能够更加灵活,更具适用性。
作为一种可选的实施例,确定每个子类中归属于目标记录的记录的概率之后,还可以包括如下步骤:统计每个子类中归属于目标记录的记录个数,并确定每个子类中未归属于目标记录的样本记录;将每个子类中未归属于目标记录的样本记录进行融合处理。在进行融合处理时,可以根据最近邻内出现的选中记录的匹配概率进行融合计算。例如A记录未被选入采样集合,其近邻内存在B记录、C记录被选入采样集合,则A记录和目标的匹配概率可以从下述几个值取最大值:A记录和目标记录的直接匹配概率;A记录和B记录的匹配概率*B记录和目标记录的匹配概率;A记录和C记录的匹配概率*C记录和目标记录的匹配概率。通过对每个子类中未归属于目标记录的样本记录进行融合处理,相较于不处理目标机未归属于目标记录的样本记录的情况,能够更加更准确地得到匹配概率,并且减少记录损失。
作为一种可选的实施例,基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。任意两条或多条记录均属于目标记录的概率能够反映出多批次聚类的质量,基于反映出的多批次聚类的质量好坏,以便对聚类结果进行拆分、合并、删除和替换等的优化处理。进一步的,对任意一个聚类结果进行优化处理时,可以通过人机协同的方式进行处理,可以进一步快速地对聚类结果进行处理,以实现多批次聚类的高精度,高归类率。
图3是根据本发明实施例1的流数据的处理方法二的流程图,如图3所示,该方法包括如下步骤:
步骤S302,解析流数据,生成解析结果;
步骤S304,对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
步骤S306,从任意一个聚类结果中确定类中心,其中,类中心用于表征待归属的类的属性;
步骤S308,基于类中心,将任意一个聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;
步骤S310,对任意一个二次聚类后的聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
通过上述步骤,对解析流数据生成的解析结果进行分批次聚类,得到多个批次的聚类结果后,从任意一个聚类结果中确定出表征待回归的类的属性的类中心,以便基于类中心,将任意一个聚类结果中归属于同一类的记录进行二次聚类,因为二次聚类后的聚类结果中的记录的属性相同,因此达到了聚类属性相同的记录的目的,而且,还可以对任意一个二次聚类后的聚类结果拆分、合并、删除和替换的优化处理,解决了相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
图4是根据本发明实施例1的流数据的处理方法三的流程图,如图4所示,该方法包括如下步骤:
步骤S402,如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,视图流数据包括:视频流数据和/或图片流数据;
步骤S404,在交互界面上展示对视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;
步骤S406,在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
通过上述步骤,在城市评估系统的交互界面上检测到评估指令的情况下,解析采集到的包括视频流数据和/或图片流数据的视图流程数据,生成视图解析结果,对视图解析结果进行分批次聚类,能够在交互界面上展示对视图解析结果进行分批次聚类后得到的多个批次的聚类结果,而且,对任意一个聚类结果进行拆分、合并、删除和替换等的优化处理,进而解决了相关技术中在进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
基于上述实施例及可选实施例,提供一种可选实施方式,下面具体说明。
相关技术中存在对流数据进行多批次聚类处理时,难以确定聚类处理质量的技术问题。
基于此,在本发明可选实施方式中,提供了一种基于概率采样的多批次聚类评估方法,基于人体图像的场景,以视频流数据,以及视图解析结果为例。下面对本发明可选实施方式进行详细说明。
S1,获取多批次/单批次聚类结果,其中,聚类结果是对视频流数据解析生成的视图解析结果进行分批次聚类得到的;
S2,对于每个类别,提取一定批次范围内的所有记录;
S3,选取类别内的m条记录;
需要说明的是,可以根据实际应用与场景的需求,选用不同的方式选取类别内的m条记录。例如可以通过如下几种方式:1)类别内记录数量>m,则随机抽取m条记录;2)按时空特征分布抽取m条记录;3)按照特征向量计算每条记录的最近近邻的K条记录;再选取m条记录使得这m条的K近邻记录组成的集合尽可能大。
S4,假设类别内最终选取N条记录,存在分割方式π,将类内记录分割成多个子类,定义π发生的概率密度为:
Figure BDA0003399380850000111
其中,I为指示函数,π={zi},zi表示第i条记录所属子类别,Ω为归一化因子。此时,类别内子类数量的期望值为:φ(X)=∑nP(X,π)×|π|。
需要说明的是,对于本发明可选实施方式中的π,初始化π为
Figure BDA0003399380850000112
即全为同一类,通过不断进行概率密度采样(Gibbs采样),进而能够为不同的值。概率密度采样公式如下:
Figure BDA0003399380850000121
Figure BDA0003399380850000122
其中,
Figure BDA0003399380850000123
可选范围为新类α/K近邻记录所属的类别集合
Figure BDA0003399380850000124
S5,假设循环采样T次,根据采样结果,类别内的人数可以估计为:
Figure BDA0003399380850000125
其中,|πt|表示
Figure BDA0003399380850000126
内不同元素的个数,即不同子类的数量。由于计算资源的限制,采样次数不能取无限大,可根据N的大小进行调节,最后人数估计可以选取后半部分已经平稳采样的结果进行统计。
S6,根据采样结果,可以估计各条记录和目标记录的图匹配概率:
Figure BDA0003399380850000127
同样地,由于计算资源的限制,采样次数不能取无限大,可根据N的大小进行调节,最后人数估计可以选取后半部分已经平稳采样的结果进行统计。
S7,得到多/单批次聚类结果的各类别包含目标个数估计,以及类内记录属于目标的图匹配概率。其余未选中进行采样的样本,可以根据最近邻内出现的选中记录的匹配概率进行融合计算。例如A记录未被选入采样集合,其近邻内存在B记录、C记录被选入采样集合,则A记录和目标的匹配概率可以从下述几个值取最大值:A记录和目标记录的直接匹配概率;A记录和B记录的匹配概率*B记录和目标记录的图匹配概率;A记录和C记录的匹配概率*C记录和目标记录的图匹配概率。
需要说明的是,本发明可选实施方式主要写了类内评估,对于类间的评估,方法是类似的,可以依据具体的指标进行类分裂的量化数据。即将可疑为同一目标的类别当成同一类别进行概率密度采样,若估计不同目标数接近为1,则可以判定2类为同一类。
举例说明,图5是本发明可选实施方式提供的不同情形下估计目标数的示意图,如图5所示,图5中上边的边匹配概率的四种情形表示多批次聚类后的某大类别分别有2、3、3、3条记录,其中,每个点表示一条记录,每条边表示两条记录间的匹配概率。通过上述边匹配概率,能够得到估计不同目标数的结果。
以图5中边匹配概率的第一种情形为例,有2条记录,即指的是该类别的第一批次有2张图片,两张图片为同一人的概率为0.85,存在分割方式π,此时,π有2种分割方式,即有两种可能性:同一人[0,0],非同一人[0,1],对应的概率密度P(X,π)分别为0.85、0.15,故类别内子类数量的期望值,在这里指的是该类别的第一批次中估计不同目标数=0.85*1+0.15*2=1.15。根据采样,可以得出图5中边匹配概率的情形中,同一类别不同批次的估计人数分别为1.149/1.382/2.141/1.099。即采样得出的该类别的第一批次中估计不同目标数为1.149,采用本发明可选实施方式提供的方法计算出的理论的第一批次中估计不同目标数为1.15。因此,验证了本发明可选实施方式提供的方法的有效性与准确性。
图5中还包括了4种100条图片记录对匹配概率的情形,两两之间的匹配概率分别为0.5/0.51/0.60/0.70的情形下,根据采样,每个回合都可以得到一组图片属于类别的采样结果,该采样结果可以统计各图片和目标图片为同一类的次数占比(即为匹配概率),统计各回合内的不同类占比,可以得出图5中图片对匹配概率的情形中,同一类别不同批次的估计人数分别为33.3/3.2/1.0/1.0,得到多批次聚类结果的不同目标数估计分布。
图6是本发明可选实施方式提供的边匹配概率与图匹配概率的示意图,如图6所示,上面4种情形表示多批次聚类后的某大类别分别有2、3、3、3条记录,每个点表示一条记录,每条边表示两条记录间的匹配概率。依据边匹配概率以及本发明可选实施方式提供的方法可以计算整个相似度图背景下的不同点之间的匹配概率,概率结果如图6下面的4种情形所示。
通过上述可选实施方式,可以达到以下有益效果:
(1)合理评估多批次聚类结果里各类别包含的不同目标数量,以及各记录属于预定目标的概率,科学评估多批次聚类的质量;
(2)可以直接识别可能的垃圾类、噪音类、噪音记录;
(3)支持类别的分拆、合并、删除、替换等优化操作。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的流数据的处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述流数据的处理方法一的装置,图7是根据本发明实施例2提供的流数据的处理装置一的结构框图,如图7所示,该装置包括:第一解析模块702,第一聚类模块704,评估模块706和第一优化模块708,下面对该装置进行说明。
第一解析模块702,用于解析流数据,生成解析结果;第一聚类模块704,连接于上述第一解析模块702,用于对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;评估模块706,连接于上述第一聚类模块704,用于对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;第一优化模块708,连接于上述评估模块706,用于基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
此处需要说明的是,上述第一解析模块702,第一聚类模块704,评估模块706和第一优化模块708,对应于实施例1中的步骤S202至步骤S208,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例3
根据本发明实施例,还提供了一种用于实施上述流数据的处理方法二的装置,图8是根据本发明实施例3提供的流数据的处理装置二的结构框图,如图8所示,该装置包括:第二解析模块802,第二聚类模块804,第二确定模块806,第三聚类模块808和第二优化模块810,下面对该装置进行说明。
第二解析模块802,用于解析流数据,生成解析结果;第二聚类模块804,连接于上述第二解析模块802,用于对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;第二确定模块806,连接于上述第二聚类模块804,用于从任意一个聚类结果中确定类中心,其中,类中心用于表征待归属的类的属性;第三聚类模块808,连接于上述第二确定模块806,用于基于类中心,将任意一个聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;第二优化模块810,连接于上述第三聚类模块808,用于对任意一个二次聚类后的聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
此处需要说明的是,上述第二解析模块802,第二聚类模块804,第二确定模块806,第三聚类模块808和第二优化模块810,对应于实施例1中的步骤S302至步骤S310,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例4
根据本发明实施例,还提供了一种用于实施上述流数据的处理方法三的装置,图9是根据本发明实施例4提供的流数据的处理装置三的结构框图,如图9所示,该装置包括:解析模块902,第一展示模块904和第二展示模块906,下面对该装置进行说明。
解析模块902,用于如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,视图流数据包括:视频流数据和/或图片流数据;第一展示模块904,连接于上述解析模块902,用于在交互界面上展示对视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;第二展示模块906,连接于上述第一展示模块904,用于在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
此处需要说明的是,上述解析模块902,第一展示模块904和第二展示模块906,对应于实施例1中的步骤S402至步骤S406,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的流数据的处理方法中以下步骤的程序代码:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,图10是根据本发明实施例的一种计算机终端的结构框图。如图10所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器101、存储器102。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的流数据的处理检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及流数据的处理,即实现上述的流数据的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选的,上述处理器还可以执行如下步骤的程序代码:对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,包括:从聚类结果中进行采样,得到满足预定条目数的待评估记录;按照预定的分割方式将预定条目数的待评估记录进行分割,分割得到聚类结果中的多个子类;将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;基于每个子类中包含的每个记录的匹配概率,确定每个子类中归属于目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
可选的,上述处理器还可以执行如下步骤的程序代码:通过如下任意一种或多种方式从聚类结果中采样得到满足预定条目数的待评估记录:从聚类结果中随机抽取预定条目数的记录作为待评估记录;按时空分布从聚类结果中抽取预定条目数的记录作为待评估记录;按照聚类结果中每条记录的特征向量计算每条记录的最近近邻的至少一条记录,并从中选取预定条目数的记录作为待评估记录,其中,选取得到的预定条目数的记录的近邻记录组成的集合超过预定数量级。
可选的,上述处理器还可以执行如下步骤的程序代码:在确定每个子类中归属于目标记录的记录的概率之后,方法还包括:统计每个子类中归属于目标记录的记录个数,并确定每个子类中未归属于目标记录的样本记录;将每个子类中未归属于目标记录的样本记录进行融合处理。
可选的,上述处理器还可以执行如下步骤的程序代码:对解析结果进行分批次聚类,得到多个批次的聚类结果,包括:按照时间戳将解析结果进行切分,得到至少一个批次的分类结果;对每个批次的分类结果分别进行聚类,获取多个批次的聚类结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;从任意一个聚类结果中确定类中心,其中,类中心用于表征待归属的类的属性;基于类中心,将任意一个聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;对任意一个二次聚类后的聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,视图流数据包括:视频流数据和/或图片流数据;在交互界面上展示对视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选的,上述处理器还可以执行如下步骤的程序代码:在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果之前,方法还包括:对任意一个聚类结果中包含的一条或多条视图记录进行评估,确定任意两条或多条视图记录中包含了相同目标对象的概率;基于任意两条或多条视图记录中具有相同目标对象的概率,对任意一个聚类结果进行优化处理。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的流数据的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;基于任意两条或多条记录均属于目标记录的概率,对任意一个聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对任意一个聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,包括:从聚类结果中进行采样,得到满足预定条目数的待评估记录;按照预定的分割方式将预定条目数的待评估记录进行分割,分割得到聚类结果中的多个子类;将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;基于每个子类中包含的每个记录的匹配概率,确定每个子类中归属于目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过如下任意一种或多种方式从聚类结果中采样得到满足预定条目数的待评估记录:从聚类结果中随机抽取预定条目数的记录作为待评估记录;按时空分布从聚类结果中抽取预定条目数的记录作为待评估记录;按照聚类结果中每条记录的特征向量计算每条记录的最近近邻的至少一条记录,并从中选取预定条目数的记录作为待评估记录,其中,选取得到的预定条目数的记录的近邻记录组成的集合超过预定数量级。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在确定每个子类中归属于目标记录的记录的概率之后,方法还包括:统计每个子类中归属于目标记录的记录个数,并确定每个子类中未归属于目标记录的样本记录;将每个子类中未归属于目标记录的样本记录进行融合处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对解析结果进行分批次聚类,得到多个批次的聚类结果,包括:按照时间戳将解析结果进行切分,得到至少一个批次的分类结果;对每个批次的分类结果分别进行聚类,获取多个批次的聚类结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:解析流数据,生成解析结果;对解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;从任意一个聚类结果中确定类中心,其中,类中心用于表征待归属的类的属性;基于类中心,将任意一个聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;对任意一个二次聚类后的聚类结果进行优化处理,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,视图流数据包括:视频流数据和/或图片流数据;在交互界面上展示对视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果之前,方法还包括:对任意一个聚类结果中包含的一条或多条视图记录进行评估,确定任意两条或多条视图记录中包含了相同目标对象的概率;基于任意两条或多条视图记录中具有相同目标对象的概率,对任意一个聚类结果进行优化处理。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种流数据的处理方法,其特征在于,包括:
解析流数据,生成解析结果;
对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;
基于所述任意两条或多条记录均属于目标记录的概率,对任意一个所述聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
2.根据权利要求1所述的方法,其特征在于,对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率,包括:
从所述聚类结果中进行采样,得到满足预定条目数的待评估记录;
按照预定的分割方式将所述预定条目数的待评估记录进行分割,分割得到所述聚类结果中的多个子类;
将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;
基于每个子类中包含的每个记录的匹配概率,确定所述每个子类中归属于所述目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
3.根据权利要求2所述的方法,其特征在于,通过如下任意一种或多种方式从所述聚类结果中采样得到满足预定条目数的待评估记录:
从所述聚类结果中随机抽取所述预定条目数的记录作为所述待评估记录;
按时空分布从所述聚类结果中抽取所述预定条目数的记录作为所述待评估记录;
按照所述聚类结果中每条记录的特征向量计算每条记录的最近近邻的至少一条记录,并从中选取所述预定条目数的记录作为所述待评估记录,其中,选取得到的所述预定条目数的记录的近邻记录组成的集合超过预定数量级。
4.根据权利要求2所述的方法,其特征在于,在确定所述每个子类中归属于所述目标记录的记录的概率之后,所述方法还包括:
统计所述每个子类中归属于所述目标记录的记录个数,并确定所述每个子类中未归属于所述目标记录的样本记录;
将所述每个子类中未归属于所述目标记录的样本记录进行融合处理。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,对所述解析结果进行分批次聚类,得到多个批次的聚类结果,包括:
按照时间戳将所述解析结果进行切分,得到至少一个批次的分类结果;
对每个批次的分类结果分别进行聚类,获取所述多个批次的聚类结果。
6.一种流数据的处理方法,其特征在于,包括:
解析流数据,生成解析结果;
对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
从任意一个所述聚类结果中确定类中心,其中,所述类中心用于表征待归属的类的属性;
基于所述类中心,将任意一个所述聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;
对任意一个二次聚类后的聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
7.一种流数据的处理方法,其特征在于,包括:
如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,所述视图流数据包括:视频流数据和/或图片流数据;
在交互界面上展示对所述视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;
在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
8.根据权利要求7所述的方法,其特征在于,在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果之前,所述方法还包括:
对任意一个所述聚类结果中包含的一条或多条视图记录进行评估,确定任意两条或多条视图记录中包含了相同目标对象的概率;
基于所述任意两条或多条视图记录中具有相同目标对象的概率,对所述任意一个所述聚类结果进行优化处理。
9.一种流数据的处理装置,其特征在于,包括:
第一解析模块,用于解析流数据,生成解析结果;
第一聚类模块,用于对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
评估模块,用于对任意一个所述聚类结果中包含的一条或多条记录进行评估,确定任意两条或多条记录均属于目标记录的概率;
第一优化模块,用于基于所述任意两条或多条记录均属于目标记录的概率,对任意一个所述聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
10.根据权利要求9所述的装置,其特征在于,所述评估模块包括:
采样模块,用于从所述聚类结果中进行采样,得到满足预定条目数的待评估记录;
分割模块,用于按照预定的分割方式将所述预定条目数的待评估记录进行分割,分割得到所述聚类结果中的多个子类;
匹配模块,用于将每个子类中包含的记录与目标记录进行匹配,获取每个子类中包含的每个记录的匹配概率;
第一确定模块,用于基于每个子类中包含的每个记录的匹配概率,确定所述每个子类中归属于所述目标记录的记录的概率,其中,概率高于阀值的记录归属于同一类型。
11.一种流数据的处理装置,其特征在于,包括:
第二解析模块,用于解析流数据,生成解析结果;
第二聚类模块,用于对所述解析结果进行分批次聚类,得到多个批次的聚类结果,其中,每个批次的聚类结果中包含:至少两条记录以及任意两条记录之间的匹配概率;
第二确定模块,用于从任意一个所述聚类结果中确定类中心,其中,所述类中心用于表征待归属的类的属性;
第三聚类模块,用于基于所述类中心,将任意一个所述聚类结果中归属于同一类的记录进行二次聚类,其中,二次聚类后的聚类结果中的记录的属性相同;
第二优化模块,用于对任意一个二次聚类后的聚类结果进行优化处理,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
12.一种流数据的处理装置,其特征在于,包括:
解析模块,用于如果城市评估系统的交互界面上检测到评估指令,解析采集到的视图流程数据,生成视图解析结果,其中,所述视图流数据包括:视频流数据和/或图片流数据;
第一展示模块,用于在交互界面上展示对所述视图解析结果进行分批次聚类后得到的多个批次的聚类结果,其中,每个批次的聚类结果中包括:至少两条具有相同背景的视图记录,以及任意两条视图记录之间的匹配概率;
第二展示模块,用于在所述交互界面上展示对一个或多个批次的聚类结果进行优化处理的结果,其中,所述优化处理包括如下任意一种或多种方式:拆分、合并、删除和替换。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的流数据的处理方法。
14.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至8中任意一项所述的流数据的处理方法。
CN202111493756.0A 2021-12-08 2021-12-08 流数据的处理方法、装置、存储介质及计算机设备 Pending CN114416786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111493756.0A CN114416786A (zh) 2021-12-08 2021-12-08 流数据的处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111493756.0A CN114416786A (zh) 2021-12-08 2021-12-08 流数据的处理方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN114416786A true CN114416786A (zh) 2022-04-29

Family

ID=81266274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111493756.0A Pending CN114416786A (zh) 2021-12-08 2021-12-08 流数据的处理方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114416786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置
CN115019078B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 车辆图像处理方法、计算设备及存储介质

Similar Documents

Publication Publication Date Title
US11004129B2 (en) Image processing
CN109284729B (zh) 基于视频获取人脸识别模型训练数据的方法、装置和介质
CN116188821B (zh) 版权检测方法、系统、电子设备和存储介质
CN110852231A (zh) 违规视频检测方法、装置以及存储介质
CN110837581B (zh) 视频舆情分析的方法、装置以及存储介质
CN110941978B (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN111783743A (zh) 一种图像聚类方法及装置
CN115631122A (zh) 一种用于边缘图像算法的图像优化方法及装置
CN111177436A (zh) 一种人脸特征检索方法、装置及设备
CN113886711B (zh) 内容推荐方法、装置、服务器及存储介质
CN114416786A (zh) 流数据的处理方法、装置、存储介质及计算机设备
CN114741544A (zh) 图像检索方法、检索库构建方法、装置、电子设备及介质
CN114356212A (zh) 数据处理方法、系统及计算机可读存储介质
CN117150138B (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN112836124A (zh) 一种画像数据获取方法、装置、电子设备及存储介质
CN112583900A (zh) 云计算的数据处理方法及相关产品
CN113626647A (zh) 一种智慧小区的数据保存方法及系统
CN113627542A (zh) 一种事件信息处理方法、服务器及存储介质
CN105635750A (zh) 频道识别方法及装置
CN111274431A (zh) 一种图像检索处理方法及装置
CN111918137B (zh) 一种基于视频特征的推送方法、装置、存储介质及终端
CN118071466B (zh) 一种基于用户特征的电商产品精准推送方法及系统
CN114282531A (zh) 一种题目检测方法、装置、电子设备和存储介质
CN114863410A (zh) 一种场景图像文本生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination