具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都包含于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种大数据采集系统的网络架构的结构示意图。如图1所示,所述大数据采集系统可以包括服务器100和业务数据终端集群,业务数据终端集群可以包括多个业务数据终端200。所述服务器100与所述业务数据终端200通信连接,用于从所述业务数据终端200采集各业务数据终端200产生的业务数据,实现大数据的采集。这里将不对业务数据终端200的数量进行限制,各业务数据终端200均可以与服务器100进行通信连接,以便于与服务器100之间进行数据交互。
如图1所示的服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,也可以是提供云服务、云存储、云计算、云通信、云安全服务、以及大数据和人工智能平台等云计算服务的云服务器。业务数据终端可以是智能手机、平板电脑、笔记本电脑、个人计算机等能够使用所述服务器100或其他第三方平台提供的服务而产生的相应的业务数据的智能终端。
请参阅图2,图2是所述服务器100的示意图。本实施例中,所述服务器100用于实现本发明实施例提供的用于人工智能机器学习的业务大数据采集方法。本实施例中,所述服务器100可以包括大数据采集装置110、机器可读存储介质120和处理器130。
可替代地,机器可读存储介质120与处理器130可以位于服务器100中并分离设置,或者机器可读存储介质120和处理器130也可以是独立于服务器100之外。所述机器可读存储介质120可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
处理器130是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块,以及调用存储在机器可读存储介质120内的数据,执行该服务器100的各种功能和处理数据,从而对服务器100进行整体监控。可选地,处理器130可包括一个或多个处理核心。例如,处理器130可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC)等。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其它类型的静态存储设备,RAM或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以实现本发明提供的大数据采集方法。
请参见图3,图3是本发明实施例提供的用于人工智能机器学习的业务大数据采集方法的流程示意图,该用于人工智能机器学习的业务大数据采集方法可以有所述服务器100执行。可以理解,本发明实施例中所述描述的该方法的其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,下面对该用于人工智能机器学习的业务大数据采集方法的各实现步骤介绍如下。
步骤S31,针对预先设定的用于进行业务大数据采集的业务数据采集范围中产生的业务数据分别进行时域节点以及空域节点的节点数据采集,得到时空域节点数据。本实施例中,所述时空域节点数据包括所述业务数据采集范围中产生的时域节点数据和空域节点数据。
本实施例中,可以理解,所述业务数据采集范围可以是根据大数据采集任务预先确定的数据采集范围,例如可以是针对各业务数据终端的地理范围,如位于预设地理范围内的各业务数据终端所产生的业务数据均属于对应的数据采集范围;又或者,也可以是预先设置的隶属于特定的业务类型范围内的业务数据,具体不做限制。
其次,各业务数据携带时域信息则可以定位为时域节点数据,时域信息例如可以是,但不限于,业务数据产生的时间节点、业务执行流程时序、业务流程之间的先后顺序、业务流程之间的时间拓扑关系。各时域节点数据通过相应的时域关系关联规则进行拓扑关联之后则可以形成业务数据之间的时域拓扑网络,时域拓扑网络中的各节点则可被定义为时域节点。针对一些对时间敏感的业务数据,通过时域节点进行的业务数据采集得到的业务数据携带相应的时域信息,在后期进行机器学习以及模型训练时,可以考虑各业务数据的时域信息,使得后期机器学习或模型训练得到的结果能够得到更好的应用。例如,针对互联网金融、数字网络等领域对用户行为进行分析的业务数据,在对用户画像时,需要考虑各用户行为数据中的行为兴趣特征随时间衰减的因素,因此需要对各数据在时域维度进行数据采集。
相应地,各业务数据携带空域信息则可以定位为空域节点数据,空域信息例如可以是,但不限于,业务数据产生的空间节点(具体可以对应数据采集终端的位置信息,如IP地址、设备标识等)、业务数据产生对应的地理位置范围、数据业务所对应的服务范围等。各空域域节点数据通过相应的空域关系关联规则进行拓扑关联则可以形成业务数据之间的空域拓扑网络,空域拓扑网络中的各节点则可被定义为空域节点。针对一些对空间敏感的业务数据,通过空域节点进行的业务数据采集得到的业务数据携带相应的空域信息,在后期进行机器学习以及模型训练时,可以考虑各业务数据的空域信息,使得后期机器学习或模型训练得到的结果能够得到更好的应用。例如,针对相关领域需要考虑业务数据对应用户的经常活动范围、各业务类型的普遍应用场景、执行各业务类型对应的用户终端等对用户行为进行分析的业务数据,在对用户画像时,需要考虑各用户行为数据中的行为兴趣特征与空间的关联因素,因此需要对各数据在空域维度进行数据采集。如此,可通过时、空域两个数据维度对业务数据进行采集,并通过两个维度的相关性使得数据采集得到的业务数据流及相关信息能够更精准的反应业务数据的相关数据特征,有利于提升后期进行机器学习或人工智能模型训练的学习效果及应用效果。
步骤S32,对所述时空域节点数据进行拓扑融合分析,得到所述业务数据采集范围中的多个业务数据流和所述业务数据流对应的业务特征信息,并根据所述业务数据流和对应的业务特征信息得到业务数据流样本集合,以用于作为机器学习的业务数据学习样本进行机器学习。
请参阅图4,是上述步骤S32的子步骤流程图。在所述步骤S32中,所述对所述时空域节点数据进行拓扑融合分析,得到所述业务数据采集范围中的多个业务数据流和所述业务数据流对应的业务特征信息包括,具体的实现方案参照图4进行介绍。
子步骤S321,分别根据所述时空域节点数据中的时域节点数据和空域节点数据形成多个时域数据拓扑分布和多个空域数据拓扑分布。
本实施例中,可以按照预先设定的时域信息关联规则对所述时空域节点数据中包括的时域节点数据进行拓扑关联,形成多个时域数据拓扑分布。例如,时域信息关联规则可以根据各业务数据的执行流程、产生时序等预先进行设定。携带时域信息的大量的时域节点数据中,按照相应的时域信息关联规则,携带不同时域信息的时域节点数据会被拓扑关联到不同的分布群中,不同的分布群具有不同的拓扑分布节点,进行形成多个不同的时域数据拓扑分布。
相应地,也可以按照预先设定的空域信息关联规则对所述时空域节点数据中包括的空域节点数据进行拓扑关联,形成多个空域数据拓扑分布。例如,空域信息关联规则可以根据各业务数据的产生空间节点、所属的业务空间范围以及各范围之间的位置关系等预先进行设定。携带空域信息的大量的空域节点数据中,按照相应的空域信息关联规则,携带不同空域信息的空域节点数据会被拓扑关联到不同的分布群中,不同的分布群具有不同的拓扑分布节点,进行形成多个不同的空域数据拓扑分布。各不同的拓扑分布可以通过拓扑图的方式进行表达,具体不做限定。
子步骤S322,基于时域数据拓扑分布和空域数据拓扑分布之间的业务拓扑关系,对所述业务数据采集范围中产生的各时域数据拓扑分布和各空域数据拓扑分布进行拓扑融合,得到多个拓扑分布融合组。
本实施例中,每个拓扑分布融合组中的空域数据拓扑分布分别包括所述业务数据采集范围中的第二空域节点业务数据。所述业务拓扑关系可以是时域数据拓扑分布和空域数据拓扑分布各节点分别对应的业务数据之间的业务关联关系,例如可根据拓扑分布中各节点的业务数据对应的业务类型、用户信息、用户身份信息得到所述业务拓扑关系。如此,可将具有业务拓扑关系的时域数据拓扑分布和空域数据拓扑分布进行融合,得到对应的拓扑分布融合组。一个拓扑分布融合组包括至少一个时域数据拓扑分布和至少一个空域数据拓扑分布。
一种可替代的方式中,该子步骤S322可以通过以下方式实现:
首先,将所述业务数据采集范围中产生的各空域数据拓扑分布确定为局部空域拓扑分布,将所述业务数据采集范围中产生的各时域数据拓扑分布确定为局部时域拓扑分布;所述局部空域拓扑分布中的空域节点业务数据是针对所述业务数据采集范围的目标业务节点进行数据采集得到的;
然后,获取所述目标业务节点中的时域节点业务数据; 计算所述目标业务节点中的时域节点业务数据与所述局部时域拓扑分布中的各时域节点业务数据之间的业务数据关联参数,并根据计算得到的业务数据关联参数确定所述局部空域拓扑分布与所述局部时域拓扑分布之间的业务拓扑关系;
最后,当所述业务数据关联参数不小于预设关联参数阈值时,对所述局部空域拓扑分布和所述局部时域拓扑分布进行拓扑融合,得到所述多个拓扑分布融合组。如此,可以将局部时域拓扑分布分别与各业务节点(空域特征)产生的时域数据进行关联匹配,关联匹配的则进行拓扑融合,产生一个拓扑融合组。
子步骤S323,将未进行拓扑融合的空域数据拓扑分布确定为待处理空域数据拓扑分布,根据所述待处理空域数据拓扑分布包含的第一空域节点业务数据,获取所述待处理空域数据拓扑分布的第一拓扑分布描述信息。
本实施例中,可能会存在某些异常数据节点产生的空域节点数据会发生时域信息丢失或者为携带时域信息,这些空域节点数据产生的空域数据拓扑分布则可能无法匹配到相应的时域节点拓扑分布进行拓扑融合,那么则将该部分空域数据拓扑分布列为待处理空域数据拓扑分布,以进行后续的处理。举例而言,可以将待处理空域数据拓扑分布中所包括的空域节点业务数据,称之为第一空域节点业务数据,待处理空域数据拓扑分布中可以包括多个第一空域节点业务数据。然后,可以通过预先训练得到业务数据识别模型,提取每个第一空域节点业务数据的业务数据特征,该业务数据特征可以为一个业务数据描述信息。接着,可以对每个第一空域节点业务数据分别对应的业务数据描述信息进行组合,得到全部第一空域节点业务数据对应的全局业务特征信息。最后,可以将第一空域节点业务数据对应的全局业务特征信息,称之为第一全局业务特征信息。该第一全局业务特征信息也就是待处理空域数据拓扑分布的拓扑分布特征,因此,可以将第一全局业务特征信息称之为待处理空域数据拓扑分布的第一拓扑分布描述信息。
子步骤S324,根据所述每个拓扑分布融合组包括的第二空域节点业务数据,分别获取所述每个拓扑分布融合组中的空域数据拓扑分布的第二拓扑分布描述信息。
本实施例中,获取第二拓扑分布描述信息的方式可以参照第一拓扑分布描述信息的获取方式。例如,所述多个拓扑分布融合组可以包括拓扑分布融合组Ri,i不大于所述多个拓扑分布融合组的总数量;所述拓扑分布融合组Ri包括的第二空域节点业务数据的业务数据片段为多个。基于此,首先可以获取所述拓扑分布融合组Ri包括的多个第二空域节点业务数据中的每个第二空域节点业务数据分别对应的业务数据描述信息;然后根据所述每个第二空域节点业务数据分别对应的业务数据描述信息,获取所述多个第二空域节点业务数据对应的第二全局业务特征信息;最后将所述第二全局业务特征信息,确定为所述拓扑分布融合组Ri中的空域数据拓扑分布的第二拓扑分布描述信息。
子步骤S325,获取所述第一拓扑分布描述信息分别与所述每个拓扑分布融合组对应的第二拓扑分布描述信息之间的特征差异。
子步骤S326,根据所述每个拓扑分布融合组对应的特征差异,确定所述每个拓扑分布融合组中的空域数据拓扑分布分别与所述待处理空域数据拓扑分布之间的拓扑关联参数。
举例而言, 本实施例中,在得到待处理空域数据拓扑分布的第一拓扑分布描述信息和每个拓扑分布融合组中的空域数据拓扑分布的第二拓扑分布描述信息之后,可以获取第一拓扑分布描述信息分别与每个第二拓扑分布描述信息之间的特征差异,通过每个拓扑分布融合组对应的特征差异,即可得到待处理空域数据拓扑分布分别与每个拓扑分布融合组中的空域数据拓扑分布之间的拓扑关联参数。例如,特征差异越大,拓扑关联参数越小,特征差异越小,拓扑关联参数越大。因此,可以将每个拓扑分布融合组对应的特征差异的倒数,作为待处理空域数据拓扑分布分别与每个拓扑分布融合组中的空域数据拓扑分布之间的拓扑关联参数,当然拓扑关联参数不仅也可以是根据所述特征差异采取求取倒数之外的其它方式来得到,此处不做限定。
子步骤S327,统计拓扑关联参数不小于预设关联参数阈值的目标拓扑分布融合组,将所述目标拓扑分布融合组中的时域数据拓扑分布所包含的业务特征信息,确定为与所述待处理空域数据拓扑分布关联的业务特征信息。
子步骤S328,将与所述待处理空域数据拓扑分布关联的业务特征信息和所述待处理空域数据拓扑分布进行拓扑融合,得到所述待处理空域数据拓扑分布对应的特征拓扑融合组。
子步骤S329,根据所述特征拓扑融合组和所述多个拓扑分布融合组,确定所述业务数据采集范围中的业务数据流和所述业务数据流对应的业务特征信息。本实施例中,可以将一个拓扑分布融合组或一个拓扑分布融合组所包括的各业务数据作为一个对应的业务数据流,将业务数据流中各业务数据包括的与时空域相关的各特征信息提取为对应的业务特征信息。如此,未进行拓扑融合的待处理空域数据拓扑分布中的业务数据的相关信息也可以被提取出来,使得数据采集更全面更精准。
进一步地,本实施例综合功能,在上述步骤S31中,所述针对预先设定的用于进行业务大数据采集的业务数据采集范围中产生的业务数据分别进行时域节点以及空域节点的节点数据采集,得到时空域节点数据,具体的实现方式举例描述如下:
首先,获取所述业务数据采集范围中的多个时域节点业务数据和多个空域节点业务数据;
然后,获取所述多个时域节点业务数据之间的时域关联参数和时域特征差异,获取所述多个空域节点业务数据之间的空域关联参数和空域特征差异;
接着,根据所述时域关联参数和所述时域特征差异,对所述多个时域节点业务数据进行组合,得到所述业务数据采集范围中的时域数据拓扑分布;一个时域数据拓扑分布包括至少一个时域节点业务数据;
最后,根据所述空域关联参数和所述空域特征差异,对所述多个空域节点业务数据进行组合,得到所述业务数据采集范围中的空域数据拓扑分布;一个空域数据拓扑分布包括至少一个空域节点业务数据。
基于以上内容,所述时域特征差异和所述空域特征差异可以根据各业务数据的业务特征信息计算相应的时域特征向量和空域特征向量,然后由时域特征向量之间的向量距离表示所述时域特征差异,有空域特征向量之间的向量距离表示所述空域特征差异。
其次,在上述步骤S323中,当所述待处理空域数据拓扑分布的数量为多个,本发明所述的方法还可以执行以下步骤。
(a)当所述目标拓扑分布融合组的数量不大于所述第一预设值时,将与每个待处理空域数据拓扑分布之间的拓扑关联参数最大的空域数据拓扑分布所在的拓扑分布融合组,分别确定为所述每个待处理空域数据拓扑分布对应的候选拓扑融合组。
(b)将所述每个待处理空域数据拓扑分布对应的候选拓扑融合组中的时域数据拓扑分布所包含的业务特征信息,分别确定为所述每个待处理空域数据拓扑分布对应的候选业务特征信息。
(c)根据所述每个待处理空域数据拓扑分布对应的候选业务特征信息,确定预设目标业务特征信息对应的多个数据特征描述; 获取所述多个数据特征描述在多个拓扑分布融合组的时域数据拓扑分布所包含的业务特征信息中的第一统计结果。
(d)根据所述第一统计结果,确定所述每个待处理空域数据拓扑分布针对所述预设目标业务特征信息的第一目标数据特征描述。
(e)将分别具有所述每个待处理空域数据拓扑分布对应的第一目标数据特征描述的所述预设目标业务特征信息,确定为与所述每个待处理空域数据拓扑分布关联的业务特征信息;所述多个数据特征描述在与所述每个待处理空域数据拓扑分布关联的业务特征信息中的第二统计结果,等于所述第一统计结果。
(f)当所述目标拓扑分布融合组的数量大于所述第二预设值时,统计预设目标业务特征信息的多个数据特征描述在所述目标拓扑分布融合组的时域节点业务数据所包含的业务特征信息中的数量;所述多个数据特征描述,是根据所述目标拓扑分布融合组中的时域数据拓扑分布所包含的业务特征信息所确定的。
(g)根据所述待处理空域数据拓扑分布与所述目标拓扑分布融合组之间的拓扑关联参数、以及所述数量,从所述多个数据特征描述中,确定所述待处理空域数据拓扑分布针对所述预设目标业务特征信息的第二目标数据特征描述。
(f)将具有所述第二目标数据特征描述的所述预设目标业务特征信息,确定为与所述待处理空域数据拓扑分布关联的业务特征信息。
在上述内容的基础上,为了方便实现对采集后的数据信息的读写,本发明实施例还可以包括以下内容。
(1)将所述多个拓扑分布融合组中的时域数据拓扑分布所包含的业务特征信息,确定为所述多个拓扑分布融合组所包含的业务特征信息,将所述多个拓扑分布融合组和所述特征拓扑融合组中的每一个融合组,确定为所述业务数据采集范围中的目标拓扑融合组; 将所述目标拓扑融合组所包含的业务特征信息,确定为目标业务特征信息。
(2)为所述目标业务特征信息与所在的所述目标拓扑融合组中的空域数据拓扑分布添加相同的序列编号。
(3)将具有所述序列编号的所述目标业务特征信息,分别写入至第一数据区、第二数据区以及第三数据区。其中,所述第一数据区的数据读取速度大于所述第二数据区的数据读取速度;所述第二数据区的数据读取速度大于所述第三数据区的数据读取速度。所述第一数据区针对所述目标业务特征信息的信息写入量小于所述第二数据区针对所述目标业务特征信息的信息写入量;所述第二数据区针对所述目标业务特征信息的信息写入量,小于所述第三数据区针对所述目标业务特征信息的信息写入量。本实施例中,举例而言,所述第一数据区,可以是一个堆栈数据结构,例如FIFO队列。所述第二数据区和所述第三数据区分别可以是预设的数据库,例如REDIS数据库以及Mysql数据库。
基于上述内容,在上述的子步骤S329中,所述根据所述特征拓扑融合组和所述多个拓扑分布融合组,确定所述业务数据采集范围中的业务数据流和所述业务数据流对应的业务特征信息,一种可实现的方式如下:
首先,根据所述目标拓扑融合组中的空域数据拓扑分布,确定所述业务数据采集范围中的所述业务数据流;
然后,根据所述目标拓扑融合组中的空域数据拓扑分布所对应的所述序列编号,从所述第一数据区、所述第二数据区或所述第三数据区中,获取具有所述序列编号的所述目标业务特征信息,将获取到的所述目标业务特征信息确定为所述业务数据流对应的业务特征信息。例如,可根据所述目标拓扑融合组中的空域数据拓扑分布所对应的所述序列编号,生成用于在所述第一数据区中获取所述目标业务特征信息的第一信息读取请求。当根据所述第一信息读取请求未从所述第一数据区中读取到所述目标业务特征信息时,根据所述第一信息读取请求,生成用于在所述第二数据区中读取所述目标业务特征信息的第二信息读取请求。 当根据所述第二信息读取请求未从所述第二数据区中获取到所述目标业务特征信息时,根据所述第二信息读取请求,生成用于在所述第三数据区中获取所述目标业务特征信息的第三信息读取请求,并根据所述第三信息读取请求,从所述第三数据区中读取所述目标业务特征信息。
本实施中,所述第二数据区可以作为一个中间过度数据区,其中存储的各种业务数据可以根据各种业务数据的不同业务特征信息分别设定不同的老化周期以进行相应的数据管理。例如,写入所述第二数据区的所述目标业务特征信息可以包括第一业务特征信息和第二业务特征信息。然后,可以为所述第一业务特征信息设置第一老化周期,为所述第二业务特征信息设置第二老化周期;所述第一老化周期不同于所述第二老化周期; 当第一老化周期过期时,可以在所述第一时刻从所述第二数据区中删除所述第一业务特征信息,当第二老化周期过期时,可以在所述第二时刻从所述第二数据区中删除所述第二业务特征信息。
基于上述内容,在上述根据所述第三信息读取请求,从所述第三数据区中获取所述目标业务特征信息是,若删除所述第二数据区中的所述第一业务特征信息后,获取到的针对所述第一业务特征信息的所述第二信息读取请求的次数大于预设请求次数时,从多个第二信息读取请求中确定目标信息读取请求;然后再基于所述目标信息读取请求生成所述第三信息读取请求,根据所述第三信息读取请求,从所述第三数据区中获取所述第一业务特征信息,将所述第一业务特征信息重新添加至所述第二数据区。此外,再将所述多个第二信息读取请求中,除所述目标信息读取请求之外的信息读取请求,确定为候选信息读取请求; 从所述第二数据区中,为每个候选信息读取请求分别获取所述第一业务特征信息。
在上述内容的基础上,本发明实施例还可以根据针对上述的业务大数据采集结果,对机器学习网络进行机器学习,并通过学习后的机器网络实现对业务采集终端所采集的业务数据流进行实时的业务数据流特征检测,相应的方式示例性描述如下。
步骤S10,获取针对针对数据采集范围预先进行业务大数据采集得到的多个业务数据流样本,得到业务数据流样本集合。
步骤S20,根据所述业务数据流样本对预设的防干扰特征检测网络进行机器学习,并通过学习后的防干扰特征检测网络对各业务采集终端采集的业务数据流进行特征检测,得到相应业务数据流的业务特征信息。
进一步地,所述步骤S20可以包括子步骤S201-子步骤S204,具体描述如下。
子步骤S201,将所述业务数据流样本集合输入预设目标业务特征网络进行机器学习,得到已学习目标业务特征网络。
在本实施例中,预设目标业务特征网络可以是缩小版的神经网络(VisualGeometry Group Network,VGG),该神经网络的学习方式在此不进行赘述。
子步骤S202,通过所述已学习目标业务特征网络对所述业务数据流样本集合进行目标业务特征检测,得到所述业务数据流样本集合的初始目标业务特征集合。
本实施例中,步骤S202所描述的通过所述已学习目标业务特征网络对所述业务数据流样本集合进行目标业务特征检测,得到初始目标业务特征集合,可以通过以下方式得到。
(1)针对所述业务数据流样本集合中的每个样本业务数据流,获取该样本业务数据流的各数据片段的时空域拓扑分布以及各数据片段的时空域特征。
在本实施例中,所述数据片段的时空域拓扑分布可以参照前述针对步骤S10的相应描述,此处不再赘述。所述数据片段的时空域特征可以包括时域特征和空域特征,时域特征和空域特征的相应定义也可以参照前述针对步骤S10的内容。
(2)当根据所述数据片段的时空域拓扑分布确定出该样本业务数据流中具有干扰数据区块时,根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重确定该样本业务数据流的非干扰数据区块对应的各数据片段的时空域特征与该样本业务数据流的干扰数据区块对应的各数据片段的时空域特征之间的特征差异,并将该样本业务数据流的非干扰数据区块对应的与干扰数据区块对应的数据片段的时空域特征匹配的数据片段的时空域特征划分到所述干扰数据区块。本实施例中,在该样本业务数据流的当前非干扰数据区块对应具有多个数据片段的时空域特征时,根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重确定该样本业务数据流的当前非干扰数据区块对应的各数据片段的时空域特征之间的特征差异,并根据所述各数据片段的时空域特征之间的特征差异对当前非干扰数据区块对应的各数据片段的时空域特征进行特征融合。然后,根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重为上述特征融合获得的数据片段融合特征配置特征标识,并根据所述特征标识将所述数据片段融合特征划分到所述干扰数据区块。
在本实施例中,干扰数据区块和非干扰数据区块可以包括不规则的数据区块和/或规则的数据区块,目标特征检测权重用于表征数据片段的时空域特征的目标特征检测度,目标特征检测权重越高,数据片段的时空域特征的目标特征检测度越大,所包含的信息的区分度越大。特征标识可以用于表征数据片段融合特征的区块调整优先级,根据所述特征标识将所述数据片段融合特征划分到所述干扰数据区块可以是将特征标识对应的区块调整优先级进行降序排列所对应的部分数据片段融合特征划分到所述干扰数据区块。所述特征差异可以用特征向量的向量距离(如余弦距离、欧几里得距离等)进行表示。
在一些可能的实施例中,所述根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重确定该样本业务数据流的非干扰数据区块对应的各数据片段的时空域特征与该样本业务数据流的干扰数据区块对应的各数据片段的时空域特征之间的特征差异,并将该样本业务数据流的非干扰数据区块对应的与干扰数据区块对应的数据片段的时空域特征匹配的数据片段的时空域特征划分到所述干扰数据区块可以通过以下方式实现:
首先,计算该样本业务数据流的非干扰数据区块对应的各数据片段的时空域特征与该样本业务数据流的干扰数据区块对应的各数据片段的时空域特征的特征向量之间的关联参数;
然后,分别判断各关联参数是否达到第一设定参数阈值,并将关联参数达到第一设定参数阈值的非干扰数据区块对应的数据片段的时空域特征划分到所述干扰数据区块;其中,所述数据片段的时空域特征的特征向量为根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重统计出的数据片段的时空域特征和特征标识的匹配结果。
在一些可能的实施例中,所述根据该样本业务数据流的干扰数据区块对应的数据片段的时空域特征及其目标特征检测权重确定该样本业务数据流的当前非干扰数据区块对应的各数据片段的时空域特征之间的特征差异,并根据所述各数据片段的时空域特征之间的特征差异对当前非干扰数据区块对应的各数据片段的时空域特征进行特征融合,具体实施方式如下:
首先,计算该样本业务数据流的当前非干扰数据区块对应的各数据片段的时空域特征的特征向量之间的关联参数;
然后,针对该样本业务数据流的当前非干扰数据区块对应的一个数据片段的时空域特征,将该数据片段的时空域特征和与其特征向量之间的关联参数达到第二设定参数阈值的所有数据片段的时空域特征进行特征融合得到一数据片段融合特征序列。
(3)基于该样本业务数据流对应的干扰数据区块中的目标数据片段的时空域特征确定样本业务数据流片段,并将确定出的样本业务数据流片段进行整合得到初始目标业务特征集合。本实施例中,所述样本业务数据流片段可以为干扰数据对应样本业务数据流片段。
如此,基于上述(1)-(3)所描述的内容,能够实现对干扰数据区块和非干扰数据区块中的数据片段的时空域特征的重新划分,这样可以将干扰数据区块和非干扰数据区块考虑在内,有利于提高对后期采集的业务数据流进行业务特征分析的精准性。
子步骤S203,将所述初始目标业务特征集合输入预设的第一防干扰特征检测网络进行机器学习,得到第一目标防干扰特征检测网络。
在本实施例中,第一防干扰特征检测网络可以理解为参数量较大的网络,可以理解为大网络。进一步地,将所述初始目标业务特征集合输入预设的第一防干扰特征检测网络进行机器学习,得到第一目标防干扰特征检测网络,一种可实现的方式如下:
采用所述初始目标业务特征集合对预设的第一防干扰特征检测网络进行机器迭代学习,当采用第N次学习得到的第一防干扰特征检测网络对测试业务数据进行目标特征检测所得到的目标特征检测结果达到设定条件时,将第N次学习得到的第一防干扰特征检测网络确定为第一目标防干扰特征检测网络。在本实施例中,设定结果可以根据实际需求而预先设定,例如可以是90%~99,例如可优选为95%,在此不做限定。
子步骤S204,基于联合模型训练策略以及所述第一目标防干扰特征检测网络对预设的第二防干扰特征检测网络进行机器学习,得到第二目标防干扰特征检测网络,使得训练得到的第二目标防干扰特征检测网络的参数量小于第一目标防干扰特征检测网络的参数量。
在本实施例中,第二防干扰特征检测网络可以理解为参数量较第一防干扰特征检测网络小的网络(小网络)。基于此,基于联合模型训练策略以及所述第一目标防干扰特征检测网络对预设的第二防干扰特征检测网络进行机器学习,得到第二目标防干扰特征检测网络,可以通过以下方式实现:
基于预设模型训练评价指标以及所述第一目标防干扰特征检测网络对预设的第二防干扰特征检测网络进行机器学习,得到第二目标防干扰特征检测网络。
在本实施例中,所述预设模型训练评价指标可以为一种预设的损失函数,此处不做限定。
进一步地,在基于预设模型训练评价指标以及所述第一目标防干扰特征检测网络对预设的第二防干扰特征检测网络进行机器学习,得到第二目标防干扰特征检测网络的过程中:当第i次学习得到的所述预设模型训练评价指标的取值位于设定数值区间时,将第i次学习得到的第二防干扰特征检测网络确定为第二目标防干扰特征检测网络。可以理解,设定数值区间可以是趋近于0的区间,例如可以是0.01~0.03,在此不作限定。在一些示例中,第二防干扰特征检测网络的学习终止条件可以是模型训练评价指标(如损失函数值)趋近于0。
本实施例中,基于联合模型训练策略训练得到第二防干扰特征检测网络,联合模型训练策略其本质是基于大网络(大模型)训练小网络(小模型),从而在确保小网络的预测准确性的前提下,避免扩大小网络的参数量。因此,得到的第二防干扰特征检测网络的参数量相对于第一防干扰特征检测网络的参数量有所减少,因而使得第二防干扰特征检测网络可以直接在业务采集终端中运行,以实现业务采集终端上的业务数据流的特征检测,将服务器的检测工作分散在各业务采集终端上实现,可以减少服务器的负担,同时充分发挥各业务采集终端的运算能力。同时,在将第二防干扰特征检测网络部署在业务采集终端时,还可以确保业务采集终端的业务数据流目标特征检测的实时性。
子步骤S205,将第二目标防干扰特征检测网络发送至所述业务采集终端,通过所述业务采集终端以根据所述第二目标防干扰特征检测网络对采集的业务数据流进行目标特征检测得到所述采集的业务数据流的业务特征信息。
在本实施例中,业务采集终端可以是手机、平板电脑、笔记本电脑或者其他便携式终端,在此不作限定。在实际实施过程中,确定业务特征信息的方式可以是业务采集终端和服务器协作完成,为实现这一目的,子步骤S205所描述的通过所述业务采集终端以及所述第二目标防干扰特征检测网络对采集的业务数据流进行目标特征检测得到所述采集的业务数据流的业务特征信息,可以通过以下方式实现。
首先,所述业务采集终端基于所述第二目标防干扰特征检测网络提取采集的业务数据流的目标区块对应的待识别数据流特征;其中,所述目标区块可以是所述采集的业务数据流不具有干扰数据的区块。
然后,获取所述业务采集终端发送的所述待识别数据流特征,在预设存储空间中获取与所述待识别数据流特征匹配的目标业务特征信息,将所述目标业务特征信息确定为所述采集的业务数据流的业务特征信息。
在一些示例中,为了确保业务数据流目标特征检测的精准性,需要对待识别数据流特征进行进一步的挖掘,为实现这一目的,上述的在预设存储空间中获取与所述待识别数据流特征匹配的目标业务特征信息,可以包括以下内容。
(a1)对所述待识别数据流特征进行分解,得到多个子数据流特征,并获取多个子数据流特征的空域特征描述信息,以及所述多个子数据流特征在当前目标特征检测时刻之前的m个连续目标特征检测时刻对应的m个待定特征描述序列,其中,每一目标特征检测时刻的待定特征描述序列包括所述子数据流特征在多个特征标识类别下的待定特征描述。
(a2)分别获取各子数据流特征的m个待定特征描述序列中每一待定特征描述序列对应的特征识别度偏移量序列。其中,每一特征识别度偏移量序列包括所述子数据流特征在多个特征标识类别下的特征识别度偏移量,每一特征识别度偏移量表示一个特征标识类别下当前特征识别度与偏移特征识别度之间的偏移量。
(a3)利用已学习的特征识别度调整网络,根据各子数据流特征的空域特征描述信息与m个待定特征描述序列对应的m个特征识别度偏移量序列,获取各子数据流特征在当前目标特征检测时刻的特征识别度偏移量。其中,所述特征识别度调整网络是利用多个网络学习样本学习得到的,每一网络学习样本包括一个子数据流特征的空域特征描述信息以及m+1个连续目标特征检测时刻的特征识别度偏移量序列。所述特征识别度偏移量表示子数据流特征的当前特征识别度与偏移特征识别度之间的偏移量。
在本实施例中,所述特征识别度调整网络可以通过如下学习过程学习得到的:
首先,从网络学习样本库中获取大量的网络学习样本;
然后,通过获取的网络学习样本,按照设定的学习参数对所述特征识别度调整网络进行多次学习,每一次学习过程包括如下步骤:根据所述空域特征描述信息以及m+1个连续目标特征检测时刻中前m个目标特征检测时刻的特征识别度偏移量序列,通过所述特征识别度调整网络,获取每一网络学习样本的子数据流特征在第m+1个目标特征检测时刻的特征识别度偏移量;根据所述网络学习样本的子数据流特征在第m+1个目标特征检测时刻的特征识别度偏移量,与所述网络学习样本中第m+1个目标特征检测时刻的特征识别度偏移量序列,获取所述特征识别度调整网络的网络评估指数;根据所述网络评估指数确定是否继续对所述特征识别度调整网络进行学习;若确定继续对所述特征识别度调整网络进行学习,则修改所述特征识别度调整网络的网络参数,并通过修改后的所述特征识别度调整网络继续下一次学习过程。
在本实施例中,所述特征识别度调整网络可以包括特征噪声识别网络层和特征片段拼接网络层。基于此,针对每一子数据流特征,利用特征识别度调整网络获取特征识别度偏移量,可以包括:根据所述m个特征识别度偏移量序列,通过所述特征噪声识别网络层获取子数据流特征的特征噪声识别指标;根据所述空域特征描述信息,通过所述特征片段拼接网络层获取子数据流特征的特征片段拼接指标;基于所述特征噪声识别网络层和所述特征片段拼接网络层的网络层传递参数,根据所述特征噪声识别指标和所述特征片段拼接指标得到在当前目标特征检测时刻的特征识别度偏移量。
(a4)通过各子数据流特征在当前目标特征检测时刻的特征识别度偏移量分别对各子数据流特征的当前特征识别度进行调整;根据各子数据流特征调整后的当前特征识别度,从所述多个子数据流特征中确定目标子数据流特征,根据所述目标子数据流特征对所述待识别数据流特征进行特征组合,得到用于进行数据特征分析的待分析特征。
(a5)在预设存储空间中获取与所述待分析特征的特征差异最小的预存数据流特征,并确定与所述预存数据流特征的关联业务特征信息为所述待识别数据流特征匹配的目标业务特征信息。所述预设存储空间可以提前设定按照指定路径的用于存储业务数据流的相关业务特征信息的存储位置。
这样一来,通过上述方式,能够对待识别数据流特征进行进一步的挖掘,从而对对待识别数据流特征进行特征组合,得到用于进行数据特征分析的待分析特征,进而基于待分析特征确定待识别数据流特征匹配的目标业务特征信息,如此,能够尽可能确保数据流目标特征检测的精准性。
进一步参阅图2所示,是所述服务器100包括的大数据采集装置110可以包括多个软件功能模块,以用于实现上述的用于人工智能机器学习的业务大数据采集方法的各对应步骤。详细地,本实施例中,所述大数据采集装置110可以包括时空域节点采集模块111、拓扑融合分析模块112。
所述时空域节点采集模块111,用于针对预先设定的用于进行业务大数据采集的业务数据采集范围中产生的业务数据分别进行时域节点以及空域节点的节点数据采集,得到时空域节点数据。本实施例中,所述时空域节点数据包括所述业务数据采集范围中产生的时域节点数据和空域节点数据。
所述拓扑融合分析模块112,用于对所述时空域节点数据进行拓扑融合分析,得到所述业务数据采集范围中的多个业务数据流和所述业务数据流对应的业务特征信息,并根据所述业务数据流和对应的业务特征信息得到业务数据流样本集合,以用于作为机器学习的业务数据学习样本进行机器学习。
应当理解,上述时空域节点采集模块111和所述拓扑融合分析模块112可分别用于执行上述图3所示的步骤S31和步骤S32对应的方法步骤,关于该两个模块的详细内容及具体的实现方式可以参阅上述针对所述步骤S31和S32的相应内容,此处不再一一赘述。
综上所述,本发明实施例提供的用于人工智能机器学习的业务大数据采集方法及服务器,针对预先设定的用于进行业务大数据采集的业务数据采集范围中产生的业务数据分别进行时域节点以及空域节点的节点数据采集,得到时空域节点数据,然后对所述时空域节点数据进行拓扑融合分析,得到所述业务数据采集范围中的多个业务数据流和所述业务数据流对应的业务特征信息,以用于作为人工智能机器学习的业务数据学习样本进行机器学习。如此,可通过时、空域两个数据维度对业务数据进行采集,并通过两个维度的相关性使得数据采集得到的业务数据流及相关信息能够更精准的反应业务数据的相关数据特征,有利于提升后期进行机器学习或人工智能模型训练的学习效果及应用效果。
以上所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围,而仅仅是表示本发明的选定实施例。因此,本发明的保护范围应以权利要求的保护范围为准。此外,基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本发明保护的范围。