CN115630045A - 基于人工智能的数据溯源追踪方法及ai系统 - Google Patents

基于人工智能的数据溯源追踪方法及ai系统 Download PDF

Info

Publication number
CN115630045A
CN115630045A CN202211553589.9A CN202211553589A CN115630045A CN 115630045 A CN115630045 A CN 115630045A CN 202211553589 A CN202211553589 A CN 202211553589A CN 115630045 A CN115630045 A CN 115630045A
Authority
CN
China
Prior art keywords
tracing
knowledge
traceability
data
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211553589.9A
Other languages
English (en)
Other versions
CN115630045B (zh
Inventor
郭海霞
范凯帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Elitesland Software System Co ltd
Original Assignee
Zunyi Shiyuekai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zunyi Shiyuekai Network Technology Co ltd filed Critical Zunyi Shiyuekai Network Technology Co ltd
Priority to CN202211553589.9A priority Critical patent/CN115630045B/zh
Publication of CN115630045A publication Critical patent/CN115630045A/zh
Application granted granted Critical
Publication of CN115630045B publication Critical patent/CN115630045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供的基于人工智能的数据溯源跟踪方法及AI系统,将获取的多个待处理数据溯源项目中,对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,分别获取多个待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识,另外,依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识,对多个待处理数据溯源项目进行数据描述知识解析,减少了部分溯源事件种类数据量不足的情况,再依据溯源优先级因子分别确定多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序,可以令不同数据溯源项目的数据描述知识具有一致的表示,节约了运算消耗,缓解了硬件压力,增加了数据溯源项目调度的合理性和精确性。

Description

基于人工智能的数据溯源追踪方法及AI系统
技术领域
本申请涉及人工智能、大数据处理领域,具体而言,涉及一种基于人工智能的数据溯源追踪方法及AI系统。
背景技术
数据溯源是记录原始数据在整个生命周期内(从产生、传播到消亡)的演变信息和演变处理内容,其强调的是一种溯本追源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。目前,数据溯源追踪的主要方法有标注法和反向查询法,其中,标注法是一种简单且有效的数据溯源方法,使用非常广泛,通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。那么,基于标注法的数据溯源追踪,溯源项目不仅携带数据本身,还携带有描述特征。
对于庞大溯源访问量的领域如数字金融领域,通常因为数据溯源项目的数据载量较大,例如审计报告的数据量较大,且在特定时期的集中溯源请求,导致系统的并行处理压力巨大,且效率较低,如何合理地对大量数据溯源项目进行合理地访问安排是需要解决的技术课题。需要说明的是,以上技术问题推导的过程仅为帮助理解本申请的技术缘由,不作为评估新创性的依据。
发明内容
本发明的目的在于提供一种基于人工智能的数据溯源追踪方法及AI系统,以改善上述问题。
本申请实施例是如此实现的:
第一方面,本申请实施例提供了一种基于人工智能的数据溯源跟踪方法,应用于数据溯源追踪AI系统,所述数据溯源追踪AI系统与多个数据溯源请求端通信连接,所述方法包括:
获取多个所述数据溯源请求端上传的多个待处理数据溯源项目;
将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,其中,所述多个待处理数据溯源项目具有不少于两个溯源事件种类;
分别获取每个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识;其中,每一所述待处理数据溯源项目的专属溯源知识用于指示对应的溯源事件种类专属的数据描述知识,每一所述待处理数据溯源项目的重合溯源知识用于指示全部溯源事件种类均包含的数据描述知识;
依据每个所述待处理数据溯源项目的重合溯源知识和专属溯源知识,对每个所述待处理数据溯源项目进行数据描述知识解析,确定每个所述待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子;
依据相同的数据溯源项目序列中的多个所述待处理数据溯源项目对应的溯源优先级因子,分别确定多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序;
根据多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序进行数据溯源追踪。
作为一种可能的实施方式,所述依据每个所述待处理数据溯源项目的重合溯源知识和专属溯源知识,对每个所述待处理数据溯源项目进行数据描述知识解析,确定每个所述待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子的步骤中,对于每个所述待处理数据溯源项目均采用如下步骤进行:
将所述待处理数据溯源项目的重合溯源知识和专属溯源知识调试加载至事先调试完成的数据溯源调度网络,基于所述数据溯源调度网络对所述待处理数据溯源项目进行数据描述知识解析,确定所述待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子;
其中,所述数据溯源调度网络是依据包含多种溯源事件种类的调试数据溯源项目的调试数据溯源项目序列,对预设的数据溯源调度网络进行重复调试获得的。
作为一种可能的实施方式,所述数据溯源调度网络包括多个知识整合模块,还包括各自对应不同溯源事件种类的权值赋予模块和评估模块,其中,多个不同的所述知识整合模块具有一致的模型架构但不一致的模型系数,每个所述所述多个知识整合模块中每一所述知识整合模块对于相同的溯源事件种类的倾向性不同;
所述基于所述数据溯源调度网络对所述待处理数据溯源项目进行数据描述知识解析,确定所述待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子,包括:
依据所述数据溯源调度网络中的每个所述知识整合模块进行整合溯源知识挖掘,从而各自得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识;
依据所述待处理数据溯源项目对应的溯源事件种类对应的目标权值赋予模块,对所述多个整合溯源知识进行权值赋予并计算和值,得到对于所述待处理数据溯源项目的目标溯源知识;
将所述目标溯源知识加载到所述待处理数据溯源项目的溯源事件种类对应的目标评估模块,依据所述目标评估模块对所述待处理数据溯源项目进行重要性评价,获得所述待处理数据溯源项目对应的溯源优先级因子;
作为一种可能的实施方式,所述依据所述数据溯源调度网络中的每个所述知识整合模块共同进行整合溯源知识挖掘,从而各自得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识,包括:
将所述待处理数据溯源项目对应的重合溯源知识和专属溯源知识进行知识融合后,分别加载到每个所述知识整合模块;
分别依据每个所述知识整合模块,对所述待处理数据溯源项目对应的融合溯源知识进行整合溯源知识挖掘,得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识。
作为一种可能的实施方式,所述依据所述待处理数据溯源项目对应的溯源事件种类对应的目标权值赋予模块,对所述多个整合溯源知识进行权值赋予并计算和值,得到对于所述待处理数据溯源项目的目标溯源知识,包括:
将所述待处理数据溯源项目对应的重合溯源知识和专属溯源知识,加载到所述待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块,并将所述每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识,加载到所述待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块;
依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行显著性溯源知识挖掘,得到对于所述待处理数据溯源项目的显著性溯源权值知识;
依据所述显著性溯源权值知识,对所述多个整合溯源知识进行权值赋予并计算和值,得到所述待处理数据溯源项目对应的偏心溯源知识;
其中,所述显著性溯源权值知识中的每一组成要素各自代表每个所述知识整合模块对应的偏心系数,不同的知识整合模块对应的偏心系数与中每一所述知识整合模块对于所述溯源事件种类的倾向性符合正向关联关系。
作为一种可能的实施方式,所述依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行显著性溯源知识挖掘,得到对于所述待处理数据溯源项目的显著性溯源权值知识,包括:
依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行知识融合;
对所述待处理数据溯源项目对应的融合溯源知识进行显著性溯源知识挖掘,获得所述待处理数据溯源项目对应的偏心溯源知识,所述偏心溯源知识的维数与所述知识整合模块的数量一致,一个维数对应一个知识整合模块;
依据所述偏心溯源知识中各个维数的组成要素值对应的预设计算结果,与全部维数组成要素值对应的预设计算结果的总和的比例,获取所述各个维数对应的偏心系数,并将所获得的多个偏心系数构成的偏心系数知识,确定为所述显著性溯源权值知识。
作为一种可能的实施方式,在对所述数据溯源调度网络进行调试时,每次重复调试包括如下步骤:
在所述调试数据溯源项目序列中确定多个调试数据溯源项目,获取确定的多个调试数据溯源项目的专属溯源知识和重合溯源知识;
将所述多个调试数据溯源项目的专属溯源知识和重合溯源知识,分别加载到所述数据溯源调度网络,得到依据所述数据溯源调度网络获得的各个调试数据溯源项目对应的溯源优先级因子;
依据所述多个调试数据溯源项目对应的溯源优先级因子,以及所述多个调试数据溯源项目对应的溯源优先级指示信息得到质量评估因子,并依据所述质量评估因子对所述数据溯源调度网络的系数进行修正,所述溯源优先级指示信息用于指示所述调试数据溯源项目的重要性。
作为一种可能的实施方式,所述数据溯源调度网络包括多个知识整合模块,以及对应不同溯源事件种类的权值赋予模块和评估模块;
所述依据所述各个调试数据溯源项目对应的溯源优先级因子,以及所述各个调试数据溯源项目对应的溯源优先级指示信息得到质量评估因子,并依据所述质量评估因子对所述数据溯源调度网络的系数进行修正,包括:
依据每个调试数据溯源项目对应的溯源优先级因子和溯源优先级指示信息,确定所述多个调试数据溯源项目对应的质量评估因子;
分别依据各个质量评估因子,修正对应的调试数据溯源项目对应的溯源事件种类对应的评估模块和权值赋予模块的网络系数;
依据各个权值赋予模块的网络系数修正结果对每个所述知识整合模块的网络系数进行修正。
作为一种可能的实施方式,所述将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,包括:
确定待处理数据溯源项目和事先调试完成的溯源事件归类网络,所述溯源事件归类网络包括溯源知识抽取模块和归类映射模块;
将所述待处理数据溯源项目加载至所述溯源事件归类网络,并依据所述溯源知识抽取模块抽取获得溯源归类描述知识;
基于所述溯源归类描述知识和所述溯源事件归类网络对应的目标矢量坐标系确定数据溯源项目含糊因子,所述溯源事件归类网络对应的目标矢量坐标系基于所述溯源事件归类网络对应的调试样本库确定,所述目标矢量坐标系是指不确定种类数据溯源项目的描述知识所在的坐标系;
基于所述溯源归类描述知识和所述归类映射模块确定一个或多个第一确定种类系数;
基于所述数据溯源项目含糊因子和所述一个或多个第一确定种类系数确定所述待处理数据溯源项目为不确定种类以及每个确定种类的置信度;
根据所述待处理数据溯源项目对应于不确定种类以及每个确定种类的置信度,将所述待处理数据溯源项目划分到对应的溯源事件种类中。
第二方面,本申请实施例提供了一种数据溯源追踪AI系统,包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,执行以上所述的方法。
本申请实施例提供的基于人工智能的数据溯源跟踪方法及AI系统,因为将获取的多个待处理数据溯源项目中,对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,分别获取多个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识,另外,依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识,对多个待处理数据溯源项目进行数据描述知识解析,减少了部分溯源事件种类数据量不足的情况,再依据得到的多个待处理数据溯源项目对于各自对应的溯源事件种类的溯源优先级因子,分别确定多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序,可以令不同数据溯源项目的数据描述知识具有一致的表示。依据以上过程进行溯源项目的顺序确定,克服了不同的数据溯源项目数据描述知识不能一致表示的技术障碍,节约了运算消耗,缓解了硬件压力,增加了数据溯源项目调度的合理性和精确性。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种基于人工智能的数据溯源追踪方法的流程图。
图2是本申请实施例提供的数据溯源追踪装置的功能模块架构示意图。
图3是本申请实施例提供的一种AI系统的组成示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
在本申请实施例中提供的一种基于人工智能的数据溯源追踪方法,其执行主体为数据溯源追踪AI系统,包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,数据溯源追踪AI系统可单独运行来实现本申请,也可接入网络并通过与网络中的其他数据溯源追踪AI系统的交互操作来实现本申请。其中,数据溯源追踪AI系统所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。数据溯源追踪AI系统与多个数据溯源请求端通信连接,数据溯源请求端可以包括但不限于服务器、个人电脑、掌上电脑、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)等。
本申请实施例提供了一种基于人工智能的数据溯源追踪方法,该方法应用于数据溯源追踪AI系统,如图1所示,该方法包括如下步骤:
步骤100:获取多个数据溯源请求端上传的多个待处理数据溯源项目并将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列。
在本申请实施例中,多个待处理数据溯源项目具有不少于两个溯源事件种类,溯源事件又可称为溯源任务,表示对何数据进行溯源。数据溯源项目中可以包括需要溯源的溯源事件数据本身,还可以包括对溯源数据进行描述的信息,例如审计报告制作人、修改节点、报告产出时间、报告核实者、数据批注等等。溯源事件种类可以根据溯源所处行业的具体需求进行适应性配置,例如对于数据真实性要求比较高的行业,如对于数字金融行业,溯源事件可以包括审计、交易、集资等,即对审计事项、交易事项、集资事项进行溯源;对于安全生产行业、溯源事件可以包括传感采集存证、数字身份识别、工业品防伪等;对于能源行业,溯源事件可以包括碳排放权交易、能源分布式交易等。
步骤200:分别获取多个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识。
其中,每一待处理数据溯源项目的专属溯源知识用于指示对应的溯源事件种类专属的数据描述知识,每一待处理数据溯源项目的重合溯源知识用于指示全部溯源事件种类均包含的数据描述知识。这里,关于描述知识可以理解为溯源事件的特征信息,其可以是经过神经网络量化后的数据信息。对于数字金融行业而言,溯源事件中审计、交易、集资等溯源事件的重合溯源知识可以包括金额数量、交易双方、支付路径等各个溯源事件种类均包含的描述知识,对于审计而言,专属描述知识可以是利润情况、主营产品情况、股东持股情况等专属的描述知识。
步骤300:依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识,对多个待处理数据溯源项目进行数据描述知识解析,获得多个待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子。
其中,溯源优先级因子是对待处理数据溯源项目进行重要性评价后所获得的重要性表达参数,其可以通过数值进行表示,例如0.5、50%等形式。
步骤400:依据相同的数据溯源项目序列中的多个待处理数据溯源项目对应的溯源优先级因子,分别确定多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序。
步骤500,根据多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序进行数据溯源追踪。
依据以上步骤100~500,将获取到的数据溯源请求端上传的多个待处理数据溯源项目中,对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,分别获取多个待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识,然后依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识对多个待处理数据溯源项目进行数据描述知识解析,依据获得的多个待处理数据溯源项目对于各自对应的溯源事件种类的溯源优先级因子,分别确定多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序,最后根据多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序进行数据溯源追踪。减少了部分溯源事件种类数据量不足的情况,克服了不同的数据溯源项目数据描述知识不能一致表示的技术障碍,节约了运算消耗,缓解硬件压力,增加了数据溯源项目调度的合理性和精确性。
另外,对于步骤100中,将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列的过程,涉及到对数据溯源项目进行预处理归类到同一溯源事件种类的过程,其可以通过AI模型进行执行,其具体可以包括以下步骤:
步骤101:确定待处理数据溯源项目和事先调试完成的溯源事件归类网络。
其中,待处理数据溯源项目是需要进行数据溯源项目归类的数据溯源项目,在步骤100中已经对不同情景下的溯源项目类型进行举例,此处不再赘述。AI系统确定事先调试完成的溯源事件归类网络,该溯源事件归类网络中包括溯源知识抽取模块和归类映射模块。
步骤102:将待处理数据溯源项目加载至溯源事件归类网络,并依据溯源知识抽取模块抽取获得溯源归类描述知识。
溯源归类描述知识是描述数据溯源项目的特征信息,其通过量化后得到的向量表示,将待处理数据溯源项目加载至事先调试完成的溯源事件归类网络,依据溯源事件归类网络的溯源知识抽取模块抽取待处理数据溯源项目的特征描述信息,得到溯源归类描述知识。容易理解,溯源知识抽取模块的选择可以根据实际情况而定,例如是卷积神经网络。
步骤103:基于溯源归类描述知识和溯源事件归类网络对应的目标矢量坐标系确定数据溯源项目含糊因子。
作为一种实施方式,AI系统在确定待处理数据溯源项目的溯源归类描述知识后,可以基于溯源归类描述知识在溯源事件归类网络对应的目标矢量坐标系中映射确定数据溯源项目含糊因子,此处的数据溯源项目含糊因子是指待处理数据溯源项目的溯源事件种类为不确定种类的概率,数据溯源项目含糊因子越大,说明待处理数据溯源项目的种类为溯源事件归类网络不清楚的新种类的概率越大,不确定种类为溯源事件归类网络在调试时中没有接触学习的溯源事件种类,或者是调试样本库中不具备的溯源事件种类,溯源事件归类网络对应的目标矢量坐标系通过溯源事件归类网络对应的调试样本库决定的,目标矢量坐标系是指不确定种类的数据溯源项目的描述知识所处的坐标系。
其中,关于目标矢量坐标系的确定,可以通过将调试样本库中的一个或多个调试数据溯源项目加载至溯源事件归类网络,并依据溯源知识抽取模块抽取获得每个调试数据溯源项目的已归类描述知识。然后基于每个已归类描述知识进行PCA解析(Principal Co多ponent Analysis)得到降维简化坐标系(降维后主要成分的坐标系),确定降维简化坐标系的正交补坐标系为目标矢量坐标系,用于执行PCA解析的多个调试数据溯源项目可以是调试样本库中的所有调试数据溯源项目,或基于预定的策略抽取获得的局部调试数据溯源项目,在获得多个调试数据溯源项目的已归类描述知识后进行PCA解析。PCA解析的过程是依据如傅里叶变换或Z变换等正交变换,将多个具备关联性的已归类描述知识变换成线性的不关联的变量,完成降维已获得降维简化坐标系。当获得降维简化坐标系之后,确定降维简化坐标系的正交补坐标系为目标矢量坐标系。换言之,目标矢量坐标系中全部的描述知识与降维简化坐标系的全部的描述知识正相交。
因为溯源事件归类网络依据调试样本库调试获取到,调试样本库中的调试数据溯源项目的种类都为溯源事件归类网络的确定种类。那么就可以依据抽取各个已归类描述知识进行PCA降维,精确获得表示确定种类知识所在的坐标系。另外,降维简化坐标系对应的正交补坐标系和降维简化坐标系是垂直的,可以反映远离确定种类的描述知识所处的坐标系,即目标矢量坐标系可以表示不确定种类数据溯源项目的描述知识所在的坐标系。通过目标矢量坐标系与归类不相关的特征,依据拟归类的描述知识在目标矢量坐标系的映射可以精准地确定拟归类的描述知识的种类为不确定种类的概率。
在获取调试样本库中的多个调试数据溯源项目后,分别将各个调试数据溯源项目加载至溯源事件归类网络,由溯源事件归类网络中的溯源知识抽取模块抽取并产出每个调试数据溯源项目的已归类描述知识。在得到多个已归类描述知识后,对多个已归类描述知识进行PCA解析以进行降维,得到降维简化坐标系,之后确定降维简化坐标系的正交补坐标系为目标矢量坐标系。
作为一种实施方式,本申请的实施例中还可以基于溯源归类描述知识、溯源事件归类网络对应的目标矢量坐标系和溯源事件归类网络对应的压缩因子确定数据溯源项目含糊因子,压缩因子通过所述调试样本库确定,是用于压缩溯源事件归类网络中溯源知识抽取模块抽取获得的描述知识,并基于压缩后的描述知识确定待处理数据溯源项目为不确定种类的可能性。作为一种实施方式,AI系统可以基于溯源归类描述知识在目标矢量坐标系的映射与压缩因子的乘运算结果确定数据溯源项目含糊因子,换言之,数据溯源项目含糊因子为溯源归类描述知识在目标矢量坐标系映射长度与压缩因子的积。举例而言,当待处理数据溯源项目的溯源归类描述知识为A时,在目标矢量坐标系C的映射为AC,映射长度为[AC],那么,通过计算[AC]和压缩因子f的乘运算结果,获得待处理数据溯源项目的数据溯源项目含糊因子f·[AC]。
作为一种实施方式,AI系统可以在获得目标矢量坐标系后,再基于溯源事件归类网络、调试样本库和目标矢量坐标系确定压缩因子。压缩因子的计算步骤可以是:先把调试样本库中的一个或多个调试数据溯源项目加载至溯源事件归类网络,然后依据溯源知识抽取模块抽取获得每个调试数据溯源项目的已归类描述知识确定每个已归类描述知识在目标矢量坐标系的映射长度,基于每个已归类描述知识的映射长度和归类映射模块,各自获得每个已归类描述知识对应的一个或多个第二确定种类系数,基于每个已归类描述知识对应的映射长度,以及第二确定种类系数,确定压缩因子。确定压缩因子的调试数据溯源项目可以是调试样本库中的所有调试数据溯源项目,也可以是基于预定策略提取获得的局部调试数据溯源项目。确定溯源知识抽取模块抽取每个调试数据溯源项目描述知识获得的已归类描述知识到目标矢量坐标系的映射。
在AI系统依据PCA解析压缩之后获得目标矢量坐标系,对于每个调试数据溯源项目的已归类描述知识,可以确定已归类描述知识映射至目标矢量坐标系得到描述知识分布结果,再次确定压缩因子。优选的,在获取每个已归类描述知识在目标矢量坐标系映射长度的过程中,还可以将各个已归类描述知识加载至归类映射模块,从而基于归类映射模块对应的多个确定种类的数表和每个已归类描述知识进行乘积运算(即矩阵乘法计算),获得每个调试数据溯源项目相对的各个确定种类的第二确定种类系数。再基于每个已归类描述知识的映射长度和一个或多个第二确定种类系数确定压缩因子。作为一种实施方式,基于各个已归类描述知识的映射长度一个或多个第二确定种类系数确定压缩因子,具体可以是比较各个已归类描述知识的一个或多个第二确定种类系数的数值,从而获取每个已归类描述知识对应的第二确定种类系数中最大的第二确定种类系数,之后基于各个最大的第二确定种类系数的求和结果,和各个不确定种类描述知识长度的和进行比例计算,基于比例计算结果获得压缩因子。
作为一种实施方式,压缩因子还可以在确定溯源归类描述知识在目标矢量坐标系上的映射前,和溯源归类描述知识进行乘积运算,从而令最后获取的数据溯源项目含糊因子的数值能够稳定在合理的区间中。作为一种实施方式,AI系统确定压缩因子和目标矢量坐标系以确定数据溯源项目含糊因子时,目标矢量坐标系和压缩因子都可以依据调试样本库中的所有调试数据溯源项目或部分调试数据溯源项目确定。
步骤104:基于溯源归类描述知识和归类映射模块确定一个或多个第一确定种类系数。
作为一种实施方式,AI系统还基于溯源归类描述知识和归类映射模块确定一个或多个第一确定种类系数。其中,第一确定种类系数是指待处理数据溯源项目的溯源事件种类为确定种类的概率,第一确定种类系数越大,则待处理数据溯源项目的种类为溯源事件归类网络确定的新种类的概率越大,反之越小,第一确定种类为溯源事件归类网络在调试时中未接触的溯源事件种类,即调试样本库中调试数据溯源项目包含的溯源事件种类。
作为一种实施方式,本申请的实施例中确定一个或多个第一确定种类系数,具体可以是:先获取归类映射模块对应的过失因子以及一个或多个确定种类的描述知识数表,然后基于过失因子、溯源归类描述知识和一个或多个确定种类的描述知识数表确定一个或多个第一确定种类系数。其中,过失因子可以是事先确定好的数值,其是指溯源归类描述知识和每个确定种类的描述知识数表与描述知识坐标系原点之间的量化长度,描述知识数表被配置成获取待处理数据溯源项目的溯源事件种类为一个确定种类的概率。
作为一种实施方式,本申请的实施例中在获取一个或多个第一确定种类系数时,先对描述知识坐标系原点进行定点移动,然后通过平移得到的描述知识坐标系获取第一确定种类系数。换言之,先基于过失因子和一个或多个确定种类的描述知识数表确定描述知识坐标系的原点,描述知识坐标系为溯源归类描述知识所处的坐标系。然后获取溯源归类描述知识在再次确定原点后的描述知识坐标系中的矢量表达结果,和各个描述知识数表的乘运算结果,获得一个或多个确定种类系数,描述知识坐标系定点移动之后,其原点是依据过失因子和各个描述知识数表构建的总的数表,再进行广义逆计算获取,之后再确定溯源归类描述知识和定点移动后的原点之间的差,和每个描述知识数表的乘运算结果,获得一个或多个第一确定种类系数。
作为一种实施方式,本申请的实施例中还可以依据AI系统先逐一确定溯源归类描述知识和每个描述知识数表的乘运算结果,然后分别基于每个乘运算结果与过失因子的和确定一个或多个第一确定种类系数。换言之,对于每个确定种类,确定溯源归类描述知识和确定种类的描述知识数表乘运算结果与过失因子的和,获得第一确定种类系数。本申请的实施例中依据通过过失因子可以有效获取到没有进行归类的描述知识的归类情况,令获取的第一确定种类系数更加精确。
步骤105:基于数据溯源项目含糊因子和一个或多个第一确定种类系数确定待处理数据溯源项目为不确定种类以及每个确定种类的置信度。
作为一种实施方式,AI系统在确定待处理数据溯源项目的数据溯源项目含糊因子和一个或多个第一确定种类系数后,基于是指待处理数据溯源项目所属溯源事件种类的各个系数,确定待处理数据溯源项目为不确定种类以及每个确定种类的置信度。作为一种实施方式,置信度的获取过程可以是:将数据溯源项目含糊因子和一个或多个第一确定种类系数加载至soft多ax函数,获得待处理数据溯源项目为不确定种类的置信度,以及待处理数据溯源项目为每个确定种类的置信度。另外,还可以在确定待处理数据溯源项目为不确定种类的置信度,以及待处理数据溯源项目为每个确定种类的置信度后,基于待处理数据溯源项目为不确定种类以及每个确定种类的置信度确定待处理数据溯源项目的种类。比如将置信水平最高的种类作为待处理数据溯源项目的种类。
本申请的实施例中的AI系统在确定待处理数据溯源项目后,将待处理数据溯源项目加载至溯源事件归类网络,由溯源事件归类网络中的溯源知识抽取模块抽取待处理数据溯源项目的数据溯源项目描述知识得到溯源归类描述知识。另外,基于溯源归类描述知识与目标矢量坐标系确定待处理数据溯源项目对应的数据溯源项目含糊因子,并将溯源归类描述知识加载至溯源事件归类网络的归类映射模块,获得和多个确定种类对应的多个第一确定种类系数。此外,将数据溯源项目含糊因子和多个第一确定种类系数加载至softmax函数,得到待处理数据溯源项目对应的溯源事件种类的置信度。确定最高的置信度对应的种类为待处理数据溯源项目的溯源事件种类。
步骤106:根据待处理数据溯源项目对应于不确定种类以及每个确定种类的置信度,将待处理数据溯源项目划分到对应的溯源事件种类中。
本申请实施例中,可以设置一置信度阈值,在最高的置信度对应的种类超过该置信度阈值时,则将最高的置信度对应的种类作为待处理数据溯源项目的溯源事件种类,然后将待处理数据溯源项目划分到对应的溯源事件种类中。
本申请的实施例上述步骤101~106中,通过调试获得的溯源事件归类网络进行数据溯源项目归类,对不同种类的数据溯源项目在进行归类的过程中,鲁棒性高。由于无需在先经验总结协助数据溯源项目归类,节约了人力成本,另外,本申请的实施例中依据对调试数据的描述知识坐标系进行PCA分析获取目标矢量坐标系,同时基于目标矢量坐标系得到数据溯源项目含糊因子,将数据溯源项目含糊因子和正常获取的确定种类系数一并获取待处理数据溯源项目的溯源事件种类的置信度,不仅囊括待处理数据溯源项目是确定种类的置信度,还包含待处理数据溯源项目是不确定种类的置信度两层系数获取待处理数据溯源项目的种类,归类更加准确可靠,同时依赖的硬件和计算消耗低,提升前置效率,保证后续的溯源过程的正常进行。
作为一种实施方式,在本申请实施例中,步骤300可以通过AI模型来执行,其选择是具备通融性的,可以是任意可行的学习模型,例如机器学习模型或深度学习模型。具体而言,依赖该AI模型,对于多个待处理数据溯源项目均采用如下步骤进行:
将待处理数据溯源项目的重合溯源知识和专属溯源知识调试加载至一事先调试完成的数据溯源调度网络,基于数据溯源调度网络对该待处理数据溯源项目进行数据描述知识解析,获得该待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子。其中,数据溯源调度网络是依据包含多种溯源事件种类的调试数据溯源项目的调试数据溯源项目序列,对预设的数据溯源调度网络进行重复调试获得的。例如,多个待处理数据溯源项目包括3个,将3个待处理数据溯源项目的重合溯源知识和专属溯源知识分别加载到调试好的数据溯源调度网络中,依据数据溯源调度网络对待处理数据溯源项目进行数据描述知识解析,分别获得该数据溯源调度网络产出的多个待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子,举例而言,待处理数据溯源项目A为审计种类,对应的溯源优先级因子为0.4,待处理数据溯源项目B为集资种类,对应的溯源优先级因子为0.5,待处理数据溯源项目C为交易种类,对应的溯源优先级因子为0.3。
对于相同的数据溯源项目序列,基于待处理数据溯源项目对应的溯源优先级因子的溯源顺序,举例而言,审计种类的数据溯源项目序列中包含100个(仅为举例,实际可能更多或更少)待处理数据溯源项目,其中,待处理数据溯源项目1对应的溯源优先级因子为0.3,待处理数据溯源项目2对应的溯源优先级因子为0.31,待处理数据溯源项目3对应的溯源优先级因子为0.7……,那么,对于上述3个待处理数据溯源项目1~3而言,将待处理数据溯源项目1~3依据溯源优先级因子的大小进行排布,可以表示为:待处理数据溯源项目3>>待处理数据溯源项目2>>待处理数据溯源项目1。
作为一种实施方式,数据溯源调度网络包括多个知识整合模块,此外,其还包括各自对应不同溯源事件种类的权值赋予模块和评估模块。其中,多个不同的知识整合模块具有一致的模型架构但不一致的模型系数,多个知识整合模块中的每一个知识整合模块对于相同的溯源事件种类的倾向性不同,或者可以理解为重要性不同。针对不同的知识整合模块而言,其从各种维度各个方面进行训练,对于相同的溯源事件种类,不同的知识整合模块学习的倾向性不相同,那么,对应的模型系数则有异。举例而言,对于审计溯源事件,知识整合模块A的倾向性为高倾向性,知识整合模块B的倾向性为中倾向性,知识整合模块C的倾向性为低倾向性,这样,三个知识整合模块的模型系数各异,可在不同的维度对审计溯源事件进行学习调试。各种来源的不同数据结构类型的重合溯源知识和每个溯源项目的专属溯源知识作为数据溯源调度网络的输入,针对各个种类的数据溯源项目,重合溯源知识和专属溯源知识加载到知识整合模块和相应的任务专属的权值赋予模块,权值赋予模块对知识整合模块的产出结果赋予权值,然后加载到相应的任务的评估模块,最后得到数据溯源项目的优先级因子评估结果,用以后续进行调度。
作为一种实施方式,待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子可以包括以下步骤:依据数据溯源调度网络中的每个知识整合模块进行整合溯源知识挖掘,从而各自得到每个知识整合模块对于一个待处理数据溯源项目产出的整合溯源知识;再依据一个待处理数据溯源项目对应的溯源事件种类对应的目标权值赋予模块,对多个整合溯源知识进行权值赋予并计算和值,得到对于一个待处理数据溯源项目的目标溯源知识;之后将目标溯源知识加载到待处理数据溯源项目的溯源事件种类对应的目标评估模块,依据目标评估模块对一个待处理数据溯源项目进行重要性评价,得到待处理数据溯源项目对应的溯源优先级因子。
举例而言,待处理数据溯源项目A对应的目标权值赋予模块为权值赋予模块A,对应的目标评估模块为评估模块A,权值赋予模块A对知识整合模块产出的整合溯源知识进行权值赋予操作(加权),获得目标溯源知识,将目标溯源知识加载到评估模块A,评估模块A输出待处理数据溯源项目A对应的溯源优先级因子。
作为一种实施方式,知识整合模块对于待处理数据溯源项目产出的整合溯源知识可以通过以下步骤进行:将待处理数据溯源项目对应的重合溯源知识和专属溯源知识进行知识融合后分别加载到每个知识整合模块;再分别依据每个知识整合模块对该待处理数据溯源项目对应的融合溯源知识进行整合溯源知识挖掘,获得每个知识整合模块对于该待处理数据溯源项目产出的整合溯源知识,不同知识整合模块具有一致的模型架构但不一致的模型系数。知识整合模块的输入是来自多个来源的不同数据结构的数据溯源项目的重合溯源知识和专属溯源知识的融合结果,例如进行拼接后的结果。知识整合模块的输入知识(向量)可以通过多个输出维数各为不同维数x1;x2;x3的全连接单元,其中,x1>x2>x3。各个全连接单元的激活函数为ReLU函数,最后,第n个知识整合模块会对后一个数据溯源项目产出维数为x3的矢量,确定为其学习获得的整合溯源知识。在上述过程中,不同的知识整合模块对相同的任务的倾向性不同,多个知识整合模块组合可以让不同垂直分类进行联合调试,对于重合溯源知识可以进行隐藏数据加强,突破了信息屏障的同时,减少了部分溯源事件种类数据量不足的情况。
作为一种实施方式,权值赋予模块对于待处理数据溯源项目的目标溯源知识可以基于以下步骤进行:将待处理数据溯源项目对应的重合溯源知识和专属溯源知识加载至待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块,并将每个知识整合模块对于待处理数据溯源项目产出的整合溯源知识,加载至待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块;之后依据目标权值赋予模块,对重合溯源知识和专属溯源知识进行显著性溯源知识挖掘,得到对于一个待处理数据溯源项目的显著性溯源权值知识(或称注意力溯源权值知识);再依据显著性溯源权值知识对多个整合溯源知识进行权值赋予并计算和值,最终得到待处理数据溯源项目对应的偏心溯源知识(加权后的溯源知识)。其中,权值赋予模块的输入是待处理数据溯源项目对应的重合溯源知识和专属溯源知识,此外,还包括每个知识整合模块产生的对于待处理数据溯源项目的整合溯源知识,对待处理数据溯源项目对应的重合溯源知识和专属溯源知识进行融合和显著性溯源知识挖掘,得到对于待处理数据溯源项目的显著性溯源权值知识,之后依据显著性溯源权值知识对多个整合溯源知识进行权值赋予并计算和值,得到待处理数据溯源项目对应的偏心溯源知识。
对于数据溯源调度网络中权值赋予模块,各个种类的数据溯源项目都对应一个权值赋予模块,对于数据溯源项目,对应权值赋予模块的输入是该数据溯源项目的重合溯源知识和专属溯源知识的融合结果,以及多个知识整合模块输出的多个整合溯源知识,融合后的重合溯源知识和专属溯源知识通过全连接单元后,执行标准化处理,获得多维的显著性溯源权值知识,可以用作对整合溯源知识进行加权。
作为一种实施方式,显著性溯源权值知识可以依据以下步骤获取得到:依据目标权值赋予模块,对重合溯源知识和专属溯源知识进行知识融合;再对待处理数据溯源项目对应的融合溯源知识进行显著性溯源知识挖掘,得到待处理数据溯源项目对应的偏心溯源知识,偏心溯源知识的维数与知识整合模块的数量一致,一个维数对应一个知识整合模块;之后依据偏心溯源知识中各个维数的组成要素值对应的预设计算结果,与全部维数组成要素值对应的预设计算结果的总和的比例,确定多个维数对应的偏心系数(或权值),同时将所得到的多个偏心系数构成的偏心系数知识确定为显著性溯源权值知识。
例如,对于输入的数据溯源项目的重合溯源知识和专属溯源知识,先进行知识的融合(向量拼接),融合后的溯源知识基于多个输出知识维数(可理解为向量维度)各自为x1;x2;x3的全连接单元,各个全连接单元的激活函数为ReLU函数,全连接单元得到x3维的知识,然后基于归一化函数进行标准化处理。之后通过显著性溯源权值知识对知识整合模块产出的整合溯源知识进行权值赋予,获得偏心溯源知识。因为权值赋予模块的权值赋予,不同的知识整合模块自不同维度学习不同数据,知识之间是不互通的,克服了不同的数据溯源项目数据描述知识不能一致表示的技术障碍。
作为一种实施方式,显著性溯源权值知识中的每一组成要素各自代表每个知识整合模块对应的偏心系数,不同知识整合模块对应的偏心系数与中每一知识整合模块对于溯源事件种类的倾向性符合正向关联关系。不同知识整合模块对应的偏心系数各异,同时针对一溯源事件种类的重要性越高的知识整合模块对应的偏心系数也更大。
基于权值赋予模块获得的偏心溯源知识被加载到相应的评估模块。评估模块可以具有多个全连接单元。
数据溯源调度网络的调试过程可以包括如下步骤:在调试数据溯源项目序列中确定多个调试数据溯源项目,并获取确定的多个调试数据溯源项目的专属溯源知识和重合溯源知识;再将各个调试数据溯源项目的专属溯源知识和重合溯源知识分别加载到数据溯源调度网络,获取依据数据溯源调度网络获得的多个调试数据溯源项目对应的溯源优先级因子;之后依据各个调试数据溯源项目对应的溯源优先级因子,以及多个调试数据溯源项目对应的溯源优先级指示信息得到质量评估因子,并依据质量评估因子对数据溯源调度网络的系数进行修正,溯源优先级指示信息用于指示调试数据溯源项目的重要性。
在网络调试过程中,可以从调试数据溯源项目序列中确定多个调试数据溯源项目,将各个调试数据溯源项目的专属溯源知识和重合溯源知识加载到数据溯源调度网络,获得多个调试数据溯源项目对应的溯源优先级因子,依据溯源优先级因子和溯源优先级指示信息得到质量评估因子(评价网络质量的参数,或称损失值或代价值),对数据溯源调度网络的系数进行修正,质量评估因子可以是交叉熵质量评估因子。
作为一种实施方式,数据溯源调度网络包括多个知识整合模块,对应不同溯源事件种类的权值赋予模块和评估模块,基于下列方式对数据溯源调度网络的系数进行修正:依据每个调试数据溯源项目对应的溯源优先级因子和溯源优先级指示信息,确定多个调试数据溯源项目对应的质量评估因子;再分别依据各个质量评估因子,修正对应的调试数据溯源项目对应的溯源事件种类对应的评估模块和权值赋予模块的网络系数;之后依据各个权值赋予模块的网络系数修正结果,对每个知识整合模块的网络系数。对于调试数据溯源项目来说,基于对应的溯源优先级因子和溯源优先级指示信息得到质量评估因子,每个调试数据溯源项目的知识不但加载到知识整合模块,还加载到对应溯源事件种类的权值赋予模块,并输入评估模块。因为一个调试数据溯源项目对应一个溯源事件种类,所以仅加载到一个对应的评估模块,反向传播修正系数的过程中也仅修正对应的评估模块,同时对应修正权值赋予模块的模型系数,依据权值赋予模块的模型系数对知识整合模块的网络系数进行修正。
综上所述,本申请实施例提供的基于人工智能的数据溯源跟踪方法,因为将获取的多个待处理数据溯源项目中,对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,分别获取多个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识,另外,依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识,对多个待处理数据溯源项目进行数据描述知识解析,减少了部分溯源事件种类数据量不足的情况,再依据得到的多个待处理数据溯源项目对于各自对应的溯源事件种类的溯源优先级因子,分别确定多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序,可以令不同数据溯源项目的数据描述知识具有一致的表示。依据以上过程进行溯源项目的顺序确定,克服了不同的数据溯源项目数据描述知识不能一致表示的技术障碍,节约了运算消耗,缓解硬件压力,增加了数据溯源项目调度的合理性和精确性。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种数据溯源追踪装置10,如图2所示,该装置10包括:
项目归类模块11,用于获取多个所述数据溯源请求端上传的多个待处理数据溯源项目并将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列。其中,所述多个待处理数据溯源项目具有不少于两个溯源事件种类。
溯源知识挖掘模块12,用于分别获取每个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识。其中,每一所述待处理数据溯源项目的专属溯源知识用于指示对应的溯源事件种类专属的数据描述知识,每一所述待处理数据溯源项目的重合溯源知识用于指示全部溯源事件种类均包含的数据描述知识。
解析模块13,用于依据每个所述待处理数据溯源项目的重合溯源知识和专属溯源知识,对每个所述待处理数据溯源项目进行数据描述知识解析,确定每个所述待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子。
调度模块14,用于依据相同的数据溯源项目序列中的多个所述待处理数据溯源项目对应的溯源优先级因子,分别确定多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序。
溯源追踪模块15,用于根据多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序进行数据溯源追踪。
由于在上述的方法实施例中,已经对各个步骤进行了详细的说明,此处在装置实施例就不再进行赘述。
上述实施例从虚拟模块的角度介绍了数据溯源追踪装置10,下述从实体模块的角度介绍一种数据溯源追踪AI系统,具体如下所示:
本申请实施例提供了一种数据溯源追踪AI系统,如图3所示,数据溯源追踪AI系统100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,数据溯源追踪AI系统100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该数据溯源追踪AI系统100的结构并不构成对本申请实施例的限定。
处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种数据溯源追踪AI系统,本申请实施例中的数据溯源追踪AI系统包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,以执行上述所述的基于人工智能的数据溯源追踪方法。本申请所提供的技术方案,通过将获取的多个待处理数据溯源项目中,对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,分别获取多个待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识,另外,依据多个待处理数据溯源项目的重合溯源知识和专属溯源知识,对多个待处理数据溯源项目进行数据描述知识解析,减少了部分溯源事件种类数据量不足的情况,再依据溯源优先级因子分别确定多个数据溯源项目序列内的待处理数据溯源项目的溯源顺序,可以令不同数据溯源项目的数据描述知识具有一致的表示,节约了运算消耗,缓解了硬件压力,增加了数据溯源项目调度的合理性和精确性。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于人工智能的数据溯源跟踪方法,其特征在于,应用于所述数据溯源追踪AI系统,所述数据溯源追踪AI系统与多个数据溯源请求端通信连接,所述方法包括:
获取多个所述数据溯源请求端上传的多个待处理数据溯源项目;
将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,其中,所述多个待处理数据溯源项目具有不少于两个溯源事件种类;
分别获取每个所述待处理数据溯源项目各自对应的专属溯源知识和重合溯源知识;其中,每一所述待处理数据溯源项目的专属溯源知识用于指示对应的溯源事件种类专属的数据描述知识,每一所述待处理数据溯源项目的重合溯源知识用于指示全部溯源事件种类均包含的数据描述知识;
依据每个所述待处理数据溯源项目的重合溯源知识和专属溯源知识,对每个所述待处理数据溯源项目进行数据描述知识解析,确定每个所述待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子;
依据相同的数据溯源项目序列中的多个所述待处理数据溯源项目对应的溯源优先级因子,分别确定多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序;
根据多个所述数据溯源项目序列内的待处理数据溯源项目的溯源顺序进行数据溯源追踪。
2.根据权利要求1所述的方法,其特征在于,所述依据每个所述待处理数据溯源项目的重合溯源知识和专属溯源知识,对每个所述待处理数据溯源项目进行数据描述知识解析,确定每个所述待处理数据溯源项目对于其对应的溯源事件种类的溯源优先级因子的步骤中,对于每个所述待处理数据溯源项目均采用如下步骤进行:
将所述待处理数据溯源项目的重合溯源知识和专属溯源知识调试加载至事先调试完成的数据溯源调度网络,基于所述数据溯源调度网络对所述待处理数据溯源项目进行数据描述知识解析,确定所述待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子;
其中,所述数据溯源调度网络是依据包含多种溯源事件种类的调试数据溯源项目的调试数据溯源项目序列,对预设的数据溯源调度网络进行重复调试获得的。
3.根据权利要求2所述的方法,其特征在于,所述数据溯源调度网络包括多个知识整合模块,还包括各自对应不同溯源事件种类的权值赋予模块和评估模块,其中,多个不同的所述知识整合模块具有一致的模型架构但不一致的模型系数,每个所述所述多个知识整合模块中每一所述知识整合模块对于相同的溯源事件种类的倾向性不同;
所述基于所述数据溯源调度网络对所述待处理数据溯源项目进行数据描述知识解析,确定所述待处理数据溯源项目对于对应的溯源事件种类的溯源优先级因子,包括:
依据所述数据溯源调度网络中的每个所述知识整合模块进行整合溯源知识挖掘,从而各自得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识;
依据所述待处理数据溯源项目对应的溯源事件种类对应的目标权值赋予模块,对所述多个整合溯源知识进行权值赋予并计算和值,得到对于所述待处理数据溯源项目的目标溯源知识;
将所述目标溯源知识加载到所述待处理数据溯源项目的溯源事件种类对应的目标评估模块,依据所述目标评估模块对所述待处理数据溯源项目进行重要性评价,获得所述待处理数据溯源项目对应的溯源优先级因子。
4.根据权利要求3所述的方法,其特征在于,所述依据所述数据溯源调度网络中的每个所述知识整合模块共同进行整合溯源知识挖掘,从而各自得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识,包括:
将所述待处理数据溯源项目对应的重合溯源知识和专属溯源知识进行知识融合后,分别加载到每个所述知识整合模块;
分别依据每个所述知识整合模块,对所述待处理数据溯源项目对应的融合溯源知识进行整合溯源知识挖掘,得到每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识。
5.根据权利要求3所述的方法,其特征在于,所述依据所述待处理数据溯源项目对应的溯源事件种类对应的目标权值赋予模块,对所述多个整合溯源知识进行权值赋予并计算和值,得到对于所述待处理数据溯源项目的目标溯源知识,包括:
将所述待处理数据溯源项目对应的重合溯源知识和专属溯源知识,加载到所述待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块,并将所述每个所述知识整合模块对于所述待处理数据溯源项目产出的整合溯源知识,加载到所述待处理数据溯源项目的溯源事件种类对应的目标权值赋予模块;
依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行显著性溯源知识挖掘,得到对于所述待处理数据溯源项目的显著性溯源权值知识;
依据所述显著性溯源权值知识,对所述多个整合溯源知识进行权值赋予并计算和值,得到所述待处理数据溯源项目对应的偏心溯源知识;
其中,所述显著性溯源权值知识中的每一组成要素各自代表每个所述知识整合模块对应的偏心系数,不同的知识整合模块对应的偏心系数与中每一所述知识整合模块对于所述溯源事件种类的倾向性符合正向关联关系。
6.根据权利要求5所述的方法,其特征在于,所述依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行显著性溯源知识挖掘,得到对于所述待处理数据溯源项目的显著性溯源权值知识,包括:
依据所述目标权值赋予模块,对所述重合溯源知识和所述专属溯源知识进行知识融合;
对所述待处理数据溯源项目对应的融合溯源知识进行显著性溯源知识挖掘,获得所述待处理数据溯源项目对应的偏心溯源知识,所述偏心溯源知识的维数与所述知识整合模块的数量一致,一个维数对应一个知识整合模块;
依据所述偏心溯源知识中各个维数的组成要素值对应的预设计算结果,与全部维数组成要素值对应的预设计算结果的总和的比例,获取所述各个维数对应的偏心系数,并将所获得的多个偏心系数构成的偏心系数知识,确定为所述显著性溯源权值知识。
7.根据权利要求2~6任一项所述的方法,其特征在于,在对所述数据溯源调度网络进行调试时,每次重复调试包括如下步骤:
在所述调试数据溯源项目序列中确定多个调试数据溯源项目,获取确定的多个调试数据溯源项目的专属溯源知识和重合溯源知识;
将所述多个调试数据溯源项目的专属溯源知识和重合溯源知识,分别加载到所述数据溯源调度网络,得到依据所述数据溯源调度网络获得的各个调试数据溯源项目对应的溯源优先级因子;
依据所述多个调试数据溯源项目对应的溯源优先级因子,以及所述多个调试数据溯源项目对应的溯源优先级指示信息得到质量评估因子,并依据所述质量评估因子对所述数据溯源调度网络的系数进行修正,所述溯源优先级指示信息用于指示所述调试数据溯源项目的重要性。
8.根据权利要求6-7所述的方法,其特征在于,所述数据溯源调度网络包括多个知识整合模块,以及对应不同溯源事件种类的权值赋予模块和评估模块;
所述依据所述各个调试数据溯源项目对应的溯源优先级因子,以及所述各个调试数据溯源项目对应的溯源优先级指示信息得到质量评估因子,并依据所述质量评估因子对所述数据溯源调度网络的系数进行修正,包括:
依据每个调试数据溯源项目对应的溯源优先级因子和溯源优先级指示信息,确定所述多个调试数据溯源项目对应的质量评估因子;
分别依据各个质量评估因子,修正对应的调试数据溯源项目对应的溯源事件种类对应的评估模块和权值赋予模块的网络系数;
依据各个权值赋予模块的网络系数修正结果对每个所述知识整合模块的网络系数进行修正。
9.根据权利要求1所述的方法,其特征在于,所述将对应于同一溯源事件种类的待处理数据溯源项目归类到相同的数据溯源项目序列,包括:
确定待处理数据溯源项目和事先调试完成的溯源事件归类网络,所述溯源事件归类网络包括溯源知识抽取模块和归类映射模块;
将所述待处理数据溯源项目加载至所述溯源事件归类网络,并依据所述溯源知识抽取模块抽取获得溯源归类描述知识;
基于所述溯源归类描述知识和所述溯源事件归类网络对应的目标矢量坐标系确定数据溯源项目含糊因子,所述溯源事件归类网络对应的目标矢量坐标系基于所述溯源事件归类网络对应的调试样本库确定,所述目标矢量坐标系是指不确定种类数据溯源项目的描述知识所在的坐标系;
基于所述溯源归类描述知识和所述归类映射模块确定一个或多个第一确定种类系数;
基于所述数据溯源项目含糊因子和所述一个或多个第一确定种类系数确定所述待处理数据溯源项目为不确定种类以及每个确定种类的置信度;
根据所述待处理数据溯源项目对应于不确定种类以及每个确定种类的置信度,将所述待处理数据溯源项目划分到对应的溯源事件种类中。
10.一种数据溯源追踪AI系统,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,执行如权利要求1~9任一项所述的方法。
CN202211553589.9A 2022-12-06 2022-12-06 基于人工智能的数据溯源追踪方法及ai系统 Active CN115630045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211553589.9A CN115630045B (zh) 2022-12-06 2022-12-06 基于人工智能的数据溯源追踪方法及ai系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211553589.9A CN115630045B (zh) 2022-12-06 2022-12-06 基于人工智能的数据溯源追踪方法及ai系统

Publications (2)

Publication Number Publication Date
CN115630045A true CN115630045A (zh) 2023-01-20
CN115630045B CN115630045B (zh) 2023-07-21

Family

ID=84910097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211553589.9A Active CN115630045B (zh) 2022-12-06 2022-12-06 基于人工智能的数据溯源追踪方法及ai系统

Country Status (1)

Country Link
CN (1) CN115630045B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934358A (zh) * 2023-09-13 2023-10-24 澳润(山东)药业有限公司 基于信息验证的阿胶质量追溯方法及系统
CN117294023A (zh) * 2023-11-24 2023-12-26 成都汉度科技有限公司 一种运行设备的远程监控方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368401A (zh) * 2020-02-20 2020-07-03 南开大学 污染源的溯源方法、装置和存储介质
CN112800290A (zh) * 2021-03-17 2021-05-14 深圳赛动生物自动化有限公司 一种追溯数据获取方法、装置及设备
CN113438249A (zh) * 2021-06-30 2021-09-24 北京科东电力控制系统有限责任公司 一种基于策略的攻击溯源方法
CN114780602A (zh) * 2022-02-17 2022-07-22 中国平安人寿保险股份有限公司 数据溯源分析方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368401A (zh) * 2020-02-20 2020-07-03 南开大学 污染源的溯源方法、装置和存储介质
CN112800290A (zh) * 2021-03-17 2021-05-14 深圳赛动生物自动化有限公司 一种追溯数据获取方法、装置及设备
CN113438249A (zh) * 2021-06-30 2021-09-24 北京科东电力控制系统有限责任公司 一种基于策略的攻击溯源方法
CN114780602A (zh) * 2022-02-17 2022-07-22 中国平安人寿保险股份有限公司 数据溯源分析方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934358A (zh) * 2023-09-13 2023-10-24 澳润(山东)药业有限公司 基于信息验证的阿胶质量追溯方法及系统
CN116934358B (zh) * 2023-09-13 2023-12-15 澳润(山东)药业有限公司 基于信息验证的阿胶质量追溯方法及系统
CN117294023A (zh) * 2023-11-24 2023-12-26 成都汉度科技有限公司 一种运行设备的远程监控方法及系统
CN117294023B (zh) * 2023-11-24 2024-02-02 成都汉度科技有限公司 一种运行设备的远程监控方法及系统

Also Published As

Publication number Publication date
CN115630045B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US11163670B2 (en) Data records selection
CN115630045B (zh) 基于人工智能的数据溯源追踪方法及ai系统
CN113792825B (zh) 一种用电信息采集设备故障分类模型训练方法及装置
e Abreu et al. Coupling and cohesion as modularization drivers: Are we being over-persuaded?
CN106293891B (zh) 多维投资指标监督方法
CN106446091A (zh) 一种多源时序数据的预处理方法和装置
Grbac et al. Stability of software defect prediction in relation to levels of data imbalance
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
Dulá et al. DEA with streaming data
CN113506175A (zh) 中小企业风险预警模型优化方法、装置、设备和存储介质
CN117454190A (zh) 日志数据分析方法和装置
CN114297063B (zh) 针对源代码的自动化形式化建模与验证的方法与系统
Strassenburg et al. Efficiently Managing Deep Learning Models in a Distributed Environment.
CN116383883B (zh) 一种基于大数据的数据管理权限处理方法及系统
CN112084577B (zh) 一种基于仿真试验数据的数据处理方法
Xu et al. Enterprise Credit Prediction Model Based on SCC-MIC-Boruta Algorithm Feature Selection Algorithm
Wang et al. Defect prediction model for object oriented software based on particle swarm optimized SVM
Ai et al. SVM-based Cancer Incidence Forecasting of Patients
Agarwal et al. Software Metrics for Assessing Reusability of Component Based Software System
CN116594990A (zh) 跨数据库的数据管理方法、装置、设备及计算机存储介质
El Bekri et al. Cluster rule based algorithm for detecting incorrect data records
CN116629694A (zh) 基于电网工程的esg指标体系算法模型确定方法和装置
CN117632677A (zh) 金融系统在线模型的稳定度监控方法、装置、设备及介质
CN117370160A (zh) 代码审核方法、装置、计算机设备、存储介质和程序产品
Song et al. Research on Deep Learning Operator Testing of Intelligent Software Based on Fuzz Testing Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230620

Address after: 201700 12, Block B, No. 1-72, Lane 2855, Huqingping Road, Zhaoxiang Town, Qingpu District, Shanghai

Applicant after: Shanghai Elitesland Software System Co.,Ltd.

Address before: Room 1411, Changqing Building, Beijing Road Street, Honghuagang District, Zunyi City, Guizhou Province, 563000

Applicant before: Zunyi Shiyuekai Network Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant