CN115271087A - 获取知识的方法和装置 - Google Patents

获取知识的方法和装置 Download PDF

Info

Publication number
CN115271087A
CN115271087A CN202110720333.1A CN202110720333A CN115271087A CN 115271087 A CN115271087 A CN 115271087A CN 202110720333 A CN202110720333 A CN 202110720333A CN 115271087 A CN115271087 A CN 115271087A
Authority
CN
China
Prior art keywords
knowledge
task
machine learning
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110720333.1A
Other languages
English (en)
Inventor
郑子木
罗溥晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to PCT/CN2021/115192 priority Critical patent/WO2022227355A1/zh
Priority to EP21938819.6A priority patent/EP4307185A1/en
Publication of CN115271087A publication Critical patent/CN115271087A/zh
Priority to US18/492,754 priority patent/US20240054364A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种获取知识的方法和装置,该方法包括:根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任务之间的知识;向用户提供所述一个或多个第一知识。上述技术方案能够根据参数自动从知识库中获取对应的知识,实现知识库中知识的精准搜索。

Description

获取知识的方法和装置
本申请要求于2021年04月29日提交中国专利局、申请号为202110473240.3、发明名称为“样本训练的方法、装置、服务器及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机领域,并且更具体地,涉及一种获取知识的方法和装置。
背景技术
在机器学习的诸多知识中,模型是最重要的部分。但是,由于训练模型需要占据大量 的时间,随着应用场景的不断拓展,可以将模型存储至模型知识库中。机器学习开发者可 以从中查找所需要的已经训练好的模型并通过简单的修改就可直接使用,这大大减少了重 复训练导致的人力物力消耗。
相关的技术方案中,一方面,现有的模型知识库只能根据名称进行简单的模型搜索, 且模型的应用范围不清晰,不清楚何种情况下使用何种模型,导致模型知识库无法精确搜 索。
因此,如何实现模型知识库的精准搜索成为亟需要解决的问题。
发明内容
本申请提供一种获取知识的方法和装置,能够根据参数自动从知识库中获取对应的知 识,实现知识库中知识的精准搜索。
第一方面,提供了一种获取知识的方法,包括:根据参数从知识库中获取一个或多个 第一知识,所述参数包括以下中的任一种或多种的组合:机器学习任务内的知识、所述机 器学习任务的属性、多个机器学习任务之间的知识;向用户提供所述一个或多个第一知识。
上述技术方案中,能够根据参数自动从知识库中获取对应的知识,实现知识库中知识 的精准搜索。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:获取用户输入的所 述参数;或从其他系统获取所述参数。
结合第一方面,在第一方面的某些实现方式中,所述机器学习任务内的知识包括所述 机器学习任务的样本集合、模型,所述模型是根据所述样本集合训练得到的;或所述机器 学习任务的属性包括所述机器学习任务的约束、应用范围;或所述多个机器学习任务之间 的知识包括多个所述机器学习任务之间的关联关系。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:从所述知识库中获 取与所述第一知识相关的第二知识;向所述用户提供所述第二知识。
结合第一方面,在第一方面的某些实现方式中,根据所述第一知识确定对应的知识相 似度比较方法;根据所述知识相似度比较方法从所述任务知识库中获得相似知识列表;根 据相似度阈值从所述相似知识列表中确定所述第二知识。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:向所述用户提供所 述第一知识的配置信息。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:获取用户选择的目 标知识,所述目标知识为所述第一知识和/或第二知识。
结合第一方面,在第一方面的某些实现方式中,所述目标知识用于以下中的任一种场 景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:根据所述第一知识 和所述第二知识,对所述任务知识库进行更新。
结合第一方面,在第一方面的某些实现方式中,根据所述第一知识和所述第二知识确 定知识异同对比方法;根据所述知识异同对比方法得到知识异同对比结果,所述知识异同 对比结果为所述第一知识和所述第二知识之间的异同对比结果;根据所述异同对比结果以 及更新规则,对所述任务知识库中的以下任一种或多种知识的组合进行更新:所述机器学 习任务内的知识、所述机器学习任务的属性、多个所述机器学习任务之间的知识。
结合第一方面,在第一方面的某些实现方式中,所述方法还包括:边缘设备将所述知 识库中的知识同步至云端设备;或所述云端设备将所述知识库中的知识同步至所述边缘设 备。
第二方面,提供了一种获取知识的装置,包括:获取模块,显示模块。其中,获取模块用于根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任务之间的知识;显示模块用于向用户提供所述一个或多个第一知识。
结合第二方面,在第二方面的某些实现方式中,所述获取模块还用于:获取用户输入 的所述参数;或从其他系统获取所述参数。
结合第二方面,在第二方面的某些实现方式中,所述机器学习任务内的知识包括所述 机器学习任务的样本集合、模型,所述模型是根据所述样本集合训练得到的;或所述机器 学习任务的属性包括所述机器学习任务的约束、应用范围;或所述多个机器学习任务之间 的知识包括多个所述机器学习任务之间的关联关系。
结合第二方面,在第二方面的某些实现方式中,所述获取模块,还用于从所述知识库 中获取与所述第一知识相关的第二知识;所述显示模块,还用于向所述用户提供所述第二 知识。
结合第二方面,在第二方面的某些实现方式中,所述显示模块还用于:向所述用户提 供所述第一知识的配置信息。
结合第二方面,在第二方面的某些实现方式中,所述获取模块还用于:获取用户选择 的目标知识,所述目标知识为所述第一知识和/或第二知识。
结合第二方面,在第二方面的某些实现方式中,所述目标知识用于以下中的任一种场 景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
结合第二方面,在第二方面的某些实现方式中,所述装置还包括:同步模块,用于边 缘设备将所述知识库中的知识同步至云端设备;或所述云端设备将所述知识库中的知识同 步至所述边缘设备。
第三方面,提供了一种获取知识的设备,包括输入输出接口、处理器和存储器,其中 所述处理器用于控制所述输入输出接口收发信息,所述存储器用于存储计算机程序,所述 处理器用于从存储器中调用并运行该计算机程序,使得所述执行第一方面或第一方面任意 一种可能的实现方式中所述的方法。
可选地,该处理器可以是通用处理器,可以通过硬件来实现也可以通过软件来实现。 当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处 理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集 成在处理器中,可以位于该处理器之外,独立存在。
第四方面,提供了一种芯片,该芯片获取指令并执行该指令来实现上述第一方面以及 第一方面的任意一种实现方式中的方法。
可选地,作为一种实现方式,该芯片包括处理器与数据接口,该处理器通过该数据接 口读取存储器上存储的指令,执行上述第一方面以及第一方面的任意一种实现方式中的 方法。
可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该 处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行第一方面 以及第一方面中的任意一种实现方式中的方法。
第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码, 当所述计算机程序代码在计算机上运行时,使得计算机执行上述第一方面以及第一方面 的任意一种实现方式中的方法。
第六方面,提供了一种计算机可读存储介质,包括指令;所述指令用于实现上述第一 方面以及第一方面的任意一种实现方式中的方法。
可选地,作为一种实现方式,上述存储介质具体可以是非易失性存储介质。
附图说明
图1是本申请实施例提供的一种获取知识的方法的示意性流程图。
图2是本申请实施例提供的一种知识库初始化的示意性框图。
图3是本申请实施例提供的另一种知识库初始化的示意性框图。
图4是本申请实施例提供的一种知识库运行阶段的示意性框图。
图5是本申请实施例提供的另一种知识库运行阶段的示意性框图。
图6是本申请实施例提供的一种知识库初始化参数配置的界面示意图。
图7是本申请实施例提供的一种查询知识库中模型的参数配置界面示意图。
图8是本申请实施例提供的一种查询知识库中任务的参数配置界面示意图。
图9是本申请实施例提供的一种查询知识库中模型应用范围的参数配置界面示意图。
图10是本申请实施例提供的一种获取知识的装置1000的示意性框图。
图11是本申请实施例提供的一种获取知识的设备1100的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。 应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时 可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本申请实施例描述的网络架构以及业务场景是为了更加清楚地说明本申请实施例的 技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知, 随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术 问题,同样适用。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或 多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不 同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另 外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的 实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都 意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描 述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:包括单独存在A,同时存在A和B,以及单独存在B的情况,其中A,B可以是单数或者复数。字 符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指 的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c 中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以 是单个,也可以是多个。
为了便于理解,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
在机器学习的诸多知识中,模型是最重要的部分,以深度神经网络为代表的模型在诸 多机器学习相关应用中取得了很好的效果,例如图片分类、语音识别等。但是,由于训练 模型需要占据大量的时间,随着应用场景的不断拓展,开源共享训练数据和模型逐渐成为 了业界的一种趋势。例如Google提供的TensorFlow Hub,它是一个用于存储可重用机器学习资产的模型知识库。机器学习开发者可以从中查找所需要的已经训练好的模型并通过简单的修改就可直接使用,这大大减少了重复训练导致的人力物力消耗。但是现有的模型知识库主要存在以下几个问题:
1、模型知识库无法精确搜索
现有的模型知识库(也可以称为知识搜索引擎)通常只能根据名称进行简单的模型搜 索,且模型的应用范围不清晰,不清楚何种情况下使用何种模型。由于边缘情景多种多样, 往往需针对不同情景提供定制化AI服务,再加上边缘数据非同分布程度太高,导致现有 知识搜索引擎无法根据不同场景来准确搜索适配的模型。因此目前边缘模型严重依赖于人 工定制,消耗大量的人力物力,使得知识库中的已知模型可利用程度过低。举例说明,比 如在边缘进行配煤性能预测与控制时:(1)不同工厂,其生产目标和生产条件不同,导 致配煤单数据差异很大,因此需要采用不同的模型;(2)不同工况,如运行在1000℃环境下和1200℃环境下,煤炭反应后的焦炭强度(coke strength after reaction,CSR)不同, 对应的模型也有所区别;(3)不同产线,即使属于同一家工厂,传送带和粉碎机损耗不同,配煤操作员不同等,也会导致不同产线很难用一套统一的模型来运行。
2、知识灾难性遗忘
传统机器学习方法,包括迁移学习和增量学习,由于只保留一个模型并在该模型上修 改,未保存可应对不同情景的不同模型。所以往往在不同环境下会遗忘过去曾经出现的模 型,在过去能处理好的情景下产生严重错误,这将导致迁移和增量的反复进行。一方面遗 忘导致的准确率低下,这会降低用户体验,另一方面需要大量的时间再次进行数据采集和 模型学习,会造成人力物力的浪费。举例说明,为了预测配煤问题中的CSR,采用传统增 量学习方法,训练出一个用于A工况下的模型,并且该模型在A工况下表现良好。当工 况发生变化时,由于模型准确率下降,必须重新采集B工况下的数据,将A工况模型迁 移/增量改变为B工况模型。当工况又变回A时,由于原模型的参数基本已经被覆盖,新 模型几乎完全遗忘了A工况下的知识,这就又需要重新采集数据,将B工况模型迁移/增 量回原本的A工况模型,这样反复的学习会耗费大量的时间和算力。
有鉴于此,本申请实施例提供了一种获取知识的方法,可以根据参数自动从知识库中 获取对应的知识,实现知识库中知识的精准搜索。
下面结合图1,对本申请实施例提供的一种获取知识的方法进行详细描述。如图1所 示,该方法包括步骤110-120,下面分别对步骤110-120进行详细描述。
步骤110:根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任 一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任 务之间的知识。
可选地,在步骤110之前,还可以获取所述参数。具体的,可以是获取用户输入的所述参数,或者从其他系统(例如其他智能平台)获取所述参数,本申请对此不做具体限定。
作为示例,上述机器学习任务内的知识包括所述机器学习任务的样本集合、模型,所 述模型是根据所述样本集合训练得到的。上述机器学习任务的属性包括所述机器学习任务 的约束、应用范围。上述多个机器学习任务之间的知识包括多个所述机器学习任务之间的 关联关系。下面会结合具体的例子,对上述知识进行详细的解释说明,此处不再赘述。
步骤120:向用户提供所述一个或多个第一知识。
可选地,还可以从知识库中获取与所述第一知识相关的第二知识,并向用户提供该第 二知识。
可选地,还可以向用户提供该第一知识相关的配置信息,例如,第一知识的简介,收 益等。
可选地,还可以向用户提供该第二知识相关的配置信息。
可选地,还可以获取用户选择的目标知识,该目标知识为上述第一知识和/或第二知 识。
作为示例,该目标指示用于以下中的任一种场景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
可选地,还可以实现边缘设备的知识库和云端设备的知识库之间的相互同步。例如, 边缘设备将所述知识库中的知识同步至云端设备;或云端设备将所述知识库中的知识同步 至所述边缘设备。
图2是本申请实施例提供的一种知识库初始化的示意性框图。如图2所示,该知识库 初始化的过程可以包括:知识库初始化模块210、边缘知识库220和云端知识库230。下面分别对上述各个模块的功能进行详细描述。
边缘知识库220,位于边缘侧的设备上的知识库,用于存储多任务知识、多任务知识 索引表以及多任务知识其提取器。边缘侧的设备例如可以是靠近用户侧的服务器。
云端知识库230,位于云侧的设备上的知识库,用于存储多任务知识、多任务知识索 引表以及多任务知识其提取器。云侧的设备例如可以是云侧的服务器。
知识库初始化模块210,用于构建上述知识库,也可以理解为对上述知识库进行初始 化。可选地,知识库初始化模块210还用于实现上述边缘知识库220和云端知识库230之间的多任务知识的存储和同步。具体的,知识库初始化模块210的输入为多任务知识及其提取器(可以是系统输入的多任务知识及其提取器,或是云端的多任务知识及其提取器),输出为多任务知识、多任务知识索引表以及多任务知识提取器。也就是说,知识库初始化模块210可以基于多任务知识及其提取器,将多任务知识索引表和多任务知识提取器存储在边缘知识库220或云端知识库230中,并完成边缘知识库220和云端知识库230之间的 多任务知识的存储和同步。作为示例,如图3所示,知识库初始化模块210中可以包括以 下两个子模块:多任务知识初始化模块211和边云知识同步模块212。下面会对这两个子 模块的功能进行详细描述,此处暂不详述。
应理解,上述的任务也即机器学习任务,可以理解针对特定样本的模型学习过程,这 里的样本可以是标签或者特征。多任务知识可以包括三个层级的知识:任务内知识、任务 知识、任务间知识。可选地,多任务知识还可以包括第四个层级的知识:任务组(group)。下面分别对上述各个层级的知识进行详细描述。
作为一个示例,第一个层级的知识为任务内知识,其属于传统终身学习可能存储的知 识,包括:样本(sample)和模型(model)。其中,样本也可以称为任务样本,是指任 务定义后,某一个任务下的样本集合。是用于模型训练或测试的数据记录,每条记录包括 不同数据项,可以指代有标签样本和无标签样本,比如,一条配煤的样本如表1所示。模 型也可以称为任务模型,是指每个任务单独训练出来的模型。该模型的信息可以包括但不 限于:模型的训练方法、模型超参数、模型参数等。其中,模型的训练方法可以包括但不 限于:机器学习的算法,例如神经网络、支持向量机等。模型超参数指用于训练模型的机 器学习算法的配置项,比如神经网络中的学习率。模型参数指模型映射函数的配置,是由 机器学习算法训练得出的,例如神经网络中的权重、支持向量机中的支持向量等。比如, 根据配煤的样本训练得到的一个配煤预测模型如表2所示。
表1一条配煤的样本
样本名称 ad vdaf std G值 CSR
配煤样本1 8.553833 27.38117 0.494833 68.4 65.0
表2一个配煤预测模型
模型名称 训练方法 模型超参数 模型参数
配煤模型1 线性回归 学习率=0.05… A1=10,A2=1.5…
作为另一个示例,第二个层级的知识为任务知识,其属于传统终身学习未存储的知识, 包括:任务约束、任务属性等。其中,任务约束指用于划分任务的任务定义算法的配置项, 比如任务样本量下限为一个任务所包含的样本数目的最小值。任务属性用来定义模型应用 范围的数据项或特征列。表3示出了一个配煤任务。
表3一个配煤任务
Figure BDA0003136278190000071
作为另一个示例,第三个层级的知识为任务间知识,其属于传统终身学习未存储的知 识,包括多个任务之间的关联关系,可用于未知任务的判别和优化。具体的,任务间知识 可以包括任务列表和不同任务之间的关联程度。其中,任务列表为存储在知识库中的任务 列表,是任务关系发现的输入。不同任务之间的关联程度可以有两种继承形态:语义上的 从属度关系(belong relation)和迁移学习中的可迁移度关系(transfer relation)。其中, 语义上的从属度关系用于表达不同任务可相互从属的程度,可由任务定义方法输出,表4 示出了一个配煤任务的从属度矩阵。迁移学习中的可迁移度关系用于表达不同任务间可互 相迁移的程度,可由任务迁移关系发现方法输出,表5示出了一个配煤任务的可迁移度矩 阵。作为示例,任务迁移关系发现方法是指根据任务样本等特征,通过相似性等方法,衡 量任务间可迁移的程度。举例说明,目前可以采用基于元数据的任务迁移关系发现来提取 任务间级别的知识,基本原理如下:在距离函数中分别对元数据项与数据项加权;以元数 据作为约束构建先验聚类,在先验聚类基础上再采用数据进一步构建后验聚类。
表4一个配煤任务的从属度矩阵
Figure BDA0003136278190000072
Figure BDA0003136278190000081
表5一个配煤任务的可迁移度矩阵
Figure BDA0003136278190000082
作为另一个示例,第四个层级的知识为任务组(group),其属于传统终身学习未存储的知识,是指将关系相近的任务聚合成组,可用于未知任务优化模块的加速。任务组中可以包括:任务组约束、任务组属性、任务列表、任务组样本以及任务组模型等。其中, 任务组约束指用于划分任务组的任务组划分算法的配置项,如任务组样本量下限:一个任 务组包含的样本数目的最小值。任务组属性用来定义任务组应用范围的数据项或特征列。 任务列表指存储知识库中任务的列表,是任务组划分算法的输入。任务组样本指任务组内 所有的样本。任务组模型指由任务组内所有的样本进行训练得到模型,或基于每个任务组 内多个任务的知识构建的模型。
下面对上述多任务知识初始化模块211和边云知识同步模块212这两个子模块的功能 进行详细描述。
多任务知识初始化模块211,基于输入的多任务知识及其提取器对知识库进行初始化, 将多任务知识索引表和多任务知识提取器存储在边缘知识库220中,完成初始化后反馈初 始化状态并同步至云端知识库230。具体的,多任务知识初始化模块211可以包括:任务 内知识及其索引表初始化模块2111、任务知识及其索引表初始化模块2112、任务间知识 及其索引表初始化模块2113。多任务知识初始化模块211根据多任务知识的不同层级可以选择调用上述一个或多个子模块。如输入的多任务知识只有样本、任务属性,没有任务迁移关系等任务间知识时,只需要调用前两个子模块(任务内知识及其索引表初始化模块2111、任务知识及其索引表初始化模块2112)即可完成初始化。
任务内知识及其索引表初始化模块2111,其输入为多任务知识及其提取器,输出为 任务内知识、任务内知识索引表以及任务内知识提取器。具体的,任务内知识及其索引表 初始化2111基于输入的多任务知识及其提取器,生成任务内知识、任务内知识索引表和任务内知识提取器,并将其初始化到边缘知识库220中。如多任务知识是一个样本集及其任务属性,任务内知识及其索引表初始化模块2111会将任务属性作为该样本集的索引, 并将这一知识更新到任务内知识索引表中。
任务知识及其索引表初始化模块2112,其输入为多任务知识及其提取器,输出为任 务知识、任务知识索引表以及任务知识提取器。具体的,任务知识及其索引表初始化模块 2112基于输入的多任务知识及其提取器,生成任务知识、任务知识索引表和任务知识提取器,并将其初始化到边缘知识库220中。如多任务知识是一个任务,包括任务样本、任 务模型及其任务属性,任务知识及其索引表初始化模块2112会将任务属性作为该任务的 索引并将这一知识更新到任务知识索引表中。
任务间知识及其索引表初始化模块2113,其输入为多任务知识及其提取器,输出为 任务间知识、任务间知识索引表以及任务间知识提取器。具体的,任务间知识及其索引表 初始化模块2113基于输入的多任务知识及其提取器,生成任务间知识、任务间知识索引表和任务间知识提取器,并将其初始化到边缘知识库220中。如多任务知识是一个任务与其他任务的可迁移关系及其所属的任务组时,任务间知识及其索引表初始化模块2113会将任务属性作为该任务的索引并将这一知识更新到任务间知识索引表中。
边云知识同步模块212,用于将边缘知识库220和云端知识库230的多任务知识进行 双向传输,保证其知识的同步。这样,可以避免由于边缘知识库220的计算资源的限制所造成的难以支持大量模型的训练问题。边云知识同步模块212的输入为多任务知识,输出为多任务知识、初始化状态反馈。具体的,边云知识同步模块212基于云端知识库230的 多任务知识对边缘知识库220进行初始化,完成初始化后反馈初始化状态。如果初始化时 用到了多任务知识初始化模块211,则也需要将多任务知识初始化模块211输出到边缘知 识库220的知识同步到云端知识库230。例如,包括处理知识的冲突,比方说根据时间戳 的前后,根据知识的置信度/支撑证据数量,或者由知识库管理员手动处理冲突。
下面结合图4,对上述边缘知识库220的运行阶段进行详细描述。如图4所示,该运行阶段可以包括:边缘知识库220、云端知识库230、知识库搜索模块310,候选知识缓 存330。可选地,该运行阶段还可以包括知识库增量维护模块320。下面分别对上述各个 模块的功能进行详细描述。
1、知识库搜索模块310
根据运行时数据和目标知识类型查询命令搜索知识库(例如,边缘知识库220),用知识库中不同层级的提取器提取不同层级的知识和索引并反馈。具体的,在知识库搜索模块310中,目标知识类型查询命令经过查询命令解析之后得到查询知识项列表,并根据查询知识项列表,按照任务索引表查找排序之后返回,作为目标知识和候选待填充知识输出。作为示例,如图5所示,知识库搜索模块310中包含以下子模块:知识查询模块311、多 任务知识与索引提取模块312、多任务索引查询与排序模块313。下面会结合图5对知识 库搜索模块310中包含的子模块的功能进行详细描述,此处暂不详述。
2、知识库增量维护模块320
根据新任务是否已知对任务不同层级的知识进行处理并对知识库进行增量维护。具体 的,其输入为历史待填充知识、已填充知识、多任务知识,输出为任务内知识、任务知识、 任务间知识。一个示例,知识库增量维护模块320先将候选知识缓存330中的历史待填充 知识和经过标注与模型填充后的已填充知识整合成为完整的候选更新知识,再结合现有的 多任务知识得到更新策略,然后将知识更新到知识库中。举例说明,如图5所示,知识库 增量维护模块320可以包括以下的子模块:知识异步整合模块321、知识策略判别模块322、 知识与索引更新模块323。
下面结合图5中具体的例子,对知识库搜索模块310以及知识库增量维护模块320中 包含的各个子模块的功能进行详细描述。
1、知识库搜索模块310中包含以下子模块:知识查询模块311、多任务知识与索引提取模块312、多任务索引查询与排序模块313。
知识查询模块311,基于用户的目标知识类型查询命令查询相关知识并反馈查询结果。 具体的,知识查询模块311将用户的目标知识类型查询命令解析为查询知识项列表,用于 知识的查询,并将查询结果作为目标知识输出给用户,同时也作为候选待填充知识放入候 选知识缓存330中。具体的,作为示例,如图5所示,知识查询模块311包括以下子模块:查询命令解析模块3111、知识反馈模块3112。
查询命令解析模块3111,将用户的目标知识类型查询命令解析为查询知识项,用于 知识的查询。具体的,其输入为目标知识类型查询命令,其输出为查询知识项列表,接收方。一个示例,查询命令例如可以是类似dictionary的格式,比如下表6中的查询格式, 其中,查询知识类型可以包括任务内、任务、任务间等不同层级的知识。另一个示例,用 户可能针对运行时数据提出问题,如“用户A想要知道03号运行时数据集相关的任务知 识”等,用户根据问题内容向系统发送目标知识类型查询命令,查询命令解析模块312将 其解析为查询知识项列表,可以是list格式,比如:当命令中查询知识类型为任务时,查 询知识项列表为{任务属性,任务模型,任务样本}。查询命令解析模块312将查询命令解 析为具体的几个查询知识项“样本”、“任务”并输出给知识反馈模块313。
表6查询格式
查询命令ID 查询方 接收方地址 查询知识类型 运行时数据(集)ID
01 用户A 192.162.x.x 任务知识 03
知识反馈模块3112,基于查询知识项列表决定需要调用哪几个知识与索引提取模块, 并将提取到的知识作为目标知识输出给用户,同时作为候选待填充知识放入候选知识缓存 330中。具体的,其输入为查询知识项列表、接收方,输出为目标知识、候选待填充知识。 一个示例,知识反馈模块3112根据查询知识项列表调用相应的一个或多个知识与索引提 取模块,如用户只需要查询“样本”和“任务”相关的知识,并不关心任务间级别的知识,则该知识反馈模块3112只需要调用任务内知识与索引提取模块和任务知识与索引提取模块,然后将搜索提取结果作为目标知识返回给用户。同时,也作为部分已知的候选待填充知识放入候选知识缓存330中。若在知识库中搜索不到相关知识,则也会作为未知的候选待填充知识放入候选知识缓存330中。
多任务知识与索引提取模块312,基于运行时数据和查询知识项搜索知识库,用知识 提取器提取出任务内、任务和任务间的知识和索引。具体的,其输入为运行时数据、知识提取器和查询知识项,输出为任务内、任务和任务间的知识和索引。一个示例,如图5所 示,多任务知识与索引提取模块312可以包括以下的子模块:任务内知识与索引提取模块3121、任务知识与索引提取模块3122、任务间知识与索引提取模块3123。多任务知识与 索引提取模块314根据查询知识项提取不同层级的知识。比如可以只查询任务内知识,不 查询任务知识和任务间知识,也可以三种知识都一起查询。
任务内知识与索引提取模块3121,基于运行时数据和任务内知识提取器提取出任务 内级别的知识,如样本、模型及其索引等。具体的,其输入为运行时数据、任务内知识提取器,输出为任务内的知识和索引。一个示例,任务内知识与索引提取模块3121基于运 行时数据和任务内知识提取器提取出任务内级别的知识,如用户想知道“与运行时数据相 关的样本有哪些”,则该任务内知识与索引提取模块3121首先会提取出任务索引,再根 据任务索引调用多任务索引查询与排序模块313查找相关的样本。
任务知识与索引提取模块3122,基于运行时数据、任务知识提取器和任务内知识提 取出任务级别的知识,如任务属性及其索引等。具体的,其输入为运行时数据、任务知识提取器和任务内知识,输出为任务级别的知识和索引。一个示例,任务知识与索引提取模块3122基于运行时数据和任务内知识提取器提取出任务内级别的知识,如用户想知道“运行时数据是否属于某个已知任务”,则该任务知识与索引提取模块3122首先会提取出任 务索引,再根据任务索引调用多任务索引查询与排序模块313查找是否存在相关的任务及 其任务属性、任务模型、任务样本等。
任务间知识与索引提取模块3123,基于运行时数据、任务间知识提取器和任务知识 提取出任务间级别的知识,如任务关系、任务组及其索引等。具体的,其输入为运行时数据、任务间知识提取器和任务知识,输出为任务间级别的知识。一个示例,任务间知识与 索引提取模块3123基于运行时数据和任务内知识提取器提取出任务间级别的知识,如用 户想知道“与运行时数据对应任务相关的任务有哪些”,则该任务间知识与索引提取模块3123首先会提取出任务索引,再根据任务知识和任务索引调用多任务索引查询与排序模块313查找是否存在相关的任务及其任务关系、任务组等。
多任务索引查询与排序模块313,也可以称为相关知识查找模块,基于知识与索引提 取模块提取出的索引和知识库中的任务索引表查找知识库中的各层级知识,并按照相似性 排序输出查找结果。具体的,其输入为索引、任务索引表,输出为按照相似性排序后的查 找结果。举例说明,任务的相似性可以从以下多个角度来判断:任务样本,通过判断两个样本集合分布的相似性来判断任务相似性;任务属性,通过判断两个任务属性规则之间的相似性来判断任务相似性;任务迁移关系,通过两个任务之间的可迁移程度来判断任务之间的相似性;任务组,通过同一任务组之间所包含的任务来判断任务之间的相似性。一个示例,多任务索引查询与排序模块313可以包括以下的子模块:比对模块3132、知识相 似度衡量模块3133、相关知识筛选模块3134。下面分别对上述各个子模块的功能进行详 细描述。
比对模块3132,根据需要查找的知识类型进行比对适配,选取适当的知识相似度衡 量方法。具体的,其输入为需要搜索的知识类型,输出为相似度衡量方法。一个示例,需要查找的知识类型可能有很多种,比如样本、模型、任务、任务关系等,对每种知识进行 相似度衡量的方法有所不同。比对模块3132根据需要查找的知识类型进行比对适配,选 取适当的知识相似度衡量方法。举例说明,比如当前要查找的知识是“相关的任务”,则 适配的相似度衡量方法是“利用决策树比较任务属性”。
知识相似度衡量模块3133,根据比对适配模块选定的知识相似度衡量方法对知识相 似度进行衡量。具体的,其输入为知识相似度衡量方法,输出为知识相似度列表。一个示例,知识相似度衡量模块3133会读取知识库中现有知识,对其进行遍历,按照比对模块3132选定的知识相似度衡量方法衡量现有知识和新知识的相似度。按照相似度降序对所有结果进行排序后输出知识相似度列表。
相关知识筛选模块3134,会从知识相似度列表中筛选出最相关的一个或多个知识输 出。具体的,其输入为知识相似度列表,输出为相关知识列表。一个示例,相关知识筛选模块3134根据知识相似度衡量模块3133得到的知识相似度列表、知识相似度阈值和用户查询命令,筛选出一个或多个相关知识并输出。比如,知识相似度列表为{任务1距离:0.3,任务2距离:0.35,任务3距离:0.6},距离相似度阈值为0.4,用户希望查询相关的所有任务,则相关知识筛选模块3134会输出相关知识列表[任务1,任务2]。
2、知识库增量维护模块320可以包括以下的子模块:知识异步整合模块321、知识策略判别模块322、知识与索引更新模块323。
知识异步整合模块321,基于候选知识缓存330中的历史待填充知识和经过标注与模 型填充后的已填充知识进行异步整合,获得完整的候选更新知识。具体的,其输入为历史 待填充知识、已填充知识,输出为候选更新知识。一个示例,由于运行时数据有时并不完整,部分样本会存在标注缺失的问题。因此不能直接作为完整知识更新到知识库中,而是需要先放入候选知识缓存330中等待真实标注到达,而后经过知识异步整合模块321将其整合成为具有标签的样本作为候选更新知识。
知识策略判别模块322,基于候选更新知识判别在知识库中增量更新相关任务知识所 需的策略,提升知识库覆盖范围和精度。相关知识除了传统的样本与模型外,还包括任务 属性、任务间关系和任务组。具体的,其输入为候选更新知识,输出为更新策略。一个示 例,知识策略判别模块322需要根据候选更新知识决定需要被更新到知识库中的以下信息:任务属性、样本、模型、任务间关系、任务组。
举例说明,知识策略判别模块322可以基于候选更新知识判别不同的更新策略:根据 任务属性和任务模型等确定候选更新知识的类型;利用任务划分、任务迁移关系发现乃至 任务组挖掘等方法,判别候选更新知识的样本、模型、任务、任务间关系和任务组将以何种方式更新到知识库中。其中,已知任务是知识库中存储的任务。候选更新知识是将要更新到知识库中的知识。
应理解,任务划分方法是指给定样本,将不同的样本划分到不同的任务,输出任务属 性和任务间从属关系。任务划分的实现方式可包括但不限于:用户人工指定任务属性项并 在运行时输入到系统中;专家人工指定任务属性项并提前固化到系统中;专家人工指定部 分任务样本的任务属性作为标注,训练任务分类器,该分类器输入样本,输出该样本所属 的任务属性。任务迁移关系发现方法是指根据任务样本等特征,通过相似性等方法,衡量 任务间可迁移的程度,输出任务间迁移关系。任务组挖掘方法是指基于任务迁移关系,通 过聚类等方法,将相似的任务划分到同一组中,输出任务组,其中,同一任务有可能被分配到多个组当中。
上述候选更新知识可以从以下多个维度以及这些维度的组合进行判别:1、区分任务 属性的差异(新与旧),也就是说判断目标任务是否存在于知识库中。此未知程度的基本思路是采用相似性度量,来判断目标任务(属性)与已知任务属性是否相似。2、区分任 务模型的差异(难与易),也就是判断目标任务是否能被知识库模型准确推理。此未知程 度的基本思路是采用模型置信度、模型可迁移率或其它模型质量度量,来判断目标任务模 型和已知任务模型是否相似。例如,模型置信度越高,预计模型对测试样本的推理错误越 小。又如,模型可迁移率越高,预计模型迁移到目标任务的可能性越高,一种模型可迁移 率的实现是任务样本的相似度。又如,其它模型质量的度量可以包括训练该模型的样本量 (从统计角度来说,样本量越大可信度越高)、该模型在多样数据集测试时的稳定性(比 方说,这个模型被多个不同数据集测试,效果都比较稳定)等。
更具体的,对上面三种度量方法,从训练集层次关系的角度来看,我们又可以将置信 度等度量又分别细致划分为三个层次进行度量,如样本级别、单任务级别、多任务级别。比如置信度可以细分为样本级别模型置信度、单任务级别模型置信度、多任务级别模型置信度等。其它模型质量度量也可以类似地细分。1、样本级别模型:给定一个目标任务, 样本级别模型的训练集来自于该任务数据集的子集;2、单任务级别模型:给定一个目标 任务,单任务级别模型的训练集直接采用该任务数据集的全集;3、多任务级别模型:给 定一个目标任务,多任务级别模型的训练集来自多个任务数据集。
举例说明,知识策略判别模块322可以包括以下子模块:适配模块3221、知识异同比对模块3222、更新决策模块3223,下面对上述各个子模块的功能进行详细描述。
适配模块3221,根据候选更新知识的类型选择适配的比对方法。具体的,其输入为候选更新知识,输出为比对方法。一个示例,候选更新知识可能以多种形式存在,例如样本、模型、任务属性、任务间关系等,也会以多种格式存在数值型、类别型、张量型、规 则型等,适配模块3221需要根据候选更新知识的不同类型组合来选取不同的比对方法。
知识异同比对模块3222,根据适配模块3221选定的比对方法对候选更新知识进行比 对。具体的,其输入为比对方法,输出为比对结果。一个示例,知识异同比对模块3222 需要判断运行时新得到的知识与现有知识的异同程度。知识的异同具体可以从几个方面来比对,比如比对样本分布、模型精确度、任务属性等,最终得到不同方面的结果。如比对 结果可能为“样本分布:相同、模型精确度:相似、任务属性:不同”。
更新决策模块3223,根据知识异同比对模块3222的比对结果输出对应的更新策略。 具体的,其输入为比对结果,输出为更新策略。一个示例,更新决策模块3223根据知识异同比对模块3222对新知识与现有知识的比对结果输出相应的更新策略。如知识异同比对模块3222的比对结果为“任务应用范围:相同、模型精确度:不同”,则更新决策模 块3223会输出对应的更新策略,如“知识重塑”。
应理解,除了样本、模型更新方法传统地支持更新外,任务属性、任务关系和任务组 知识更新方法本身也支持增量特性。也即未知任务到来时,知识库不需要把所有已知和未 知知识从头开始重新学习,而是只更新一部分受未知知识影响的知识即可。如表7所示,增量更新方法包括但不限于如下中的一种或多种:1、知识沿用:沿用任务属性、模型和 样本、沿用任务间关系、任务组(可选)。2、知识累积:更新任务属性、模型和样本、 更新任务间关系、任务组(可选)。3、知识合并:更新任务属性;沿用任务间关系、任 务组(可选)、任务样本与模型。4、知识重塑:更新任务模型与样本、任务间关系、任 务组(可选)。
表7增量更新方法
Figure BDA0003136278190000131
还应理解,不同知识更新方法的选择策略上除结合传统的样本和模型外,还可综合目 标任务属性、任务间关系和任务组(可选)等新增任务知识。比方说:用户运行时人工给 定选择策略;专家人工给定选择策略后固化;训练一个分类器,可基于目标任务属性(决定模型应用范围)、任务间关系和任务组(决定模型匹配程度),输出选择的策略;根据 目标任务属性决定模型应用范围,根据任务间关系和任务组决定模型匹配程度(如表8所 示);可能存在其他综合目标任务属性、任务间关系和任务组(可选)等新增任务知识的 方法。
表8模型匹配程度
Figure BDA0003136278190000141
知识与索引更新模块323,基于知识策略判别模块得到的更新策略,分别更新任务内、 任务和任务间的知识和索引。具体的,其输入为更新策略,输出为任务内知识、任务知识 和任务间知识。一个示例,知识与索引更新模块323可以包括以下子模块:任务内知识与索引更新模块3231、任务知识与索引更新模块3232、任务间知识与索引更新模块3233。 下面对上述各个子模块的功能进行详细描述。
任务内知识与索引更新模块3231,基于知识策略判别模块得到的更新策略,更新任 务内的知识和索引。具体的,其输入为更新策略,输出为任务内知识。一个示例,任务内知识与索引更新模块3231基于知识策略判别模块得到的更新策略,更新任务内的知识和索引。如运行时数据中的某些样本集被判定为属于知识库中的已有任务,则任务内知识与索引更新模块3231会按照更新策略将样本集作为任务内知识更新到知识库中。
任务知识与索引更新模块3232,基于知识策略判别模块得到的更新策略,更新任务 知识和索引。具体的,其输入为更新策略,输出为任务知识。一个示例,任务知识与索引更新模块3232基于知识策略判别模块得到的更新策略,更新任务知识和索引。如运行时 数据中的某些样本集被判定为属于知识库中的已有任务,且增加新样本后已有任务的任务属性、任务约束等也发生了改变,则任务知识与索引更新模块3232会按照更新策略将新 的任务属性、任务约束等作为任务知识更新到知识库中。
任务间知识与索引更新模块3233,基于知识策略判别模块得到的更新策略,更新任 务间的知识和索引。具体的,其输入为更新策略,输出为任务间知识。一个示例,任务间知识与索引更新模块3233基于知识策略判别模块得到的更新策略,更新任务间知识和索引。如运行时数据中的某些样本集被判定为属于知识库中的已有任务,且增加新样本后已有任务的任务迁移关系、所属任务组等也发生了改变,则任务间知识与索引更新模块3233会按照更新策略将新的任务迁移关系、所属任务组等作为任务间知识更新到知识库中。
应理解,如图5所示,边缘知识库220中的多任务知识更新后,还可以实现边缘知识库220和云端知识库230之间的多任务知识的同步。例如,可以通过边云知识同步模块将 边缘知识库220和云端知识库230的多任务知识进行双向传输,保证其知识的同步。
下面结合一个具体的例子,对知识库的运行阶段进行详细描述,应理解,下面的例子 仅仅是为了帮助本领域技术人员理解本申请实施例,而非要将申请实施例限制于所示例的 具体数值或具体场景。本领域技术人员根据下面所给出的下面的例子,显然可以进行各种 等价的修改或变化,这样的修改和变化也落入本申请实施例的范围内。
配煤质量预测系统是一个复杂的系统,工厂希望通过机器学习的方式来实现配煤质量 的提升,因此需要一个知识库,该知识库中包括在不同煤种配比参数下进行配煤质量预测 的不同的机器学习模型。该不同的机器学习模型的输入为不同煤种配比参数,输出为预测 的不同的配煤质量数值。
在使用前,用户可以根据给定的必选和可选参数进行自定义配置。例如,如图6-图9 所示的自定义配置。下面以配煤质量预测系统为例,分别对知识库的初始化阶段以及运行 阶段的各个模块的功能进行详细描述。
1、知识库的初始化阶段
多任务知识初始化模块211中的任务内知识及其索引表初始化模块2111接收到配煤 多任务知识及其提取器,提取出任务内知识并构建索引表,得到如下表9-表12所示的结果。
表9任务内样本知识
任务内样本地址 样本
root/T1/S1 样本S1-1
root/T1/S1 样本S1-2
root/T2/S2 样本S2-1
表10任务内模型知识
任务内模型地址 模型
root/T1/M1 模型T1-M1
root/T1/M2 模型T1-M2
root/T2/M1 模型T2-M1
表11其他任务内知识
其他任务内知识地址 其他任务内知识
root/T1/O1 模型精度=0.98...
root/T1/O2 模型精度=0.95...
root/T2/O1 模型精度=0.96...
表12任务内知识索引表
Figure BDA0003136278190000151
任务内知识及其索引表初始化模块2111完成任务内知识的提取后,用pickle包将知 识序列化作为任务内知识保存在知识库中,并进入任务知识及其索引表初始化模块2112。
任务知识及其索引表初始化模块2112接收到多任务知识及其提取器和已经提取的任 务内知识,提取出任务知识并构建索引表,得到如下表13所示的结果。
表13任务知识及其索引表
任务索引 任务地址 任务属性 其他属性
01 root/T1 决策树CLF1 样本下限=5...
02 root/T2 决策树CLF2 样本下限=5...
03 root/T3 决策树CLF3 样本下限=5...
任务知识及其索引表初始化模块2112完成任务知识的提取后,用pickle包将知识序 列化作为任务知识保存在知识库中,并进入任务间知识及其索引表初始化模块2113。
任务间知识及其索引表初始化模块2113接收到多任务知识及其提取器和已经提取的 任务知识,提取出任务间知识并构建索引表,得到如上表4-5所示的结果。应理解,同一 场景下的多任务的关系通常由单个任务相关性表统一管理,任务相关性索引表如表14所 示。
表14任务相关性索引表
任务相关性表索引 任务地址
TR01 root/TR1
TR02 root/TR2
TR03 root/TR3
任务间知识及其索引表初始化模块2113完成任务间知识的提取后,用pickle包将知 识序列化作为任务间知识保存在知识库中,并退出多任务知识初始化模块211,完成多任 务知识的初始化。
当多任务知识的初始化完成后,边云知识同步模块212从知识库(边缘知识库220)中读取知识并同步到云端知识库230。
2、知识库的运行阶段
查询命令解析模块3111接收到如上表6所示的一条目标知识类型查询命令后,查询 命令解析模块3111解析出用户A需要查找知识库中与03号数据集相关的任务,接收地址为192.162.10.12。查询命令解析模块3111可以将这些信息作为查询知识项传递给知识反馈模块3112。
知识反馈模块3112接收到的查询知识项如下表15所示,其可以根据查询知识类型为 任务知识,读取03号数据集,并进入任务内知识与索引提取模块3121获取对应的任务知识,并将其作为目标知识输出。
表15查询知识项
接收方地址 查询知识类型 运行时数据(集)ID
192.162.10.12 任务知识 03
比对模块3132接收到任务T4和其任务属性决策树CLF4,根据设定好的适配规则,输出如下表16所示的知识相似度比较方法,并进入知识相似度衡量模块3133。
表16知识相似度比较方法
查找内容 任务属性 知识相似度比较方法
相关任务 决策树CLF4 例如:利用决策树比较任务相似性
上述任务相似度比较方法,实际上包括采用训练样本比对方法、任务模型比对方法、 应用范围比对方法等多种未被提出的新方法。应用范围比对法的原理是当任务模型应用范 围相似时,判断任务模型相似。可以用到不同基础模型上,是上述三种方法中泛用性、精 度和难度都最高的方法。应用范围比对法的一种实现是决策树方法。
应理解,可以为每个任务模型构建一棵决策树,用于判别任务模型是否可用。举例说 明,整个数据集下被划分为若干任务,每个任务有自己的线性回归模型。对于一个任务,整个数据集用任务对应线性回归模型进行预测并与真实的标注进行比较,如果预测正确,则认为“该模型被该样本接受”,为其赋值1,否则为0。然后将整个训练集和01值拼接 作为决策树的输入。决策树会根据其结点的分裂规则和一些参数设定来将样本划分开,使 得每个结点的纯度(如用entropy、gini等衡量)尽可能高。
决策树相似度比较原理是当不同任务的决策树比较相似时,说明任务模型应用范围类 似,也即认为任务是比较相似的。举例说明,可以将每棵决策树提取为多个规则集合,每 个规则是一个二元组:规则=(条件,结论),如(条件:x[0]<=28.818and x[2]<=64.65, 结论:gini=0……)。将两棵决策树所有的条件提取出来,并对齐条件,使得两棵决策树 能够在相同条件下进行结论比较,再综合不同条件下的结论比较,得到最终相似性。
知识相似度衡量模块3133到知识相似度比较方法为“利用决策树比较任务相似性”, 从知识库中读取现有知识,通过相似性衡量算法得到如下表17所示的知识相似度列表, 进入相关知识筛选模块3134。
表17知识相似度列表
任务索引 任务名 距离
05 任务T5 0.59
06 任务T6 0.42
07 任务T7 0.43
08 任务T8 0.51
09 任务T9 0.31
10 任务T10 0.36
相关知识筛选模块3134接收到表17所示的知识相似度列表后,根据设定好的距离阈 值为0.35筛选出如表18所示的相似任务列表,将其作为目标知识返回。
表18筛选出的相似任务列表
任务索引 任务名 距离
09 任务T9 0.31
完成用户命令后,运行时数据和其相关知识作为候选待填充知识进入候选知识缓存 330中等待尚未到达的标注。当其CSR标注到来时,则从候选知识缓存330中读取历史待填充知识和外部的已填充知识进入知识异步整合模块321,将其整合成为完整的如下表19所示的候选更新知识,并进入知识策略判别模块322。
表19候选更新知识
数据id 灰分_x 挥发分_x 硫分_x G值_x CSR(填充)
01 9.77 27.77 0.98 69.75 64.2
02 10.04 29.15 1.04 71.75 65.1
03 10.17 28.92 1.09 71 64.8
知识策略判别模块322中的适配模块3221接收到候选更新知识和其相关知识,根据 设定好的适配规则,输出如下表20所示的知识异同比对方法,并进入知识异同比对模块3222。
表20知识异同比对方法
Figure BDA0003136278190000171
Figure BDA0003136278190000181
知识异同比对模块3222接收到表20所示的知识异同比对方法后,对候选更新知识和 其相关知识进行比对,输出如下表21所示的知识异同比对结果,并进入更新决策模块3223。
表21知识异同比对结果
任务索引 任务属性 任务模型
09 相似 不同
更新决策模块3223接收到表21所示的知识异同比对结果后,根据设定好的更新规则, 输出如下表22-23所示的更新方法。
表22知识更新方法
Figure BDA0003136278190000182
表23知识更新方法
Figure BDA0003136278190000183
任务知识与索引更新模块3232根据更新策略决定对新任务和原9号任务进行重训练, 沿用其任务属性,合并样本并产生新的模型、任务索引以及其他知识。并用新产生的任务 更新替代知识库中原有的9号任务,完成任务知识与索引的更新。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的 先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程 构成任何限定。
上文结合图1至图9,详细描述了本申请实施例提供的方法,下面将结合图10-图11, 详细描述本申请装置的实施例。应理解,方法实施例的描述与装置实施例的描述相互对应, 因此,未详细描述的部分可以参见前面方法实施例。
图10是本申请实施例提供的一种获取知识的装置1000的示意性框图。该获取知识的 装置可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。本申请实施例 提供的装置可以实现本申请实施例图1所示的方法流程,该获取知识的装置1000包括:获取模块1010,显示模块1020,其中:
获取模块1010,用于根据参数从知识库中获取一个或多个第一知识,所述参数包括 以下中的任一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个 机器学习任务之间的知识;
显示模块1020,用于向用户提供所述一个或多个第一知识。
可选地,所述获取模块1010还用于:获取用户输入的所述参数;或从其他系统获取所述参数。
可选地,所述机器学习任务内的知识包括所述机器学习任务的样本集合、模型,所述 模型是根据所述样本集合训练得到的;或所述机器学习任务的属性包括所述机器学习任务 的约束、应用范围;或所述多个机器学习任务之间的知识包括多个所述机器学习任务之间 的关联关系。
可选地,所述获取模块1010,还用于从所述知识库中获取与所述第一知识相关的第 二知识;所述显示模块,还用于向所述用户提供所述第二知识。
可选地,所述显示模块1020还用于:向所述用户提供所述第一知识的配置信息。
可选地,所述获取模块1010还用于:获取用户选择的目标知识,所述目标知识为所述第一知识和/或第二知识。
可选地,所述目标知识用于以下中的任一种场景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
可选地,所述装置1000还包括:同步模块1030,用于边缘设备将所述知识库中的知识同步至云端设备;或所述云端设备将所述知识库中的知识同步至所述边缘设备。
需要说明的是:上述实施例提供的获取知识的装置在图像预测时,仅以上述各功能模 块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块 完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。 另外,上述实施例提供的获取知识的装置与获取知识的方法实施例属于同一构思,其具体 实现过程详见上文中的方法实施例,这里不再赘述。
图11是本申请实施例提供的一种获取知识的设备1100的示意性框图。获取知识的设 备1100中包括设置的获取知识的装置1000,能够执行图,1所示的方法的各个步骤,为了避免重复,此处不再详述。获取知识的设备1100包括:存储器1110、处理器1120以及 输入输出接口1130。
其中,该处理器1120可以与输入输出接口1130通信连接。该存储器1110可以用于存储获取知识的设备1100的程序代码和数据。因此,该存储器1110可以是处理器1120 内部的存储单元,也可以是与处理器1120独立的外部存储单元,还可以是包括处理器1120 内部的存储单元和与处理器1120独立的外部存储单元的部件。
可选的,获取知识的设备1100还可以包括总线1140。其中,存储器1110、输入输出接口1130可以通过总线1140与处理器1120连接。总线1140可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extendedindustry standard architecture,EISA)总线等。所述总线1140可以分为地址总线、数据总线、控制 总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型 的总线。
举例说明,处理器1120例如可以是中央处理器(central processing unit,CPU),通 用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。 其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所 述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处 理器的组合等等。
输入输出接口1130可以是包括上述天线和发射机链和接收机链的电路,二者可以是 独立的电路,也可以是同一个电路。
当存储器1110中存储的获取知识的设备1100的程序代码和数据被执行时,一种可能 的实现方式中,所述处理器1120用于执行以下操作:
根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任一种或多种 的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任务之间的知 识;向用户提供所述一个或多个第一知识。
可选地,所述处理器1120还用于:获取用户输入的所述参数;或从其他系统获取所述参数。
可选地,所述机器学习任务内的知识包括所述机器学习任务的样本集合、模型,所述 模型是根据所述样本集合训练得到的;或所述机器学习任务的属性包括所述机器学习任务 的约束、应用范围;或所述多个机器学习任务之间的知识包括多个所述机器学习任务之间 的关联关系。
可选地,所述处理器1120还用于:从所述知识库中获取与所述第一知识相关的第二 知识;向所述用户提供所述第二知识。
可选地,所述处理器1120还用于:根据所述第一知识确定对应的知识相似度比较方 法;根据所述知识相似度比较方法从所述任务知识库中获得相似知识列表;根据相似度阈 值从所述相似知识列表中确定所述第二知识。
可选地,所述处理器1120还用于:向所述用户提供所述第一知识的配置信息。
可选地,所述处理器1120还用于:获取用户选择的目标知识,所述目标知识为所述第一知识和/或第二知识。
可选地,所述目标知识用于以下中的任一种场景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
可选地,所述处理器1120还用于:根据所述第一知识和所述第二知识,对所述任务知识库进行更新。
可选地,所述处理器1120具体用于:根据所述第一知识和所述第二知识确定知识异 同对比方法;根据所述知识异同对比方法得到知识异同对比结果,所述知识异同对比结果 为所述第一知识和所述第二知识之间的异同对比结果;根据所述异同对比结果以及更新规 则,对所述任务知识库中的以下任一种或多种知识的组合进行更新:所述机器学习任务内 的知识、所述机器学习任务的属性、多个所述机器学习任务之间的知识。
可选地,所述处理器1120还用于:边缘设备将所述知识库中的知识同步至云端设备; 或所述云端设备将所述知识库中的知识同步至所述边缘设备。
上述描述的各示例的模块,能够以电子硬件、或者计算机软件和电子硬件的结合来实 现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条 件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种 实现不应认为超出本申请的范围。
本申请实施例还提供一种芯片,该芯片获取指令并执行该指令来实现上述获取知识的 方法,或者该指令用于实现上述的获取知识的设备。
可选地,作为一种实现方式,该芯片包括处理器与数据接口,该处理器通过该数据接 口读取存储器上存储的指令,执行上述获取知识的方法。
可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该 处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行上述获取 知识的方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有指令, 该指令用于上述方法实施例中的获取知识的方法,或者该指令用于实现上述的获取知识的 设备。
本申请实施例还提供一种包含指令的计算机程序产品,该指令用于实现上述方法实施 例中的获取知识的方法,或者该指令用于实现上述的获取知识的设备。
一种实现举例,处理器可以为中央处理单元(central processing unit,CPU),该处理 器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成 电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组 件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
一种实现举例,存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非 易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、 可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪 存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部 高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取 存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数 据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步 动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器 (synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM, DR RAM)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情 况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是 一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理 解。
本申请中,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c 中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也 可以是多个。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装 置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储 在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现 有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算 机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前 述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存 取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介 质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟 悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖 在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种获取知识的方法,其特征在于,包括:
根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任务之间的知识;
向用户提供所述一个或多个第一知识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户输入的所述参数;或
从其他系统获取所述参数。
3.根据权利要求1或2所述的方法,其特征在于,
所述机器学习任务内的知识包括所述机器学习任务的样本集合、模型,所述模型是根据所述样本集合训练得到的;或
所述机器学习任务的属性包括所述机器学习任务的约束、应用范围;或
所述多个机器学习任务之间的知识包括多个所述机器学习任务之间的关联关系。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
从所述知识库中获取与所述第一知识相关的第二知识;
向所述用户提供所述第二知识。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述用户提供所述第一知识的配置信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
获取用户选择的目标知识,所述目标知识为所述第一知识和/或第二知识。
7.根据权利要求6所述的方法,其特征在于,所述目标知识用于以下中的任一种场景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
边缘设备将所述知识库中的知识同步至云端设备;或
所述云端设备将所述知识库中的知识同步至所述边缘设备。
9.一种获取知识的装置,其特征在于,包括:
获取模块,用于根据参数从知识库中获取一个或多个第一知识,所述参数包括以下中的任一种或多种的组合:机器学习任务内的知识、所述机器学习任务的属性、多个机器学习任务之间的知识;
显示模块,用于向用户提供所述一个或多个第一知识。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还用于:
获取用户输入的所述参数;或
从其他系统获取所述参数。
11.根据权利要求9或10所述的装置,其特征在于,
所述机器学习任务内的知识包括所述机器学习任务的样本集合、模型,所述模型是根据所述样本集合训练得到的;或
所述机器学习任务的属性包括所述机器学习任务的约束、应用范围;或
所述多个机器学习任务之间的知识包括多个所述机器学习任务之间的关联关系。
12.根据权利要求9至11中任一项所述的装置,其特征在于,
所述获取模块,还用于从所述知识库中获取与所述第一知识相关的第二知识;
所述显示模块,还用于向所述用户提供所述第二知识。
13.根据权利要求9所述的装置,其特征在于,所述显示模块还用于:
向所述用户提供所述第一知识的配置信息。
14.根据权利要求9至13中任一项所述的装置,其特征在于,所述获取模块还用于:
获取用户选择的目标知识,所述目标知识为所述第一知识和/或第二知识。
15.根据权利要求14所述的装置,其特征在于,所述目标知识用于以下中的任一种场景:
智能驾驶的物品识别;
智能驾驶的人物识别;
开发者平台;
人工智能的市场平台;
物联网的市场平台;
解决方案的市场平台。
16.根据权利要求9至15中任一项所述的装置,其特征在于,还包括:
同步模块,用于边缘设备将所述知识库中的知识同步至云端设备;或所述云端设备将所述知识库中的知识同步至所述边缘设备。
17.一种获取知识的设备,其特征在于,包括处理器和存储器;所述处理器运行所述存储器中的指令,使得所述获取知识的设备执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,包括指令;所述指令用于实现如权利要求1至8中任一项所述的方法。
CN202110720333.1A 2021-04-29 2021-06-28 获取知识的方法和装置 Pending CN115271087A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/CN2021/115192 WO2022227355A1 (zh) 2021-04-29 2021-08-30 获取知识的方法和装置
EP21938819.6A EP4307185A1 (en) 2021-04-29 2021-08-30 Method and apparatus for acquiring knowledge
US18/492,754 US20240054364A1 (en) 2021-04-29 2023-10-23 Knowledge obtaining method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110473240 2021-04-29
CN2021104732403 2021-04-29

Publications (1)

Publication Number Publication Date
CN115271087A true CN115271087A (zh) 2022-11-01

Family

ID=83745391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110720333.1A Pending CN115271087A (zh) 2021-04-29 2021-06-28 获取知识的方法和装置

Country Status (4)

Country Link
US (1) US20240054364A1 (zh)
EP (1) EP4307185A1 (zh)
CN (1) CN115271087A (zh)
WO (1) WO2022227355A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976B (zh) * 2010-01-15 2013-04-10 南京邮电大学 一种云计算环境下机器学习自动选择方法
US11138517B2 (en) * 2017-08-11 2021-10-05 Google Llc On-device machine learning platform
US11537931B2 (en) * 2017-11-29 2022-12-27 Google Llc On-device machine learning platform to enable sharing of machine-learned models between applications
US11501191B2 (en) * 2018-09-21 2022-11-15 International Business Machines Corporation Recommending machine learning models and source codes for input datasets
CN111369011A (zh) * 2020-04-16 2020-07-03 光际科技(上海)有限公司 机器学习模型应用的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2022227355A1 (zh) 2022-11-03
US20240054364A1 (en) 2024-02-15
EP4307185A1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
EP3392780A2 (en) Systems and methods for classification of software defect reports
US20170004413A1 (en) Data driven classification and data quality checking system
CN106202380B (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
Kotthoff LLAMA: leveraging learning to automatically manage algorithms
US10083403B2 (en) Data driven classification and data quality checking method
US11455161B2 (en) Utilizing machine learning models for automated software code modification
US20220101057A1 (en) Systems and methods for tagging datasets using models arranged in a series of nodes
US20210366065A1 (en) Contract recommendation platform
CN112836509A (zh) 一种专家系统知识库构建方法及系统
Kassner et al. Exploring text classification for messy data: An industry use case for domain-specific analytics.
Lei et al. Time-aware semantic web service recommendation
Kozmina et al. Information requirements for big data projects: A review of state-of-the-art approaches
CN113299380A (zh) 基于智慧医疗大数据的信息提示方法及智慧医疗服务系统
Rubei et al. A lightweight approach for the automated classification and clustering of metamodels
Sosnowski Framework of compound object comparators
CN115271087A (zh) 获取知识的方法和装置
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
Riesener et al. Methodology for Automated Master Data Management using Artificial Intelligence
US20220350967A1 (en) Utilizing machine learning and natural language processing to determine mappings between work items of various tools
US20220292393A1 (en) Utilizing machine learning models to generate initiative plans
Liu et al. Speeding up joint mutual information feature selection with an optimization heuristic
CN112182218A (zh) 文本数据的分类方法及装置
US20240045831A1 (en) Utilizing a machine learning model to migrate a system to a cloud computing environment
US20240134616A1 (en) Intelligent adaptive self learning framework for data processing on cloud data fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination