CN116888602A - 可解释转导器变换器 - Google Patents

可解释转导器变换器 Download PDF

Info

Publication number
CN116888602A
CN116888602A CN202180093586.9A CN202180093586A CN116888602A CN 116888602 A CN116888602 A CN 116888602A CN 202180093586 A CN202180093586 A CN 202180093586A CN 116888602 A CN116888602 A CN 116888602A
Authority
CN
China
Prior art keywords
xtt
interpretable
input
interpretation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180093586.9A
Other languages
English (en)
Inventor
A·达利
M·格雷奇
M·皮罗内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Umnai Co ltd
Original Assignee
Umnai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Umnai Co ltd filed Critical Umnai Co ltd
Publication of CN116888602A publication Critical patent/CN116888602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Neurology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Measuring Fluid Pressure (AREA)

Abstract

可解释转导器变换器(XTT)可以是连同可解释变换器(Explainable Transformer)一起的有限状态转导器。XTT的变型可以包括可解释Transformer‑编码器和可解释Transformer‑解码器。示例性可解释转导器可以用作经训练的可解释神经网络(XNN)架构或逻辑等效架构中的部分替代品。在Transformer的编码器层和解码器层两者的子层中,可解释Transformer可以用白盒模型等效物来替换Transformer的黑盒模型组件。XTT可以利用解释和解译生成系统(EIGS)来生成解释并过滤这种解释以产生对回答、解释及其理由的解译。

Description

可解释转导器变换器
技术领域
示例性实施例涉及机器学习系统领域。
背景技术
转导器(transducer)是允许机器学习系统将数据从输入语言翻译、映射和转换为第二种输出语言的基本模型之一。有限状态转导器(FST)是在两个或者更多个磁带上工作的有限状态自动机,并且比在单个磁带上工作的普通有限状态自动机(FSA)更通用。FST定义了字符串集合之间的关系,并且因此可以被视为两个不同输入和输出集合中出现的字符串之间的基本翻译器或变换器。
如图1所示,有限状态转导器(FST)可以被定义为6元组<K,∑,,s,γ,Δ>,其中K表示有限状态集合,∑表示输入符号的字母表,表示输出符号的字母表,s表示开始状态,使得s∈K,γ表示输出函数,使得γ:K→*,并且Δ表示转换函数。有限状态转导器是可以将一个磁带转换成另一个磁带的有限状态自动机。以正式的方式,输入磁带和输出磁带可以被切换,因此有限状态转导器是双向的。在图1所示的示例性FST中,存在通向终端状态120的四个转换路径100、105、110和115。可以添加附加的有限状态语法来表达FST中强大的匹配和转换规则(Karttunen,2000年)。
有限状态转导器(FST)可以是将输入语言翻译成另一种语言的基本组件。变换器(Transformer)(Vaswani等人,2017年)可以是具有基于注意力的架构的FST的自然演变,其在诸如自然语言处理(NLP)和图像分类的各个领域中提供了现有技术的结果。与其他架构(诸如LSTM架构和CNN架构)相比,变换器需要的训练时间要少得多,因为它的组件是并行化的,诸如同时计算查询、键和值。
变换器架构可以分为编码器组件和解码器组件。
对编码器组件的输入可以包括输入嵌入和输入标记的位置编码的总和。位置编码是必需的,因为与其中输入标记被顺序插入并因此保留输入标记的顺序的顺序架构(诸如递归神经网络)不同,在变换器(Vaswani等人,2017年)中,没有词语顺序的概念。如变换器(Vaswani等人,2017年)架构中所示,编码器层的架构可以包括两个子层。如图2所示,第一子层可以包括多头注意力组件215,随后是相加和归一组件217。第二子层可以包括前馈神经网络组件230,紧随其后是相加和归一组件232。多头注意力组件可以包括缩放点积注意力(Vaswani等人,2017年)的多个实例,其中每个实例都有自己的权重,以改进模型的泛化。每个实例{zo,…,zn}的输出矩阵被连接并乘以一个权重矩阵Wo,得到一个输出矩阵。
如变换器(Vaswani等人,2017年)架构中所示,解码器层的架构可以包括三个子层。第一子层由掩码的多头注意力组件250、紧随其后的相加和归一组件252构成。第二子层由多头注意力(编码器-解码器)组件240、紧随其后的相加和归一组件242构成。如图2所示,第三子层由前馈网络组件270、紧缩其后的相加和归一组件272构成。编码器-解码器注意力组件类似于多头注意力组件,但是查询向量Q来自解码器层的前一个子层,并且从最终编码器层的输出中检索出键向量K和值向量V。掩码的多头注意力组件是具有修改的多头注意力组件,使得自注意力层仅被允许注意输入标记的较早位置。解码器层的输出可以连接到线性层280,紧随其后是SoftMax计算以生成表示预测标记的输出词汇的概率290。解码器组件的输入可以包括输出标记260的标记嵌入和位置编码295。
变换器架构(Vaswani等人,2017年)的核心组件是注意力组件。变换器可以有三种类型的注意力机制:编码器自注意力、解码器自注意力和编码器-解码器注意力。编码器自注意力的输入是变换器的源输入标记,或者是前一编码器层的输出。编码器自注意力组件没有掩码,并且每个标记与其他输入标记具有全局依赖性。解码器自注意力组件使用变换器的输出标记作为输入标记,或者使用前一解码器层的输出。在解码器自注意力中,输入标记依赖于先前的输入标记。在编码器-解码器注意力组件中,从解码器层的前一组件中检索出查询,并且从编码器的输出中检索出键和值。
除了编码器-解码器注意力之外,自注意力的输入inpq、inpw和inpk在变换器中是相同的。如变换器所示的自注意力可以如等式1所示来说明。
其中:Q是指由一组查询构成的矩阵,K是指由一组键构成的矩阵,V是指由一组值构成的矩阵,并且dk是指键和查询的维数。
Tsai等人的工作(2019年)从内核的角度提出了变换器中注意力机制的新公式。Tsai等人的工作(2019年)使用过滤函数M作为内核公式中的掩码机制。变换器的解码器模块中的自注意力的掩码可能需要过滤函数M。Tsai等人的工作(2019年)通过引入可定制性和更好地理解注意力组件,诸如内核特征空间、内核的构造和位置嵌入、值函数和过滤函数的结合,使得能够更好地理解注意力机制。
来自变换器的双向编码器表示(BERT)(Devlin等人,2018年)是一种基于变换器(Vaswani等人,2017年)的编码器组件的架构,其被设计为以自我监督的方法构建输入标记的双向上下文表示。
BERT(Devlin等人,2018年)使用掩码语言建模来对随机输入标记进行随机掩码,并设置预训练目标来预测掩码输入标记的原始标记。BERT通常随机对15%的输入标记进行掩码。随机掩码的输入标记有80%的几率被[掩码]([MASK])标记替换,10%的几率被另一随机标记替换,10%的几率保持不变。BERT(Devlin等人,2018年)也可以使用下一句预测(NSP)作为预训练目标,以预测第二输入句是否是第一输入句的下一句。这对于多个下游任务(诸如问答预测)非常有用。NSP预训练目标可以有50%的机会输入的第二个句子是跟随第一个输入句子的实际句子,并且有50%的机会输入的第二个句子是来自训练数据集的随机句子。
BERT使用WordPiece嵌入(Wu等人,2016年)作为输入标记。输入标记的WordPiece嵌入与区段嵌入和位置嵌入相加以创建BERT输入。也可以使用诸如监督分类的方法来针对下游任务微调BERT,以针对选定的任务构建经过微调的模型。
嵌入还可以表示非文本信息,诸如从叙述的指导视频中提取的上下文化对象嵌入(COBE),它使用视觉检测器来预测对象及其相关联的叙述的上下文化的单词嵌入(Bertasius和Torresani,2020年)。
ELMo(Peters等人,2018年)构建了考虑语言上下文、句法和语义特征的单词表示。从双向语言模型的内部状态中检索出产生的单词表示。
生成式预训练变换器(GPT)(等人,2018年)是一种基于变换器(Vaswani等人,2017年)的变型(刘等人,2018年)的解码器组件的架构,其被设计为在未标记文本的大型语料库上学习模型,并使用该模型进行微调,以适应具有标记数据的分类任务。GPT预训练的目标是将可能性最大化,如等式2所示。
ilog P(ui|ui-k,...,ui-1;Θ) (2)
其中:P是条件概率,其通过使用具有相应参数Θ的神经网络架构被建模;u是未标记语料库U中的标记,使得U={u1,...,un};并且k是GPT架构的输入上下文窗口。
通过附加线性层来预测分类标签,并最大化等式3中所示的目标,针对监督任务微调已训练的GPT架构。
(x,y)log P(y|x1,...,xm) (3)
其中:P是条件概率、y是分类标签,并且{x1,...,xm}是输入标记。
Hoover等人(2019)提出EXBERT,这是一种用于理解BERT注意力机制的交互式工具。EXBERT可以通过提供关于所学上下文表示的见解来说明潜在的归纳偏差。输入序列inputs的注意力,其中inputs=[token1,token2,...,,tokenn],可以定义为n×n矩阵。EXBERT将输入序列的注意力关系在任何编码层处表示为n×n矩阵,在任何编码器层、注意力头或聚合的注意力值,连同使用余弦相似性在语料库中搜索特定标记以检索前50个匹配的功能,以及搜索的语料库中匹配的元数据(诸如POS和NER)的概要的显示。
树变换器(Wang等人,2019年)是一种基于编码器的变换器架构,具有对注意力头的约束,以遵循基于树的层次结构。使用成分注意力模块来实现该约束,以从语料库中学习树结构。树变换器层由多头注意力子层、成分注意力模块和前馈子层构成。成分先验由成分注意力模块计算。多头注意力的注意力是由成分先验引导的。成分注意力模块通过生成序列u={u1,u2,...,un}来生成成分先验。u中的元素表示相应的输入标记(例如,w1)及其相邻标记(例如,w2)属于同一成分块的概率。断点由小概率值指示,触发新成分块的构造。序列u使用相邻注意力和层次约束来构造。树变换器方法可以被分类为灰盒方法,并且因此跟踪激活路径是不可能的。我们提出的方法在基于变换器的架构中引入(induce)白盒组件来生成全局和局部解释。
EQ变换器(Mousavi等人,2020年)基于层次关注模型,使用一个编码器和三个解码器进行地震检测。编码器的输入包括地震信号,以生成时间依赖性的上下文表示。解码器使用该学习到的信息将其映射到与每个时间点的地震信号、P相和S相的存在相关联的概率向量。
变换器架构可用于图像合成(Weissenborn等人,2020年)、多对象跟踪(张等人,2020年)、音乐生成(黄等人,2018年)、3D对象检测(杨等人,2019年)、点云处理(郭等人,2020年)、时间序列预测(Lim等人,2020年)、视觉语言建模(李等人,2019年)以及端到端对象检测(朱等人,2020年)。
变换器架构是一个黑盒机器学习模型。变换器(Vaswani等人,2017年)、BERT(Devlin等人,2018年)以及GPT(Radford等人,2018年)中的黑盒前馈神经网络组件无法为生成的预测提供解释。在预训练期间,在变换器中学习的注意力仍然是一个黑盒,可能无法捕捉人类对层次结构的直觉。EXBERT对学习到的注意力提供了一定程度的事后分析,然而基于变换器的架构仍然是一个黑盒模型。我们提出的方法在基于变换器的架构中引入白盒组件来生成全局和局部解释。
发明内容
根据至少一个示例性实施例,可以示出并描述用于可解释转导器和可解释变换器的方法、系统和装置。
转导器可以允许机器学习系统将数据从输入语言翻译、映射和变换为第二种输出语言。转导器通常被实现为有限状态转导器(FST)。
示例性变换器可以是基于解码器和编码器组件的组合的基于注意力的架构,并且可以在各种机器学习应用中提供最高标准的结果。变换器可以被认为是FST的复杂演变,具有基于注意力的架构。
示例性实施例可以将FST与可解释变换器组合起来以产生示例性可解释转导器变换器(XTT)。可以考虑XTT变型,诸如可解释变换器-编码器和可解释变换器-解码器。
示例性可解释转导器可以用作经训练的可解释神经网络(XNN)架构或逻辑等效架构中的部分替代品。
在变换器的编码器层和解码器层两者的子层中,示例性可解释变换器用白盒模型等效物来替换变换器的黑盒模型组件。
XTT可以利用解释和解译生成系统(EIGS)来生成解释并过滤该解释以产生对回答、解释及其理由的解译。
在第一方面,本公开提供一种可解释的机器学习系统,包括:有限状态转导器FST,其被配置为允许机器学习系统将数据从输入语言翻译、映射并变换成第二输出语言,其中有限状态转导器适用于从输入语言接收数据,该数据包括用于变换的一个或多个输入特征或者变换一个或多个输入特征,并且有限状态转导器还被配置为基于一个或多个输入特征提供经翻译、经映射和/或经变换的数据作为第二输出语言;和/或可解释变换器,其具有基于解码器和编码器组件的组合的基于注意力的架构,该解码器和编码器组件是相对于来自输入语言的数据而形成的,其中有限状态转导器和可解释变换器被配置为组合起来以产生可解释转导器变换器(XTT),其被配置为将数据从输入语言进行翻译、映射和变换。
在第二方面,本公开提供了一种用于提供可解释转导器-变换器的系统,包括:输入层,其被配置为接收输入并识别一个或多个特征;条件网络,包括:条件层,其被配置为基于一个或多个分区对输入特征进行建模,其中该一个或多个分区中的每个分区包括规则;聚合层,其被配置为将一个或多个规则聚合到一个或多个聚合分区中;以及交换输出层,其被配置为选择性地将来自聚合层的聚合分区与来自条件层的一个或多个分区池化;预测网络,包括:特征生成和变换网络,其包括被配置为将一个或多个变换应用于输入特征的一个或多个变换神经元;拟合层,其被配置为将已经由特征生成和变换网络变换的特征组合起来,以识别与以下至少一项相关的一个或多个系数:一个或多个特征和一个或多个分区;值输出层,其被配置为分析一个或多个系数,并且被配置为输出与一个或多个特征或者一个或多个分区中的至少一者相关的值;以及编码层和解码层,其中该编码层和解码层中的至少一个包括从输入形成的可解释架构;输出层,其被配置为生成可由机器程序或人中的至少一者解译和解释的输出;其中贯穿分区的一个或多个执行路径可由外部处理识别。
在第三方面,本公开提供了用于部署第一和/或第二方面中描述的系统的计算机实现的方法。
本文描述的方法可以以机器可读形式由软件在有形存储介质上执行,例如以计算机程序的形式,包括当程序在计算机上运行并且其中计算机程序可以体现在计算机可读介质上时,适于执行本文描述的任何方法的所有步骤的计算机程序代码部件。有形(或非暂时性)存储介质的示例包括磁盘、拇指驱动器、存储卡等,并且不包括传播的信号。软件可适于在并行处理器或串行处理器上执行,使得方法步骤可以以任何合适的顺序或同时执行。
优选特征可以适当地组合,这对于技术人员来说是显而易见的,并且可以与本发明的任何方面组合。
附图说明
本发明的实施例的优点将从以下对其示例性实施例的详细描述中显而易见,该描述应结合附图来考虑,在附图中,相同的数字表示相同的元素,其中:
图1是有限状态转导器(现有技术)的示例性实施例。
图2是从Vaswani等人(2017年)采用的变换器(现有技术)的示例性实施例。
图3是示例性的可解释神经网络(XNN)架构。
图4是示例性的XNN架构。
图5是示例性的可解译神经网络(INN)架构。
图6是使用在具有分区信息的编码器和解码器组件中的可解释架构的可解释变换器架构的示例性实施例。
图7是具有并行可解释编码器组件和并行可解释解码器组件的可解释变换器架构的示例性实施例。
图8是(a)变换器编码器(现有技术)的示例性实施例和(b)可解释变换器编码器(XTT-编码器)的示例性实施例。
图9是(a)变换器解码器(现有技术)的示例性实施例和(b)可解释变换器解码器(XTT-解码器)的示例性实施例。
图10是(a)具有下游分类任务的XTT-编码器的示例性实施例和(b)具有下游分类任务的XTT-解码器。
图11是分布式XTT训练系统的示例性实施例。
图12是可解释有限状态转导器的示例性实施例。
图13是用于在示例性XNN中嵌入基于规则的知识的系统的示例性实施例。
图14是示出示例性解释和结果过程的示例性示意流程图。
图15是示出示例性归纳方法的示例性示意流程图。
图16是CNN-XTT架构的示例性实施例。
图17是实现反向索引机制的CNN-XTT的示例性实施例。
图18是基于ML的系统中安全和保证的示例性行为模型。
图19是具有因果模型的示例性XTT。
图20是具有多任务交叉学习结构的示例性可解释系统。
图21是具有(a)单向交叉链路和(b)双向交叉链路的示例性多任务交叉学习结构。
图22是用于在识别-评估-推荐-解决(IAR)框架内使用XTT进行文档处理的示例性解释结构模型(ESM)。
图23是使用示例性XTT系统从文档数据创建示例性自动草稿因果模型。
具体实施方式
在下面的描述和针对本发明的具体实施例的相关附图中公开了本发明的各个方面。在不脱离本发明的精神或范围的情况下,可以设计可替代实施例。另外,本发明的示例性实施例的公知元件将不被详细描述或者将被省略,以便不模糊本发明的相关细节。此外,为了便于理解描述,下面是对本文使用的几个术语的讨论。
如本文所使用的,词语“示例性的”意味着“用作示例、实例或说明”。本文描述的实施例不是限制性的,而是仅仅是示例性的。应当理解,所描述的实施例不一定被解释为比其他实施例更优选或更有优势。此外,术语“本发明的实施例”、“实施例”或“发明”并不要求本发明的所有实施例都包括所讨论的特征、优点或操作模式。
此外,本文描述的很多实施例是根据将由例如计算设备的元件执行的动作序列来描述的。本领域技术人员应该认识到,本文描述的各种动作序列可以由特定电路(例如,专用集成电路(ASIC))和/或由至少一个处理器执行的程序指令来执行。另外,本文描述的动作序列可以完全体现在任何形式的计算机可读存储介质中,使得动作序列的执行使能至少一个处理器来执行本文描述的功能。此外,本文描述的动作序列可以体现在硬件和软件的组合中。因此,本发明的各个方面可以以许多不同的形式来体现,所有这些形式都被认为在所要求保护的主题的范围内。另外,对于本文描述的每个实施例,任何这样的实施例的对应形式可以在本文中被描述为例如“被配置为”执行所描述的动作的“计算机”。
术语可解译和可解释可以有不同的含义。可解译性可以是需要根据解译器来定义的特征。解译器可以是使用以下组合来解译系统输出或人工制品的代理:(i)它自己的知识和信仰;(ii)目标-行动计划;(iii)语境;及(iv)世界环境。典型的解译器可以是知识渊博的人。
知识渊博的人类解译器的替代方案可以是合适的自动化系统,诸如狭窄领域中的专家系统,其可以为有限范围的应用解译输出或人工制品。例如,医学专家系统或者诸如端到端机器学习系统的一些逻辑等效物可能能够在一组特定的医学应用领域中输出对医学结果的有效解译。
可以设想,未来可以创建非人类口译员,其可以部分或完全取代人类口译员的角色,和/或将口译能力扩展到更广泛的应用领域。
可解译性可以有两种不同类型:(i)模型可解译性,其测量任何形式的自动化或机械模型及其子组件、结构和行为的可解译性;以及(ii)输出可解译性,其测量任何形式的自动化或机械模型的输出的可解译性。
因此,可解译性可能不是一个简单的二元特征,而是可以在从完全可解译到不可解译的滑动尺度上进行评估。模型可解译性可以是产生输出的底层实施例、实现方式和/或过程的可解译性,而输出可解译性可以是输出本身或正在检查的任何人工制品的可解译性。
机器学习系统或合适的可替代实施例可以包括多个模型组件。如果模型组件的内部行为和功能可以由解译器针对可能输入的子集完全理解并正确预测,则该模型组件可以是模型可解译的。在一个实施例中,模型组件的行为和功能可以以各种方式实现和表示,诸如状态转换图、过程流程图或过程描述、行为模型或一些其他合适的方法。对于可能输入的子集,如果模型组件的输出可以被解译器理解和正确解译,则模型组件可以是输出可解译的。
示例性机器学习系统或合适的可替代实施例可以是:(i)如果它是完全模型可解译的(即,它的所有组件都是模型可解译的),则是全局可解译的;或(ii)如果它是部分模型可解译的(即,只有它的一些组件是模型可解译的),则是模块可解译的。此外,如果机器学习系统或合适的可替代实施例的所有输出都是输出可解译的,则该机器学习系统或合适的替代实施例可以是局部可解译的。
灰盒是黑盒和白盒特征的混合体,在输出方面可能具有白盒的特征,但在内部行为或功能方面可能具有黑盒的特征。
白盒可以是完全模型可解译和输出可解译系统,它可以实现局部和全局可解释性两者。因此,完全白盒系统在内部功能和输出两者方面都是完全可解释和完全可解译的。
黑盒可能是输出可解译的,但不是模型可解译的,并且可能实现有限的局部可解释性,使其最难解释,几乎没有可解释性能力,并且对内部功能的理解最少。深度学习神经网络可以是输出可解译但模型不可解译的系统。
灰盒可以是部分模型可解译并且输出可解译的系统,并且可以在内部功能方面部分可解释而在输出方面可解译。因此,示例性灰盒可以在最可解释和可解译(白盒)到最不可解释和可解译(黑盒)的尺度上介于白盒和黑盒之间。灰盒系统可能具有一定程度的模块可解译性,因为它们的一些组件可能是模型可解译的。
可解释变换器XTT模型中使用的可解释架构包括但不限于可解释人工智能(XAI)模型、可解译神经网络(INNs)、可解释神经网络(XNN)、可解释脉冲网络(XSN)和可解释记忆网络(XMN)模型。另一示例性实施例可以提出用于通过利用可解释强化学习(XRL)的白盒性质来检测全局和局部偏差的方法。
尽管一些示例可以具体地参考这些实施例中的一个或多个(例如,仅XAI或XNN),但可以预期,本文描述的任何实施例可以可互换地应用于XAI、XNN、XTT、XSN、或XMN。另一个示例性实施例可以涉及可解译神经网络(INN)和相关灰盒模型中的偏差检测,灰盒模型可以是黑盒模型与白盒模型之间的混合。示例性实施例可以完全应用于灰盒模型的白盒部分,并且可以应用于灰盒模型的黑盒部分的至少一些部分。可以设想,本文描述的任何实施例也可以可互换地应用于INN。
可解释神经网络(XNN)是一种内在可解译并且可解释的新型人工神经网络(ANN)。XNN背后的主要概念是它的内部网络结构是完全可解译的。可解译性建立在架构本身内,但它的功能就像一个标准的神经网络。这消除了应用附加的技术或处理来对神经网络结果进行解译的需要。XNN在单个前馈步骤中计算回答及其解释两者,而不需要任何模拟、迭代、扰乱等。XNN还被设计为在软件和硬件两者中都可以高效地轻松实现,从而大大改进了速度和空间。
XNN可以将多个局部模型组合成一个全局模型。局部模型分析整个搜索空间内的一小块区域。全局模型是关于用整体的观点来理解模型。XNN可以实现—表示局部区域的多个分区和多个线性模型两者以解释每个分区,它们组合起来构成全局模型。XNN通过在神经网络本身中嵌入变换来支持线性和非线性数据两者,同时保持可解释性。XNN中的每一层、神经元和连接都有一个精确的、众所周知的和可理解的功能,不像标准ANN是一个黑盒。因此,XNN是第一个已知的全白盒ANN,产生了可理解和可解译的新类别的神经网络。
现在参照示例性图13,图13可以是示出嵌入在XNN中的基于规则的知识或逻辑上等价的知识的示意性流程图。首先,可以使用可以参考多个规则和编码知识的定位方法来选择分区条件2902。分区可以是非重叠的,或者是重叠的。在非重叠分区的情况下,XNN可以采用前馈模式中的单个路径。在重叠分区的情况下,XNN可以采用前馈模式中的多个路径,并且可以为每个路径计算概率或排名分数。在可替代实施例中,重叠分区也可以利用聚合函数,该聚合函数组合来自激活分区的结果。分区条件2902可以被解译为将XNN聚焦到所表示的模型的特定区域上。分区定位方法可以典型地以模板2904给出的形式实现,在该模板中使用合取范式(normal form)(CNF)或诸如析取范式(DNF)的逻辑等价物重复地将各种特征2906与实数2908进行比较。在可替代实施例中,可以利用其他非布尔逻辑系统,诸如1型或2型模糊逻辑系统、模态逻辑、量子逻辑、概率逻辑或用于表达逻辑或类似陈述的其他合适类型的逻辑系统。
定位方法值、条件和基础方程可以使用诸如XAI模型归纳方法或逻辑等价方法的外部处理来选择和识别。在可替代实施例中,可以使用诸如反向传播的梯度下降方法的端到端方法来部分地或完全地引入定位值、条件和基础方程。对所选择的值进行迭代测试和变化,直到在将模型拟合到所提供的相关测试或合成数据和/或通过迭代查询初始黑盒预测器模型时得到一定级别的精度。XNN可以在定位或聚焦模块中具有四个示例性组件,它们可以是条件网络、即输入层2910、条件层2912、值层2914和输出层2916的一部分。
输入层2910可以被构造为接收需要由XNN处理的各种特征。输入层2910通过条件层2912馈送经处理的特征,其中每次激活打开一组神经元。条件层可能要求在传递输出之前满足一个条件。此外,输入可以由值层2914附加地进行分析。输出X的值(在计算整数或实值等的情况下)或类别(在分类应用等的情况下)X由值层2914所计算的等式X.e给出。X.e函数结果可用于产生输出2916。可以设想,条件层和值层可以以任何顺序或同时出现。
现在参照示例性图3,图3可以示出示例性高级别XNN架构的示意图。输入层402可以可能同时被输入到条件网络410和预测网络420两者中。条件网络410可以包括条件层412、聚合层414和交换输出层(其输出条件值)416。预测网络420可以包括特征生成和变换422、拟合层424和预测输出层(值输出)426。这些层可以由选择和排序层428来进行分析,选择和排序层428可以将交换输出乘以值输出,产生经过排序或评分的输出430。可以通过条件网络和预测网络由XNN同时计算解释和回答。选择和排序层428可以确保回答和解释在被发送到输出430之前被正确地匹配、排序和适当地评分。
条件网络410和预测网络420的处理被设想为是以任何顺序进行的。根据XNN的具体应用,可以设想条件网络410的一些组件(如组件412、414和416)可以是可选的,或者用简单的实现来替换。根据XNN的具体应用,还可以设想预测网络420的一些组件(诸如组件422、424和426)可以是可选的,或者用简单的实现来替换。
还可以设想,在一些情况下,选择和排序层428和输出430可以组合成一个集成组件。为了优化的目的,XNN也可以用条件网络410和预测网络420两者连同它们的所有组件一起合并成一个网络来实现。该合并的条件和预测网络还可以与组合的选择和排序层428和输出430合并。这种优化仍将得到逻辑上等价的XNN,这对于前馈处理可能更快。
因此,XNN可以以这样的方式实现,即存在输入层402以及条件网络410和预测网络420的组合,包括条件层412、聚合层414、交换输出层416、特征生成和变换层422、拟合层424、预测层426和排序层428,通向输出层430。这种组合可以应用于XNN的所有实施例和实现方式,包括软件和硬件实现两者。在这方面,XNN的变换能力在其他神经网络实现中是独特的和无法比拟的,因为XNN的白盒性质允许在不影响XNN的逻辑行为的情况下执行灵活性和极端合并,尽管这影响实际实现的各种属性,诸如大小/空间使用、性能、资源使用、可训练性和总吞吐量。
现在参考图4,图4可以示出组合来自交换输出层和值输出层的结果的示例性XNN架构。图4中描绘的示例在逻辑上等价于以下示例性规则集:
可以在输出层520中的激活函数之后找到规则集。图4中的示例性架构可以从输入400开始。输入400可以在诸如图3中所示的项目402的适当输入层内被处理。然后,输入可以被用作条件网络410和预测网络420的输入。如图4所示,预测网络可以包含特征生成和变换层422、拟合层424和值输出层426。值输出层426可以提供对输入的不同特征进行加权的方程。此外,输入400可以如图3所示用作条件网络410的输入。同样,条件层412和聚合层414可以产生在交换输出层416中表示的连接规则或其他逻辑等价物或分区。
值输出层426和交换输出层416的输出可以被组合在适当的输出层、诸如图3所示的输出层430中。一旦已经形成输出层430,取决于应用,可以将sigmoid或其他激活函数520应用于结果518。还可以设想,取决于应用,排序层516也可以在输出组合之前和/或之后应用于结果。
XNN可以呈现一种直观的方法来构建可解译模型,同时仍然利用ANN和相关方法(如深度学习)的能力。一旦通过反向传播或类似方法训练了模型,所得神经网络可用于预测,并且XNN的内部结构可用于构建规则。
可解译神经网络(INN)提供了一种架构,可以使用现有的深度学习技术自动生成解释。INN可以利用用于神经网络的现有软件基础设施和硬件,并且还可以保持与反向传播训练技术完全兼容。
该架构可以包括将输入转换成一些隐藏特征的特征变换器,以及将隐藏特征变换成特征权重的多个相关性估计器。然后将特征权重与变换后的输入组合起来,以便提取每个输入变换后特征的属性。然后针对结果对所得特征属性进行聚合。特征属性可以在不同的级别上提取。在最简单的形式中,属性可以与原始输入直接连接起来。在其他情况下(诸如CNN),也可以为通常在内核和过滤器中发现的更高级别的特征计算特征属性。附加地,INN可以将模型分成不同的分区,从而通过使能局部或分段可解释性的混合来实现更高级别的灵活性和可解译性。在一些情况下,INN也能够提供全局可解释性。
现在参照图5,图5可以示出可解译神经网络的示例性架构。示例性实施例可以将架构约束应用于标准神经网络以对数据建模。示例性实施例可以从某个输入向量X 601开始。输入可以连接到特征生成和变换网络602以及k个相关性估计器604。经变换的特征可以是抽象的或高级别的特征,其可以已经使用诸如CNN的深度神经网络、诸如多项式展开、傅立叶变换、连续数据桶化、因果运算符的非线性数学函数、或者可以是离散的或连续的一些其他形式的生成特征来计算。进一步设想,特征和变换网络可以是变换的流水线,包括但不限于多项式展开、旋转、维度缩放和无尺寸缩放、傅立叶变换、沃尔什函数、状态空间和相位空间变换、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、知识图网络、分类编码、Kolmogorov/Frechet/Hausdorff/Tychonoff空间的拓扑变换、差分分析和数据的归一化/标准化。相关性估计器604可以至少以局部方式计算每个经变换特征的系数。
在数学术语中,变换网络可以表示为函数T(X)。类似地,θj(X)表示第j个分区的相关性函数。如果X→T(X)返回具有z变换维数的向量,则X→θj(X)也返回具有z系数或相关权重的向量。假设|T(X)|=|θj(X)|=z。
INN可能足够灵活,允许通过各种选项和配置对复杂性进行建模。函数X→T(X)和X→θi(X)可以是深度神经网络,其使得对复杂的抽象特征建模是可能的。该网络也可以是XNN,具有白盒估计器。可以注意到,T(X)和θi(X)的组合可以表示可以用INN架构实现的可解释模型的各种实施例。
神经网络可以包括条件网络606。条件网络606可以评估IF条件形式的规则以激活一个或多个分区。Ci(X)的输出可以是二进制的。可以注意到,分区可以是静态的或动态的,并且可以通过外部分区过程、通过连接的神经网络或通过内部过程来发现。还可以注意到,INN也可以只使用一个分区,其中对于X的所有值,Ci(X)总是1。这等价于没有分区。在这种情况下,不需要应用分区方法来寻找合适的分区。
特征属性608可以计算由相关联的分区激活的每个经变换特征的属性。相关性属性可以将所计算的系数的结果与经变换的特征相乘。用数学术语来说,特征属性608可以针对第j个分区来计算θj(X)T(X)。层608的输出可以用作解释生成的基础。来自该层的值可用于生成特征属性图、热图、文本解释或其他形式的解释。
在聚合层610中,神经网络聚合每个分区的结果(激活分区的预测结果)。在数学术语中,示例性聚合函数可以由Ajj(X)T(X))定义。在示例性实施例中,聚合函数可以是特征属性的简单总和。这变得等价于线性函数,至少以局部方式起作用,使得结果Rj=θj(X)1T(X)+…+θj(X)zT(X)。
可以设想,该模型可以具有重叠的分区。在这种情况下,可以应用排序函数来解析重叠分区。设R定义排序函数(rank function),并且Pj定义第j个分区的输出,这使得泛化模型:
f(x)=R((P1,P2,...,Pj,...Pk))
最后,交换层620选择激活的分区。如果不止一个分区被激活,则可能需要应用一些排序函数625。通过结果层630生成结果。
在实际实施例中,INN模型可以在变换函数T(x)中、在估计器θj(x)中、在聚合函数A中、在排序函数R中或在一些其他组件中具有若干优化。INN可以通过使能根据所需要的简单或复杂级别定制分区来提供更高级别的灵活性。
现在参照图14中的示例性实施例,图14可以呈现示例性解释生成流水线。流水线可以从表示当前正在检查的数据样本、场景或其他问题的输入查询902开始,然后可以通过三个组件对其进行处理:可解释或可解译系统/模型904、解释器908和解译器912。三个主要组件中的每一个都可以产生不同的输出,这些输出可以输入到流水线中的下一组件。可以设想,输入查询902不仅限于特定的数据样本或场景,并且可以涉及整个模型(全局模型可解释性)或者处理可解释模型的特定组件的模块化解释。
可解释或可解译系统/模型904可以产生可解释或可解译的输出906,其由回答9061,连同该回答的可选模型解释9062,以及可选的该回答和/或其模型解释的理由9063构成。回答和/或其模型解释的理由9063是对模型解释的解释(即,元解释),其给出了关于可解释或可解译系统/模型904在输出回答和/或模型解释时所采取的假设、过程和决策的附加信息。解释器908可以产生解释器输出910,其由解释支架9101,连同可选的候选解释9102构成。在示例性实施例中,候选解释作为解释支架9101的处理的结果而生成,并且可以在解释支架的内容的评估过程中使用,该解释支架是以涉及无监督或有监督学习和优化的某种形式的迭代过程。过滤器911是例如在解释器908已经产生当前步骤的输出之后但在解译器912开始之前主要对解释支架(Scaffolding)9101和解译支架9111进行变换和过滤的可选组件。
解译器912可以使用解释支架9111产生解释9141连同该解释的可选解译9142。
解释过程的最终结果914,包括解释和/或解译,可以被提供给人类用户、另一应用或形成更大实施例的一部分的另一系统组件,或一些其他自动化系统。
注意,图14可以是一个示例性流水线,并且流水线可以以各种可替代方式实现,这些方式可以省略或组合一个或多个组件,和/或以不同的顺序和序列执行它们。例如,在示例性实际实现实施例中,可以设想解释器908和解译器912两者可以连同它们各自的输出908和输出914一起被省略。
在另一示例性实施例中,组件908和组件912可以组合为产生输出908和输出914的组合的单个组件。
在另一设想的实施例中,解译器914的简化实现简单地获取候选解释9102并将其作为解释9141输出。
进一步设想,在全局(即,模型级)解释或无查询应用实施例的情况下,甚至可以省略输入查询902,而不会失去与图14中示例性流水线的逻辑等价性。
设想,在实际实施例中,图14中的输出的一些组合可以被组合或完全省略。例如,可以预见,在一些应用中,理由9063可以被认为是可选的,而解译9142可以留给人类解译器或专家来创建,而不是自动化系统。可解译机器学习系统可以被彻底理解,并且其功能和内部行为(模型可解译性)、回答(输出可解译性)以及解释可以被解译器解译和理解。伴随回答的最终解释可能不需要对其核心结构进行进一步的事后处理,尽管添加句法和语义信息以及将解释语境化和个性化的附加处理周期是可接受的,如图14所示,其中解释9141在到达最终阶段之前经历了不同的变换和增强阶段。
可解释强化学习(XRL)通过向部署XRL系统的动作和环境引入解释和解释模型的概念来引入可解释强化学习系统。动作可以是指提供给环境的输入,通过将策略应用于当前状态来计算。这可以是离散的或者连续的。所有可能动作的集合称为动作空间。
RL/XRL代理可以处理动作选择和排序,即,针对当前状态s的一些动作a,其导致状态s’。回报用r表示。RL代理可以具有在动作选择处理中使用的环境的模拟。模型可能有附加的连接点,这取决于模型本身的结构。
第一XRL修改引入了解释x作为模型/环境模型的一部分;也就是说,世界模型可以给出关于状态s′和回报r的部分或全部解释,我们定义为xe。第二XRL修改是在动作空间中,其引入了关联解释,即a,xa,分别表示动作和对动作的解释。策略可以是指从过去经验到动作的映射。在XRL中,策略П变成Пx,它现在是一个可解释的映射,使得:
Пx≈s→a,xa
Пx≈s,xs→a,xa
就行为FSM而言,每个(状态、动作)对在做出动作之前、在选择状态之后、在动作期间以及在做出动作之后可以具有恒定的连接点。对于RL和XRL,另一连接点是在策略π下选择动作之前、期间以及之后的。当动作空间和/或状态空间是离散的或连续的时,这是适用的。作为XRL学习过程的一部分的解释可能会通向更好的安全和控制机制,因为它们可能允许更好地理解系统的内部工作,这可能需要调整、监测和自动/手动干预。XRL代理也可以使用FST而不是FSM来建模。
示例性可解释转导器(XFST)可以部分地替代经训练的XNN架构。可解释转导器变换器(XTT)实施例可以通过使用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构),用白盒模型组件替换变换器(Vaswani等人,2017年)的黑盒模型组件。因此,XFST表示白盒机器学习架构。示例性实施例可以提供有限状态转导器的可解释版本连同可解释变换器,并且还可以包括两个主要的可解释变换器变型,即可解释变换器编码器和可解释变换器解码器。
示例性实施例可以通过在变换器的编码器层的子层中引入可解释模型来提供可解释变换器编码器。
示例性实施例还可以通过在变换器的解码器层的子层中引入可解释模型来提供可解释变换器解码器。
可解释变换器架构可以利用解释框架来生成解释并过滤这种解释以产生对解译器的可解译性。
在可解释变换器架构中,输入根据用于可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)的归纳的所选组件而变化。在示例性实施例中,一旦已经经由归纳选择了可解释模型分量,变换器的实际输入可以是固定的,并且如果需要,填充可用于较短长度的输入。
如图6中所描绘的,在可解释转导器变换器(XTT)中,可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)可以引入编码器层的前馈网络组件230和解码器层的前馈网络组件270,以创建两个可解释架构700和710。
被引入白盒模型700构造从相加和归一组件217的输出到黑盒前馈组件230的输出的解释和可解释路径跟踪。被引入白盒模型710可以构造从相加和归一组件242的输出到黑盒前馈网络组件270的输出的解释和可解释路径跟踪。
利用诸如XNN的支持宽学习模型的可解释模型的XTT本身是一类宽神经网络(WNN),可以表现出独特的实践特性,特别是当与变换器架构的嵌入性质相结合时,这将深度学习的泛化能力添加到宽学习的更精确和通用的学习能力中。我们使用层次分区技术或其他逻辑上等价的方法来识别合适的分区,为XTT添加了显著的表示和处理能力,而不会对它们的可解释性或可解译性产生负面影响。XTT解释模型分区最初可以由创建初始XTT的外部处理创建为XTT的一部分。可替代地,XTT分区也可以从提供合适分区信息的链接分类法或本体预先训练或合适地初始化。一旦创建,XTT可解释模型可以使用梯度下降方法来根据需要拟合或细化分区。可以通过将XTT分区的值设置为不能改变的静态值来锁定XTT分区,或者XTT可以对于使用标准反向传播和相关技术的每个反向训练遍次(pass)是动态的。层次分区可以在不同的抽象级别上对数据建模。在生成解释时,可能需要这种抽象。在示例性实施例中,排序函数可以用于确定XTT如何选择、合并或分割其重叠或非重叠分区。可以进一步设想,XTT分区的层次性质可以用于在语义和符号细节的不同级别上表示符号和概念。
XTT可以允许使用诸如多目标优化(MOO)、遗传算法(GA)和蒙特卡罗模拟方法(MCSM)的技术,或者经由因果逻辑和模拟技术来改变其可解释分区结构和值。XTT分区可以是分层次的,而不仅仅是平面分区。平面分区可以被视为可能的层次分区的子集,其中只有单个级别。层次结构的使用允许生成更具表现力的解释,从而更充分地模拟好的解释的预期性质。
可解释变换器可以在3元组数据集<I,O,E>上训练,其中I可以是指输入,O可以是指输出,并且E可以是指输入I与输出O之间的解释。如图6所示,输入可以包括标记嵌入200、输入标记210的位置信息以及可选的分区信息1500、1501或类似的来自外部可解释模型的解释生成的数据的组合,以用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)训练可解释变换器。
可以训练可解释变换器,而不使用编码器层和解码器层中的任何可解释架构,并且将分区信息1500、1501或来自外部可解释模型的类似的解释生成的数据添加到编码器的输入嵌入中,并且可选地添加到解码器中的输出嵌入中。
如图7所示,可解释变换器可以具有与编码器层和解码器层并行的附加两层。这两个附加的层可能专注于从输入空间构建可解释架构,如图7所示。
可解释变换器可以包括并行可解释编码器层1630,其接受两个输入:多头注意力组件215的输出或相加和归一组件217的输出,以及输入标记1507的分区或可解释信息。
可解释变换器可以包括并行可解释解码器层709,其获取并行可解释编码器层1630的输出1600。并行可解释编码器层可以包括可解释架构组件701以及相加和归一组件702。并行可解释解码器层709可以包括可解释架构组件703以及相加和归一组件704。在示例性实施例中,如图7所示,并行可解释编码器层的输出被用作XTT的解码器层中的多头注意力层1631的输入。在另一示例性实施例中,并行可解释编码器层1631的输出在被用作XTT的解码器中的多头注意力层240的输入之前与编码器层1632的输出合并。在另一示例性实施例中,并行可解释编码器1631的输出仅用作并行可解释解码器的输入。如图7所示,XTT输出预测输出290和相关解释1620。解释1620可以用作到解码器组件的反馈回路1610。
可以使用XTT-解码器架构,使用历史解释和分区信息来预测解释和分区信息。在示例性实施例中,可解释模型由3元组向量<i,o,e>表示,其中i是指输入、o是指输出,并且e是指生成的解释。给定当前解释ei和历史解释的上下文窗口k,生成的解释e(其中e={e1,e2,...,en})被用作XTT-解码器的输入,以预训练模型来预测下一解释e(i+1)。然后可以在单独的解释集合上微调XTT-解码器,以分类或预测下游任务的值。
对于可解释模型中的相同组件,一个或多个解释e中的差异或变化可以被记录,并且可选地用作XTT的输入,以预测解释中的下一差异或变化。在示例性实施例中,XTT-解码器用于预测解释中的下一变化。给定当前解释gi和历史解释梯度的上下文窗口k,XTT-解码器在解释梯度集合eg上被预训练以预测下一梯度eg={g1,g2,...gm},其中eg={g1,g2,...gm}。然后可以在单独的解释梯度集合上微调XTT-解码器,以分类或预测下游任务的值。XTT中的预训练还可以利用输入和输出数据的嵌入式表示来考虑训练期间的相似性和对比度元素。在示例性实施例中,例如图像和文本标题的多模态嵌入可以用于同时对类似相关联的图像和文本进行最小化,但确保不相关的图像与文本之间的对比度被最大化。XTT中的稀疏嵌入也可以提供附加的性能改进,特别是与稀疏可解释模型结合使用。
如图7所示,可解释架构x的解释、解释的梯度或分区信息可以用作XTT的并行可解释编码器层的输入1507。在示例性实施例中,并行可解释编码器层1630的输入1507处理在相同数据集上训练的可解释模型的解释,该可解释模型随后将被用于训练XTT架构。在另一示例性实施例中,并行可解释编码器层的输入1507是指在与将用于训练XTT的数据集相似的数据集上生成的解释。
可解释变换器编码器的输入可以与变换器(Vaswani等人,2017年)的编码器层的输入相同。如图8(b)所示,可解释变换器编码器可以使用可解释架构x 2000(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入黑盒前馈神经网络1900。
在另一示例性实施例中,XTT可以在整个编码器层上训练其可解释模型,该编码器层具有由标记嵌入1901与位置嵌入1902或者先前编码器层的输出组合而构成的输入。还可以设想,各种不同的位置编码方法可以与XTT一起使用,包括但不限于直接求和、查找表和乘积内核类型的位置编码方法。
在示例性实施例中,可解释变换器解码器的输入和输出可以与基于解码器的变换器(Liu等人,2018年)相同。如图9(b)所示,可解释变换器解码器中的可解释架构2400的输入可以包括相加和归一组件2340的输出。如图9(b)所示,可解释变换器解码器的输出可以是黑盒前馈神经网络组件2320的输出,或者是相加和归一组件2330的输出。
在示例性实施例中,除了可解释前馈网络本身之外,XTT中的一个或多个组件可以由可解释模型替换。在另一示例性实施例中,可解释自动-编码器-解码器(XAED)可用于替换变换器编码器和/或变换器解码器的部分或全部。
在可替代实施例中,可解释变换器-解码器中的可解释模型可以引入整个解码器层,该解码器层具有由标记嵌入2360与位置嵌入2310或先前解码器层的输出组合而构成的输入。
可解释架构XTT、XTT-编码器和XTT-解码器的输出可以包括从可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)生成的解释和可解译性。
XTT、XTT-编码器和XTT-解码器中的可解释架构可以使用训练数据集,而无需黑盒组件作为输入。在这种情况下,训练了一个新的可解释模型。
XTT可以包含训练数据集的特征变换。XTT变换函数可以是变换的流水线,包括但不限于多项式展开、旋转变换、维度缩放和无尺寸缩放、傅立叶变换、沃尔什函数、状态空间和相位空间变换、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、知识图网络、分类编码、Kolmogorov/Frechet/Hausdorff/Tychonoff空间的拓扑变换、差分分析和数据的归一化/标准化。变换函数流水线还可以包含分析根据一个或多个变量的值排序的数据序列(包括时间排序的数据序列)的变换。变换函数流水线还可以包含经由梯度下降方法和其它可解释架构获得的变换。
还设想,可解释模型数据合成能力可用于生成训练数据集样本,该训练数据集样本被呈现为使用诸如基于因果GAN的生成、基因工程、蒙特卡罗模拟、Petri网络、强化学习技术、使用白盒模型本身及其全局模型的模拟以及其他可用的方法的各种技术对所提出的可解释变换器架构XTT、XTT-编码器和XTT-解码器内的可解释架构的训练。
人类知识注入(HKI)或系统知识注入是XTT、XTT-编码器和/或XTT-解码器架构的另一种类型的输入。可以修改XTT、XTT-编码器和/或XTT-解码器架构内的可解释架构的系数,以实施特定的规则,从而通向人类用户与AI系统之间更有效的协作。
进一步设想,人类知识注入(HKI)可以用于进一步修改和扩展合成数据的范围。合成和HKI方法可以帮助XTT克服数据分布偏移问题,并且使其更好地泛化到其输入和训练空间(包括分布外(OOD)数据)中更广泛的可能输入。
XTT中的可解释模型支持零样本学习或少样本学习解决方案的实际实现方式。当面对稀疏数据可用性条件时,少样本学习可以利用层次分区和局部模型来更快地适应。零样本学习可以经由规则的合并,以及因此经由HKI对可解释模型内的分区结构的修改以实践的方式实现。HKI的这种使用可以使XTT能够直接从适当的规则或规则集直接引导,而无需任何训练数据。进一步设想,可以利用归纳、演绎和溯因逻辑来增强XTT的适应性。进一步设想,可以利用因果逻辑的使用来增强XTT的适应性,同时确保存在可能有助于防止欠拟合和/或过拟合问题的合理性和基于模型的检查的元素。
可以通过提取XTT及其变型XTT-编码器和XTT-解码器中可解释模型组件的分区信息、以及为训练数据集的特征构建特征属性来实现可解释性。
局部模型的系数c可以用作特征输入空间的特征属性。分区信息和特征属性是XTT、XTT转导器、XTT-编码器和/或XTT-解码器架构内的可解释架构组件的输出。
特征属性c可以是输入空间的系数,并且示出每个输入特征的重要性。因此,通过将输入空间变换成可解释输入空间,特征属性是可解释性的一部分。
当XTT、XTT-编码器和/或XTT-解码器架构连接到其他机器学习系统时,输入空间可以表示某种形式的抽象特征或概念。例如,对XTT、XTT-编码器和/或XTT-解码器架构的输入可以是来自CNN网络的输出。在其中可解释性是在变换器架构的编码器和解码器部分中构建的示例性实施例中,输出是对输入空间特征的特征属性和对潜在空间的特征属性。到了输入特征本身是可解释的程度时,XTT能够完全去除无法解释的潜在空间。作为另一选项,XTT、XTT-编码器和/或XTT-解码器架构可适用于将以下至少一项应用于其输出:傅立叶变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、模糊逻辑、知识图网络、分类编码、差分分析、归一化、标准化、多维贝塞尔曲线、递归关系和因果运算符。
在另一示例性实施例中,可能需要XTT、XTT-编码器和/或XTT-解码器架构来对预测输出应用合适的激活函数和/或合适的变换。典型的激活函数可以包括sigmoid或SoftMax函数或合适的等效函数。典型的变换可涉及使用某种形式的结构对预测输出进行变换,诸如(i)层次树或网络(ii)因果图(iii)有向图和无向图,超图或单纯复形,(iv)多媒体结构(v)超链接图集或合适的结构。
在可替代的示例性实施例中,可以利用诸如图15所示的示例性模型归纳方法的归纳过程在外部构建分区。在这样的示例性实施例中,输出将是伴随有XNN架构或INN架构的特征属性的这种系统的分区信息。
在示例性XAI模型归纳方法中,建模系统可以将数据输入到黑盒系统中,并且可以记录与每个输入相对应的输出。在另一实施例中,建模系统可以使用平凡的预测器模型,如简单的映射函数,其返回所有或部分输入数据集的标签或响应,这等价于直接在训练数据上运行归纳方法。在另一实施例中,建模系统可以使用合适的自动预测器构建方法来直接从训练数据创建预测器模型。将黑盒或预测器模型作为输入添加到归纳方法可以有助于减少或消除来自原始输入数据集的误差和/或噪声。
数据点最初可以从全部或部分训练数据中获得,可选地与合成生成的数据组合。合成生成的数据可以经由外部处理生成,诸如模拟系统、世界模型等。输入数据也可以是空集,在这种情况下,归纳方法将使用从输入预测模型获得的扰乱数据来工作。在执行归纳方法之前,还可以将可选的数据质量保证功能应用于输入数据点的子集和/或作为整体的输入数据。归纳方法通过动态创建扰乱样本数据点来构建全局模型,然后将扰乱样本数据点注入输入预测器模型中,输入预测器模型可以是黑盒,然后记录输出结果并将其与来自训练和/或合成数据的所有其他可用数据点组合起来。可以设想,可以在不使用原始训练数据的情况下单独地利用扰乱数据。扰乱方法的示例性实施例可以利用随机噪声添加方法、旋转扰乱、投影扰乱、k-匿名化、生成对抗网络(GAN)或任何其他合适的扰乱方法的组合。所得到的组合数据点可以形成对归纳方法的分区函数的输入。来自预测模型的数据点可以是连续的、离散的或分类的值。输出分类结果的预测器模型可以在(i)经由一些适当的分配指定适当类别标签的变换函数离散化的输出,或者(ii)可以直接使用或经由一些适当的变换函数使用的概率输出上具有这种分类应用器。
下一示例性步骤可以识别“分区”的层次结构。每个分区可以覆盖从归纳方法可用的组合数据中检索的一组或一簇数据点。每个分区可以定义零个、一个或多个规则,并且可以可选地包含具有它们各自相关联的规则的子分区。提取的分区可以合并重叠和非重叠分区。在重叠分区的情况下,可以使用一些优先级函数来确定要激活哪个分区。在可替代实施例中,如果不止一个分区被激活,则可以使用一些聚合函数来组合或分割来自多个被激活分区的结果。可以实现各种方法以寻找规则或与规则相关的数据点簇,只要每个分区具有足够的数据来拟合线性模型,并且不会太复杂以至于线性模型可能表现不好。非线性变换包括但不限于以下至少一项:多项式展开、旋转、维度缩放和无尺寸缩放、状态空间和相位空间变换、整数/实数/复数/四元数/八元数变换、傅立叶变换、沃尔什函数、连续数据桶化、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、知识图网络、分类编码、Kolmogorov/Frechet/Hausdorff/Tychonoff空间的拓扑变换、差分分析和数据的归一化/标准化,并且其可以在线性拟合之前应用于个体分区,以增强模型性能。
分区可以是根据一些规则和/或距离相似性函数可选地对数据点进行分组的簇。每个分区可以表示一个概念,或者一个独特的数据类别。由一个规则表示的分区具有输出预测或分类的值的线性模型。由于模型可以线性建模,因此线性模型的系数可以用于根据特征的重要性对特征进行评分。当归纳方法处理线性和非线性数据和/或线性和非线性预测模型两者时,基础特征可以表示线性和非线性拟合的组合。
示例性实施例可以用数学术语来说明。参考图15中的示例性实施例,图15可以示出示例性模型归纳方法。在示例性实施例中,X可以表示输入数据集1502,并且Predict(x)可以表示具有n个输出的预测器模型函数1504。X可以是具有m个维度的矩阵。每个维度(m)可以表示X的输入特征,并且每个输出可以表示类的数量(n)。输入数据集可以是训练数据和合成生成数据的组合。附加地,在示例性实施例中,给定一些输入训练或测试数据X的情况下,可以使用诸如Perturbate(X)的函数来扰乱1506样本,该函数可以是生成样本扰乱数据的任何扰乱函数,其中X可以是输入数据的子集、输入数据的某个邻域、输入/输出/解释数据的某个合适嵌入,或者甚至可以平凡地是空集,在这种情况下,扰乱函数需要使用某种形式的随机或非随机模式来查询预测器模型。Xp可以表示扰乱的和原始输入数据集的组合,Y可以表示来自预测器模型函数1508的输出,使得XP=X∪Perturbate(X)并且Y=Predict(XP)。
分区的层次结构可以通过外部函数分区1510由P表示,使得Partition(Xp,Y)=P,其中在每个分区由恰好一个规则定义的情况下,P={P1,...,Pi,...,Pk}并且k等于规则的数量。分区函数可以是聚类算法,诸如k-均值、贝叶斯、基于连通性、基于质心、基于分布、基于网格、基于密度、基于模糊逻辑、基于熵、基于互信息(MI)的方法或任何其他逻辑上合适的方法。分区函数还可以包括将得到多个重叠或非重叠分区的集合方法。在重叠分区的情况下,可以使用聚合函数来组合或分割来自多个分区的结果。分区函数可以可替代地包括基于关联的算法、基于因果关系的分区或其他逻辑上合适的分区实现方式。
Ri(x)可以表示第i个分区中的每个规则。每个规则(Ri(x))可以包括多个条件,使得Ri(x)=C1∧C2∧...∧Cj∧...∧Cq,其中q可以表示规则中条件的数量,并且Cj可以是关于第i个规则(即,第i个分区)的输入矩阵x的条件。扰乱输入矩阵Xp可以被分成k个矩阵,其中k等于规则的数量,使得XL表示由{x|x∈XP∧Ri(x)=True}(true即真)定义的局部过滤的矩阵,使得当分区不重叠时,{XL1,XL2,...,XLi,...XLk}的并集=Xp。当分区彼此重叠时,{XL1,XL2,…,XLi,…XLk}的并集≠Xp。当分区相互重叠时,需要应用排序函数来选择最相关的规则,或者以某种形式的概率加权组合方法使用。在可替代实施例中,如果激活多于一个分区,则使用一些聚合函数来组合来自多个分区的结果。
下一示例性步骤可以涉及将局部模型拟合到由Ri定义的每个分区。XL可以表示Xp和Ri(x)两者中找到的输入。换句话说,XL可以是应用于第i个规则的输入或特征数据。可对局部样本进行过滤1512。然后XL可以被扰乱1514,并且XLP可以表示XL和扰乱(XL)的局部扰乱数据集的组合。因此,YL=Predict(XLP)预测局部扰乱数据1516。最后,XT可以通过找到XLP1518的变换来计算,使得XT=Transform(XLP)。变换函数可以是变换的流水线,包括但不限于多项式展开、旋转、维度缩放和无尺寸缩放、傅立叶变换、整数/实数/复数/四元数/八元数变换、沃尔什函数、状态空间和相位空间变换、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、知识图网络、分类编码、差分分析和数据的归一化/标准化。变换函数流水线还可以包含分析根据一个或多个变量的值排序的数据序列(包括时间排序的数据序列)的变换。XT可以生成新的特征,使得z表示由变换函数变换的特征的总数。
对于1到n(即,输出的数量)范围内的每个j,系统可以以线性方式1520计算局部模型。YL是包括n个向量的矩阵,每个输出一个向量,使得YLj表示第j个输出向量。线性模型可以由Yij=Fit(XT,YLj)定义,其中Fit是拟合线性模型的函数,诸如线性回归、逻辑回归、内核(kernel)方法等。线性模型定义了系数集{β0..βz}1522,使得Yij=β01x1+…+βixi+…+βzxz。线性模型或线性模型的组合可以为XAI模型提供规则1524。在可替代实施例中,局部模型的拟合可以使用并行编程或梯度下降技术或合适的等价物在一个原子Fit函数中实现。注意,xi可以是经变换的特征,诸如多项式(诸如x2)、交集(诸如xy)、条件特征(诸如x>10并且y<2)、傅立叶变换等。注意,βi可以是正的或负的,对应于对相关经变换特征的模型的正的或负的贡献。正的或负的贡献通常也被称为兴奋性和抑制性影响。压缩或正则化技术也可以应用于简化局部模型的拟合,这也间接地简化了所得的解释。最后,规则可以从Yij的各种组合中构建。
Rule1(x)={Y11,Y12,...,Yi,n},如果R1(x)
Rule2(x)={Y21,Y22,...,Y2,n},如果R2(x)
Rulei(x)={Yi1,Yi2,...,Yi,n},如果Ri(x)
Rulek(x)={Yk1,Yk,2,...,Yk,n},如果Rk(x)
在如图4所示的示例性XNN架构中,具有np个分区的XNN架构可以包括n个局部模型525、值输出层valuelayer={r1,r2,...,rn}426、交换输出层switchlayer={s1,s2,...,sn}416以及组合valuelayer426和switchlayer416的接合层conjunctivelayer={v1,v2,...,vn}516。可以在输出值上使用诸如SIGMOID函数的激活函数520,以产生示例性XNN架构的最终输出。可以设想稀疏XNN/INN可用于以能量有效的方式实现分区结构的部分。
可解释模型层次分区也可以经历一个或多个迭代优化步骤1523,这些步骤可以地涉及使用一些合适的聚合、分割或优化方法合并和分割层次分区。合适的优化方法可以寻求在预测器的计算数据空间内找到连接拓扑空间的所有路径,同时给出最小化分区总数的最佳规范固定。
XTT转导器可以被定义为6元组以替换XNN架构的多个组件,其中K是指状态的有限集合(包括解释模型状态),∑是指输入符号的字母表(包括解释符号),是指输出符号的字母表(包括解释符号),s是指开始状态,使得s∈K,γ是指输出函数,使得γ:K→*,并且Δ是指转换函数(包括与解释相关的转换,其形成与解释相关联的理由的主要组件)。在示例性实施例中,可以将输入∑设置为valuelayer426和switchlayer416,使得∑={valuelayer,switchlayer}。可以将输出设置到连接层conjunctivelayer,使得={conjunctivelayer}。可解释有限状态转导器XTTt的转换关系Δ对conjunctivelayer值中的valuelayer和switchlayer值进行翻译。可以进一步设想,输出词汇表可以被设置为激活函数520而不是连接层516的输出。
XTT可以在经过训练的条件网络层410上构建。在示例性实施例中,输入∑被设置为XNN架构的分区边界412。输出被设置到交换输出层416。转换关系Δ包括条件层412、聚合层414与交换输出层416之间的转换。
在示例性实施例中,XSFT风格的XTT接受局部模型的索引和相应的预测值,并连同该预测值一起输出在XNN架构中使用的局部模型的相应分区信息。如图12所示,在开始状态s 2700中插入磁带。磁带包括值层元素的索引,紧随其后是每个观察的相应预测。如图12所示,示例性XTT包括两个分区。任何分区的相应索引的匹配将进入该分区的状态并返回该分区的分区信息,其中分区信息替换值层的索引。
在另一示例性实施例中,可解释有限状态转导器接受局部模型的索引和相关预测和/或查询输入值,并输出以某种适当的输出编码复用在一起的预测值和解释。
XTT可以引入具有可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)的多个连接组件,诸如黑盒前馈神经网络230、270以及随后的相加和归一组件232、272。
XTT可以引入解码器层的编码器-解码器多头注意力组件240、相加和归一组件242、前馈神经网络组件270和/或相加和归一组件272,解码器层具有可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价的或相似的架构),以创建白盒模型。这种可解释模型可以被有意地稀疏和/或压缩,以保持原始组件与它们的可解释的模型替换之间的双向模拟等价性。
引入变换器架构的XTT架构可以称为内联XTT架构,如图6所示。引入变换器架构并使用附加的并行可解释编码器层和并行解码器层的XTT架构可以称为并行XTT架构,如图7所示。
可解释变换器可以在3元组数据集<I,O,E>上训练,其中I可以是指输入,O可以是指输出,并且E可以是指输入I与输出O之间的解释。如图6所示,输入可以包括标记嵌入200、标记位置信息210和可选的分区信息1500、1501或从外部可解释模型生成的类似解释生成的数据的组合,以用可解释模型训练XTT,如图6所述。进一步设想,可以通过使用黑盒前馈组件来实现灰盒XTT实现方式,如Vaswani等人(2017年)所示。
变换器可以如图8(a)所示,通过使用诸如掩码语言建模(Devlin等人,2018年)的自我监督学习技术,仅在编码器部分上进行训练。如图8(b)所示,可解释变换器编码器可以使用可解释架构x 2000(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入编码器层的黑盒前馈神经网络组件1900。XTT-编码器的架构可以由输入嵌入1901、位置编码1902、多头注意力组件1920、相加和归一组件1930、可解释架构2000以及相加和归一组件1910构成。
可解释变换器编码器可以用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)其中逻辑上等价或相似的架构)来引入前馈神经网络组件1900以及相加和归一层1910。
可解释变换器编码器可以用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入多头注意力1920、相加和归一组件1930、前馈神经网络组件1900和/或相加和归一组件1910。
如图9(a)所示,变换器可以只在变换器架构的解码器部分进行训练(Radford等人,2018年)。如图9(b)所示,XTT可以使用可解释架构x 2400(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入解码器层的黑盒前馈神经网络组件2320。
可解释变换器解码器可以用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入多个组件,诸如前馈神经网络组件2320和相加和归一组件2330的组合。
可解释变换器解码器可以用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来引入多头注意力2350、相加和归一组件2340、前馈神经网络组件2320和/或相加和归一组件2330。
基于可解释变换器架构XTT、XTT-编码器和XTT-解码器可以生成多级解释,其可以包括分区信息、模型的内部系数和输入空间的特征属性,并且这样的解释可以是对解译器的输出。解释可以是文本格式或数字格式的形式,其可以表示输入维度的重要性,或者是应用于输入和适当交互的某种形式的适当变换,其中这种变换可以以各种输出格式输出解释,包括多媒体图像、视频、3D数据、多维数据和其他合适的格式。解释还可以包含应用干预和/或反事实处理的结果,例如通过利用偏差控制交换来确定给定输入维度集合中的偏差。经由XTT直接检测到的任何这种偏差甚至可能不需要使用数据集来进行这种偏差测试。进一步设想,这种结果可以经由在识别-评估-推荐-解决(IAR)框架内应用合适的识别、评估、推荐、排序和解决功能来泛化。
XTT可以处理结构化和非结构化数据两者,包括树、图、超图和单纯复形形式的层次结构化数据。关于树变换器(王等人,2019年)的相关先前工作使用成分注意力组件来约束注意力头,以引入输入标记的基于树的结构。与我们提出的方法不同,树变换器利用黑盒前馈神经网络组件,并且因此可以归类为灰盒方法。与XTT不同,不可能使用树变换器来实现激活路径跟踪。我们提出的方法在基于变换器的架构中引入白盒组件来生成全局和局部解释。XTT可解释模型中的层次结构化分区系统自然地适用于复杂结构化数据的处理,这在使用成分先验的树变换器中只能部分实现。XTT注意力模型能够在不同级别的细节和尺度上表达这种先验的层次的等价物,这是用树变换器和相关变型不可能实现的。这可以经由基于规则的模型(XAI模型)中可用的线性或非线性方程或者逻辑上等价的方法(诸如XNN、INN、XSN、XMN和其他合适的等价实现方法)来实现。在线性或非线性方程中,可以提取特征列表及其对应的系数,这些系数可以表示给定模型或规则集的特征重要性。可以直接分析可解释模型中的系数矩阵C,以提取由F(X)定义的模型中每个规则/分区的最重要特征。
在可替代实施例中,系数矩阵可以被聚合,使得向量I表示来自所有j个规则的每个特征的被聚合的重要性,使得I={θ0,...,θi,...,θk-1},其中 使得Cp,i识别第p个分区/规则的第i个系数。最后,设Is={F0,...,Fs,…,Fk-1}表示具有I的所有元素的排序向量,其中s表示排序索引,使得Fs-1≥Fs≥Fs+1。映射向量M也可以用于将排序的系数索引s与经变换的特征索引k连接起来。通过基于规则的XAI模型的白盒性质,用户然后能够通过检查经排序的特征重要性向量Fs的内容来检查任何潜在的偏差,由此F0和M0可以包含具有最高偏差的特征。
归一化也可以应用于由此得到的特征重要性。在示例性实施例中,F和M向量可以用于创建偏差及其来源的适当报告和分析,并且还可以是输入,以制定用于经由监督、非监督或半监督手段来减少、减轻或消除偏差的策略。
在示例性实施例中,XTT可以包含多个输入和输出模块。一个或多个模块可以包括:归一化模块,其被配置为在输入被输入层接收之前或者在输入从输入层输出之后对该输入进行归一化;缩放模块,其被配置为在输入被输入层接收之前或者在输入从输入层输出之后对所述输入进行缩放;以及标准化模块,其被配置为在输入被输入层接收之前或者在输入从输入层输出之后对所述输入进行标准化。
在可替代示例性实施例中,F和M向量可以用作特征发现和模型发现方法的输入,该特征发现和模型发现方法利用该信息来完善其策略和/或用作附加输入参数,该附加输入参数允许特征发现和模型发现方法建议并可选地执行对AI模型的结构改变。
例如,在典型实施例中,偏差信息可用于将GA或MCSM系统聚焦于表现出偏差的XNN/XSN/XMN的特定部分,或者可能导致偏差的XAI模型中的规则,或者表现出偏差的XTT的注意力模型,或者由XRL代理在某些策略下采取的可能导致偏差的动作。
局部偏差检测可以应用于特定样本。回答连同其解释系数可以作为对偏差检测进行局部化的基础。参考示例性模型,特定输入样本可以具有两个输入,在这种情况下是x和y。特征重要性向量I可以以全局方式表示特征重要性,使得I={β1,β210,β35,β7,β8},对应于特征{x,y,xy,x2,y2}。向量I可以按降序排序,使得最突出的特征被放置在向量的开头。给定特定的输入向量{x,y},可以注意到一个或多个规则可以通过函数f(x,y)触发。
在该示例性实施例中,令x≤10。这可以触发函数Sigmoid(β01x+β2y+β3xy),其得到以下局部化特征重要性向量,该向量被用作解释候选的基础,从而E={β1x,β2y,β3xy}。要注意的是,不同的特征在全局和局部级别上可能具有不同的重要性;例如,在该特定实施例中,特征x在全局上可能是最重要的,然而,在局部评估函数之后,可以注意到y是最重要的。
XTT可以与合适的分布式可解释架构(DEA)结合使用,以提高所定义模型的性能。分布式可解释架构DEA可以包含多个可解释架构DEAm,使得m={x1,x2,...,xn}并且xi∈{XAI,XNN,INN,XTT,XRL,XSN,XMN}或者逻辑上等价或相似的架构,并且这些架构被并行处理。示例性分布式框架中的可解释架构2610的数量被定义为DEAn
图11示出了分布式训练系统的高级别架构,其中DEAm表示XTT架构,并且DEAn包括n个模型,其还可以是可解释架构的同质或异质混合。DEA将数据集分割成多个数据子集2600,以便训练可解释架构DEAm。进一步设想,适当的分布式训练技术可以应用于DEA内的同质和异质可解释模型混合,包括但不限于集体操作技术,如All-Reduce、Horovod和其他合适的分布式学习技术。
在训练阶段,通过计算来自并行模型的平均值(或加权平均值),在分布式框架DEA中训练的模型被聚合2620。聚合模型可以直接基于模型的权重,而不是来自各个模型的结果而形成。分布式可解释架构DEA对于其中训练数据不能放入单个机器的CPU/GPU内存的大型数据集可能是有用的。
DEA可以包括混合模型,使得架构中的模型是x(其中x∈(XAI,XNN,INN,XTT,XRL,XSN,XMN}或者逻辑上等价或相似的架构)的混合。示例性实施例可以实现多个不同的模型。例如,一个数据部分可以实现XNN,而同一系统的另一数据部分可以实现XTT。然后可以组合这些模型以创建聚合模型。聚合模型可以等于x,其中x∈(XAI,XNN,INN,XTT,XRL,XSN,XMN}或者逻辑上等价或类似的架构,或者可以是实现多个不同模型的混合模型。
DEA可以合并多个独立的模型,其中一个模型一旦被训练,就可以独立工作,而不需要依赖完全分布式的架构,这主要是为了训练目的而优化的。
XTT架构可以从由XTT的可解释架构产生的输出构建解释支架,并且使用它向解译器说明结果,以帮助理解模型如何到达这样的预测。解译器可以是终端用户,或者是XTT架构中的组件。
可解释变换器架构XTT的底层组件可能需要模型解译,以便更新它们的状态或模型的内部部分。
模型解译有三种类型:(i)基本解译或回答,(ii)解释性解译或解释,以及(iii)元解释性解译或理由。
基本解译或回答可以是指子组件可以理解的预测输出o。
解释性解译或解释由2元组向量<o,w>表示,并且可以是指与针对这种预测值的模型解释w相结合的预测输出o,其可以被子组件理解。模型解释可以包括可解释架构x(其中x∈(XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)的系数θ,该架构可用于解释给定观察的输入特征的特征重要性。
元解释性解译或理由可以由3元组向量<o,w,j>表示,并且可以包含预测输出o、模型解释w和模型解释的理由j。模型理由j提供了关于解释系统所采取的假设、处理和决策的额外信息,这些信息在产生模型解释时被考虑在内。
解译器可以利用模型解释和元解释解译来更新XTT架构内的组件。
在示例性实施例中,XTT可以在解释和解译生成系统(EIGS)内使用,以提供用于处理输入查询的合适模型,并且产生与所述输入查询相关的适当回答、解释和可选理由。在图14中示出了典型的EIGS解释和解译流水线。可以进一步设想,XTT可以用于变换EIGS中解释支架的适当部分,包括但不限于变换呈现输出、用户特定输出个性化、上下文特定输出变换、目标特定输出变换、计划特定输出变换和动作特定输出变换。进一步设想,可以利用XTT来基于统计、因果、分类、本体、领域和符号信息的组合来对EIGS输出进行变换。
在示例性实施例中,XTT可以在解释和解译生成系统(EIGS)内使用,以为过滤器提供合适的模型,以产生解释支架的适当过滤。可以进一步设想,XTT可以被用于利用解译框架、协议上下文、解译规则、解译处理、解译场景和冲突解决信息的组合来对EIGS中的解释支架的适当部分进行过滤。XTT注意力模型可用于在EIGS内实现过滤器内和/或过滤器间协定处理。
在示例性实施例中,XTT可以在解释和解译生成系统(EIGS)内使用,以为解译器提供合适的模型,以产生适当的解译并生成解译支架的元素。XTT可用于变换EIGS中的解译支架的适当部分,包括但不限于对解译输出进行变换、解译场景特定输出变换、上下文特定变换和解译摘要特定输出变换。XTT可以被用于基于框架、协议、解译规则、解译处理、解译模板、解译概要、场景模型、域、交互上下文和冲突解决信息的组合来对EIGS解译输出进行变换。XTT注意力模型可用于在EIGS内实现解译器内和/或解译器间协定处理。XTT可以被用于基于适当的选择模型和选择处理对EIGS解译输出进行变换。
可以在图像上训练XTT,而不需要卷积神经网络(CNN)(Dosovitskiy等人,2020年;陈等人,2020年)。可以在图像数据上训练变换器,而不合并图像的2D输入结构,以自动回归预测输入图像的像素,而不是预测语言标记。iGPT(陈等人,2020年)使用ImageNet数据集的低分辨率版本,训练GPT-2架构来学习变换器架构中的图像表示。视觉变换器(Dosovitskiy等人,2020年)将输入图像分成图块(patch),压平它们,并将它们用作输入标记来训练变换器架构。视觉变换器(Dosovitskiy等人,2020年)和iGPT(Chen等人,2020年)可以被视为黑盒变换器,因为其组件(诸如多层感知器(MLP)),是不可解释或可解译的。XTT在变换器架构内引入了白盒可解释组件,该架构允许可解释的内部系数和解释的生成,这些解释可能与视觉变换器(Dosovitskiy等人,2020年)或(Chen等人,2020年)的解释一致。在变换器中可以使用各种自注意力机制。
EQ变换器(Mousavi等人,2020年)是黑盒模型,因为预测的地震信号、P相和S相输出是不可解释或解译的。XTT在变换器架构内引入了白盒可解释组件,允许可解译的内部系数和解释的生成,诸如输入空间的特征属性,这说明了每个输入特征的重要性。因此,与EQ变换器不同,地震检测系统的示例性基于XTT实现方式将得到白盒可解释系统。XTT还允许层次结构化解释的进一步泛化,而不需要像EQ变换器那样求助于多个编码器-解码器,只依赖于XTT内嵌入的可解释模型(诸如XNN)。
自注意力机制或类似机制可以由可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)引入,以创建可解释的自注意力机制。可能需要自注意力机制和黑盒自注意力机制或类似机制的输入标记作为输入来引入可解释架构x。可解释自注意力机制可以生成多级解释,其可以包括分区信息、模型的内部系数和输入空间的特征属性,并且这样的解释可以是对解译器的输出。
XTT可以使用自我监督的技术进行训练,诸如掩码、完形删除、模式利用训练(PET)、博弈论方法和其他合适的技术。类型化掩码符号可以表示不同的符号、概念或对象的类别/群组,并且可以在输入数据上分布和编码。类型化掩码与其余输入符号/特征的交互表示XTT使用的泛化训练数据。类型化掩码可以从可能的任务和模态的子集的排列中选择。因此,非类型化掩码相当于将所有可能的任务和模态组合成一个掩码符号的类型化掩码。
XTT可以利用来自所有编码器或解码器层的过去学习的表示或历史状态来合并成单个向量v。向量v可以用作对XTT中任何层的反馈,使得XTT的初始层可以访问更高级别的表示。先前的工作(诸如反馈变换器(范等人,2020年))仅限于自注意力的修改,以关注更高级别的表示。由于白盒模型的性质,XTT可以利用白盒模型的任何内部系数来关注更高级别的表示。进一步设想,这种XTT还可以对过去学习的表示施加因果约束,以避免产生因果不可信的推论或产生统计上有效但因果不可信的预测路径。XTT还可以利用行为模型及其条件、事件、触发和动作状态表示来对过去学习的表示施加进一步的环境可信的约束,以实现可解释但同时因果和环境可信的反馈记忆。向XTT添加反馈记忆也使它们图灵完备,因为它们可以表示条件处理并且模拟图灵机,开辟了新的应用领域,诸如自动代码生成、细化和优化。
在示例性实施例中,XTT系统可以用于分析和解析以合适的形式语言编写的现有形式计算机程序,并且一旦加载,就使用XTT注意力模型进一步细化它。人类用户可以通过使用与用于生成自然语言内容的下一个序列标记类似的机制来指示他们需要填充的区域。对于形式语言,可解释模型中的层次分区结构可以用于直接建模形式语言程序或人工制品的结构。进一步设想,可以使用形式规范语言来指定需要使用形式语言程序来解决的问题,从而允许XTT系统自动生成用于指定问题的候选代码解决方案。在另一选项中,XTT系统还可以被用于根据预定义的风格标准转换代码,突出不一致性或错误,以建议更好的替代方案并对代码进行重构和重写,对已经混淆的代码进行去混淆,并将函数式编程语言概念(诸如alpha转换、beta减少和eta减少)应用于所生成的代码。在另一选项中,XTT系统可以与自动定理证明(APT)系统连同合适的数学形式语言系统(如Metamath、F*、HOL、Mizar等)一起使用,以或者从零开始或者经由已证明陈述和/或不完整陈述的现有集合,自动地分析、生成和自动完成数学表达式、陈述和证明。在另一选项中,XTT系统可用于结合蛋白质或其他合适的分子形状来分析DNA代码,以解释DNA、基因表达、蛋白质折叠和其他相关生化应用中的调整变化,同时提供对XTT所应用的输入-输出变换之间的潜在假设的解释,这对于诸如药物发现、医学和制药应用中涉及的那些受监管和可信的应用是必要的。
在示例性实施例中,端到端深度学习架构由用于图像和视频压缩的XTT构成。视频帧被分成图块,这些图块随后被用作训练XTT的输入标记。这种上下文化的标记是通过对针对最佳性能所需的显著特征进行下采样来生成的。由XTT中的可解释架构生成的解释可以在反向映射处理期间形成无损解释路径。该路径可以表示过滤的上下文化标记对于特定分类标签的重要性。冗余优化和自适应标记消除技术,诸如(Goyal等人,2020年)中提出的技术,可用于进一步加速XTT性能。
XTT可用于端到端自动语音识别(ASR)架构中。在示例性实施例中,XTT用于将语音音频波形翻译成对应的文本。预训练的XTT上下文表示连接到线性层和SoftMax操作以预测输出。然后将预测的输出连接到解码器(诸如波束搜索解码器)以将其转换成对应的文本。
在示例性实施例中,在端到端深度学习架构中使用XTT来处理语音。XAED编码器被用于将语音转换成潜在的离散表示。XTT连接到XAED编码器的输出,以基于先前的输出预测下一输出。XAED-解码器连接到XTT,以将预测的输出转换成语音。为了测量示例性实施例的性能,音素错误率(PER)度量与预训练的ASR模型一起使用,以将生成的音频转换为文本。
在示例性实施例中,XTT用于多对象跟踪。XTT由一个编码器和两个解码器构成,d1和d2,以生成边界框作为输出。XTT-编码器和查询q1的键和值作为输入传递给d1。d1可以预测当前视频帧中的对象。XTT-编码器和查询q2的键和值作为输入传递给d2。d2可以利用在先前帧中检测到的对象来预测当前视频帧中的对象。d1和d2的性能可以使用诸如并集上的交集等度量来测量。
XTT可以被用于匹配卫星、航空或其他类型的鸟瞰(BEV)图像,以生成数字表面模型(DSM)或深度图(DM)。在示例性实施例中,XTT-编码器被用于利用与图10(a)中所示的类似的示例性架构来测量卫星图像对之间的视差,其中使用视差回归而不是分类来计算预测值。XTT-编码器的输入标记可以通过将图像对分成平面图像块(定义为)来生成。[SEP]符号可用作第一图像与第二图像之间的分隔符。可以通过将线性层或可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)附加到XTT-编码器的最后一层来预测视差。进一步设想,在XTT-编码器之前,使用CNN、CNN-XNN、CNN-XTT和/或XAED的组合对输入图像进行编码。XTT-编码器的白盒可解释组件允许可解释的内部系数和解释的生成,诸如输入图像的输入空间的特征属性,这说明了每个输入特征的绝对重要性和相对贡献。可以进一步设想,经由XTT-编码器的直接扩展,XTT可以用于处理单目镜、立体镜和多视图输入数据中的图像。
在示例性实施例中,XTT被用于视听分类任务,以预测视频中是否存在音频。使用所提取的频谱图来表示音频,该频谱图被使用滑动窗口方法分成帧。使用CNN-XNN架构的压平层将可视帧表示为可视帧嵌入,使用从音频表示中使用的滑动窗口方法采样的帧来表示可视帧。XTT-编码器的输入可以由音频嵌入构成,并且向解码器的输入可以由视觉嵌入构成。输入的顺序可以颠倒,使得视觉嵌入是对XTT-编码器的输入,并且音频嵌入是对解码器的输入。XTT连接到sigmoid函数层以预测输入音频事件类是否存在于视频嵌入中。在另一示例性实施例中,使用CNN-XTT架构代替CNN-XNN架构。在另一示例性实施例中,使用CNN架构的最终前馈层代替CNN-XNN架构的压平层。在另一示例性实施例中,CNN-XTT架构用于检测除音频之外的其他输入模态,包括视听输入中的对象。
XTT可以用于合成生成的多维数据的生成和检测。在示例性实施例中,XTT实现方式可以用于检测深度伪造图像并将其与真实图像分类,或者检测已经添加到数据以混淆机器学习系统的对抗性攻击信息的存在。可以设想,合适的可解释模型,诸如可解释生成对抗网络(XGAN)和/或可解释生成对抗模仿学习(XGAIL)模型,可以用于扩展XTT的生成和检测能力。在另一示例性实施例中,XTT可以实现在相机处理系统内,以在实际图像和计算机生成图像的组合内自动生成、插入和混合精确定位、帧化、缩放、调亮和渲染的人和物体的合成图像。进一步设想,这种合成图像混合系统可以实现在增强现实(AR)、虚拟现实(VR)或类似的元宇宙系统中。在另一示例性实施例中,基于XTT的系统可以实现在用于AR/VR/元宇宙应用的便携式硬件目镜设备内,以执行合成图像与现实生活图像或元宇宙图像的实时混合。进一步设想,这种基于XTT的系统可以实现在用于外科手术或医学图像的分析的医疗硬件内;用于设备检验处理和制造检验处理的工程应用内;以及实现在以人类可读和可解释格式发送数据的医疗植入物内,诸如在机电接口、电化学生物接口或适当的生物-电人机接口(例如生物神经元-人工AI系统接口)内。在另一示例性实施例中,基于XTT的系统可以被实现为医学植入设备的一部分,该医学植入设备桥接两个或多个生物神经元,从生物神经元接收输入信号并以合适编码的格式向生物神经元输出信号。可以设想,这种应用可以提供用于桥接受损的生物神经系统连接的实践解决方案,例如在截瘫患者中,或者有助于高级假体装置中人工装置(诸如相机和其他转导器)的植入和连接。进一步设想,作为XTT系统的一部分实现的XGAIL系统的模拟器和数据样本合成将使能XTT系统生成多模态混合输出,该多模态混合输出根据不同模态的相关序列排序和环境世界上下文(例如,时间同步)被适当地同步。可以进一步设想,这种示例性XTT系统实现方式也可以用于使用各种学习风格来创建新颖的数据样本、图像、数字和模拟混合媒体绘画以及3D雕塑,这些学习风格可以用于适当地修改所生成的数据样本,例如以模仿特定的艺术风格。还可以设想,这种生成的数据样本可以用一些安全的可追踪数字代码、分布式分类帐条目或不可替代的标记(NFT)来标记。
在示例性实施例中,XTT实现方式可用于使用形式音乐符号和合成、声音样本混合、文本到语音生成以及一般音频样本生成的组合来生成音乐。进一步设想,多模态XTT实现方式可以用于以不同模态生成附加输出,例如利用视频生成来创建音乐的伴随视频、利用姿态估计和深度伪造生成模型来创建具有逼真的合成生成的具有类似人类的运动的化身的舞蹈视频以及类似的应用。进一步设想,多模态XTT实现方式可以用于分析不同模态的输入,例如以便关联语音、姿态估计、文本和手势识别,以在虚拟环境中创建真实移动和行为化身。
XTT可以作为预训练后的附加步骤进行预微调,以进一步提高下游任务的性能。
XTT-编码器可以在端到端深度学习架构中使用,以预测视频帧上的注释。在示例性实施例中,深度学习由CNN-XNN组件和XTT组件构成。输入数据集的视频帧被用作CNN-XNN架构的输入,以预测对象嵌入。视频帧的对应转录文本inputt,其中inputt={t1,t2,...,tn},被用作XTT-编码器的输入,以预测上下文化的词语嵌入。可解释的端到端深度学习模型可以强制CNN-XNN架构学习标记tj的上下文词语表示的嵌入,其中tj可以是指视频帧的转录文本中的可区分词语,使得CNN-XNN架构可以学习预测标签的语义上下文。在另一示例性实施例中,使用CNN-XTT架构代替CNN-XNN架构。
在端到端深度学习架构中,对于对话状态跟踪(DST)任务,XTT-编码器可以用于跟踪对话的状态并学习看不见的而不是先前在本体中定义的时隙。在示例性实施例中,XTT-编码器的输入可以包括[CLS]标记、系统对话标记嵌入ds,其中ds={s1,s2,...,sn}、用户对话标记嵌入du,其中du={u1,u2,...,um}、以及在输入空间中将ds与du分离的[SEP]标记。然后,上下文化标记表示[CLS]被连接到可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)来对对话的上下文类别进行分类。通过为开始输出选择具有最大预测概率的标记并且为结束输出选择具有最大预测概率的标记,其余输入标记的上下文化标记表示可以连接到可解释架构x,以预测时隙值的开始和结束位置。XTT-编码器中的可解释架构可以从黑盒模型中导出,或者直接从数据集中学习。
在示例性实施例中,XTT-编码器用于识别给定输入序列中的实体。由XTT-编码器处理的输入序列{s1,s2,...,sn}生成上下文化表示{y1,y2,...,yn}。上下文化表示{y1,y2,...,yn}可以连接到可解释模型以预测两个输出:实体的开始位置和实体的结束位置。可以为实体表示的开始位置选择对开始位置具有最高概率预测的上下文化标记表示。可以为实体表示的结束位置选择对结束位置具有最高概率预测的上下文化标记表示。
在另一示例性实施例中,XTT-编码器用于识别输入问题的回答的开始位置和结束位置。XTT-编码器的输入可以包括[CLS]标记、问题的标记嵌入inputq,其中inputq={q1,q2,...,qn}、回答的标记嵌入inputa,其中inputa={a1,a2,...,am}、以及在输入空间中将inputq与inputa分离的[SEP]标记。然后,上下文化标记表示[CLS]被连接到可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构),以便如果回答存在于标记嵌入inputa中则进行分类。inputa的上下文化表示可以连接到可解释模型以预测两个输出:回答的开始位置和回答的结束位置。可以为回答的开始位置选择对开始位置具有最高概率预测的上下文化标记表示。可以为回答的结束位置选择对结束位置具有最高概率预测的上下文化标记表示。
在示例性实施例中,XTT-编码器被用于将文本中对实体的提及链接到知识库中的对应实体。对XTT-编码器的输入可以包括位于输入空间开始处的[CLS]标记,紧随其后是上下文的标记嵌入inputc,其中inputc={t1,t2,...,tn}、提及的标记嵌入inputm,其中inputm={t1,t2,...,tn}、实体的标记嵌入inpute,其中inpute={t1,t2,...,tk},以及在输入空间中将inputm和inputc与inpute分离开的[SEP]标记。然后,上下文化标记表示[CLS]被连接到可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构),以预测对实体inputm的提及是否链接到实体inpute。XTT-编码器可以将与实体相似的提及指定为负面预测,以学习在其实体链接任务中更能感知语义的XTT。
XTT-编码器可以与XTT-解码器组合,以基于先前的输出来预测输出。在示例性实施例中,XTT-编码器与XTT-解码器组合以预测视频帧中的下一观察到的动作。XTT-编码器以与Dosovitskiy等人(2020年)的工作类似的机制处理视频帧V,其中V={v1,v2,...,vn},作为非重叠的平面图像块,以为每个帧生成特征表示l,使得l=XTT-Encoder(V)(其中,encoder即编码器)。进一步设想XTT-编码器处理可以用于可解释视频编码和视频建模系统的实际实现方式中。XTT-解码器结合时间位置嵌入处理特征表示l,以基于先前的视频帧,以类似于图10(b)所示的方式预测视频帧中存在的动作。
在示例性实施例中,XTT-编码器架构可用于引入基于编码器的变换器,该变换器被训练为对医学成像观察进行分类。输入标记{t1,t2,...,tn}可以是指与位置嵌入机制组合的医学成像数据的部分。XTT-编码器可以使用可解释模型x 2000引入黑盒前馈神经网络组件1900,以构建多级解释,其可以包括分区信息、模型的内部系数以及与黑盒前馈神经网络组件的输出相关的前一层1930的特征属性。XTT-编码器可以用可解释模型x引入黑盒MHA组件1920,以构建多级解释,其可以包括分区信息、模型的内部系数和输入标记{t1,t2,...,tn}与黑盒MHA组件1920的输出相关的特征属性。模型的内部系数和特征属性可以表示输入维度的重要性,或者在基于编码器的变换器中发现的偏差。
XTT可以包括可解释模型x,该模型采用附加的输入,诸如但不限于来自成分注意力模块(Wang等人,2019年)的系数,以构建对在变换器架构中学习的层次结构的解释。
在示例性实施例中,用于医学成像的XTT系统实现方式可以使用可解释的基于编码器的变换器,其被训练为通过利用输入图像标记序列的分类标记来对胸部X射线图像数据集中的肺炎观察结果进行分类。可解释架构x可以接受附加的输入,诸如但不限于各个图像块的成分先验。每个编码器层处的链接概率和相应的特征属性可以用于使用通过自上而下贪婪解析方法的无监督解析来形成输入胸部X射线图像块的可解释解析树。
可解释变换器XTT架构可以是端到端可解释的深度学习系统或合适的机器学习系统中的组件,其合并XTT作为流水线的一部分。将输入标记导出到XTT架构的底层架构可以是卷积神经网络(CNN),并且可解释变换器可以是该架构的最终组件。
示例性实施例可以直接实现为硬件电路,其可以使用(i)灵活的架构,如FPGA或,(ii)更多静态架构,如ASIC、模拟/数字电子、光电或光处理器,或(iii)神经形态架构、自旋电子元件或忆阻器可能更适合于类神经网络模型的硬件实现,或(iv)量子计算硬件。
在示例性实施例中,XTT可以使用FPGA来实现,这对于涉及高吞吐量和硬件加速优势的应用是有用的,同时保持通常与软件实现方式相关联的灵活性。
在示例性实施例中,XTT可以使用ASIC来实现,这对于涉及类似产品的大规模生产的应用是有用的。这样的实现方式可能具有高性能和吞吐量,但代价可能是灵活性较低。
在示例性实施例中,XTT可以使用分立组件来实现,这对于小尺寸或紧凑的XTT是有用的。成本和鲁棒性的考虑可能使这种类型的实现方式具有吸引力,例如,当涉及高功率系统时或者当需要简单的XTT来进行基本控制或安全监控时。
在另一示例性实施例中,可以使用神经形态硬件来实现XTT。神经形态硬件也以类似于自旋电子元件的方式将存储器和处理交织在一起。硬件神经形态XTT实现可以是高效的,同时具有类似于通用计算架构的大部分优点和灵活性,而实际上不需要通用计算架构。神经形态XTT实现方式可以有效地实现可解释模型(如XNN和/或INN),同时例如通过利用XNN条件网络的神经符号架构,使能XTT的可能的非神经组件有效地实现。诸如INN之类的可解释模型,通过呈现一个大部分可以以规则和/或工作流的形式进一步呈现给人们的模型,使能这种架构变得可理解。这种表面表示形式可以被编辑,然后无缝地重新转换回神经形态硬件所需的类神经网络格式。这样的示例性实施例提供了用于编辑、添加和删除相关信息并因此以受控、可靠和可复制的方式改变神经形态设备的行为的实用解决方案。
在另一示例性实施例中,XTT可以实现在采用脉冲神经元而不是更常见的基于激活功能的神经元的神经形态硬件上。脉冲神经元可以非常显著地提高功率效率和处理吞吐量,使得一些实际应用变得可行,否则非脉冲神经元是不可行的。
在另一示例性实施例中,可以使用自旋电子元件或忆阻器来实现XTT。自旋电子元件将存储器和计算组件交织在一起,通向潜在的更有效的硬件实现方式,因为在操作期间不需要太多(如果有的话)存储器值、权重等的传输。忆阻器提供类似的优点,并且具有非易失性的优点。如果自旋电子元件和/或忆阻器实现方式是可重新编程的,则它们可以具有与FPGA实现方式相似的特性。不可重编程的自旋电子元件或忆阻器可能具有与ASIC相似的特性。通过将XTT架构的任何基于类神经网络的部分中的所有不同层和神经元以及XTT架构的任何状态机或基于表格的部分转换为自旋电子元件或忆阻器电路,可以使用自旋电子元件或忆阻器有效地实现XTT。由于自旋电子电路中可用的存储器和处理的合并,自旋电子元件实现方式在实践中可能特别有效。忆阻器实现方式可能特别地功率有效,因为它们的非易失性权重存储使得在操作期间积极地关闭基于忆阻器的系统的一部分或全部成为可能。更快的数据访问以及消除或减少数据总线上计算昂贵的数据传输请求可以显著提高这种实现方式的性能。
在另一示例性实施例中,可以使用量子处理系统来实现XTT。可以设想,实现在量子处理系统上的XTT将具有类似于经典XTT模型的特性,并添加了量子特定扩展。例如,这种扩展可以允许量子退火效应的规范及其正确解释。在另一示例中,扩展可以允许正确解译多个量子位态、量子位基态、混合态、辅助位和由于纠缠和/或退相干引起的其他相关量子效应。在另一示例中,扩展可以允许在XNN内引入量子逻辑特定运算符和/或硬件逻辑门,诸如量子逻辑门,如CNOT(受控非)、CSWAP(受控交换或Fredkin门)、XX(Ising耦合门XX)、YY(Ising耦合门YY)、ZZ(Ising耦合门ZZ)门、Pauli门、Hadamard门、Toffoli门以及可以串行或并行组合的其他相关量子逻辑操作。这种量子逻辑门(或量子门)对许多量子位进行操作,充当经典逻辑门的量子模拟。Ising门的XX、YY、ZZ命名与Pauli X、Y、Z矩阵相关,该矩阵用于描述粒子自旋与外部电磁场的相互作用。进一步说明这些示例,这种量子特定扩展可以在XTT架构的各个部分中实现,例如通过具有条件、事件、触发器和动作的量子扩展版本。还可以设想,XTT的这种量子扩展版本可以利用量子效应,例如以比经典处理实现方式所需的处理步骤少得多的处理步骤来执行多个动作,或评估多个条件,或评估大型约束系统。在示例性实施例中,在量子计算硬件上实现的XTT可以利用合适的量子算法,诸如基于量子傅立叶变换、振幅放大、量子游走等的那些算法。在量子设备上的示例性XTT实施例中,可以利用Bernstein-Vazirani、Simon算法或Deutsch-Jozsa算法来预测和细化XTT架构的边界条件,同时还可能加速编码-解码方面。在另一示例性量子实施例中,可以使用Shor算法、量子相位估计算法、Grover算法、量子计数、量子Hamiltonian NAND树或HHL算法来加速与行为模型(BM)集成的XTT架构的约束、条件、事件和触发部分。在量子设备上的另一示例性实施例中,可以利用混合解决方案,诸如QAOA算法、VQE eingensolver、CQE eingensolver和量子矩阵反演,以例如通过使用高斯估计处理或方程组解算器的线性系统来加速所涉及的部分处理,该方程组解算器的线性系统利用量子处理在XTT模型训练期间和在环境中正常操作时给出更快的结果。
XTT的量子实现方式也能够在多任务和多模态应用中提供显著的优势。例如,可以为每个模态和/或任务定义Hilbert空间(具有每个任务/模态的适当基础状态定义),并且随后可以构成包含所有单个任务和模态的多任务和多模态Hilbert空间。由此得到的多任务和多模态Hilbert空间可用于表示任务与模态之间的所有交互,并且用于实现模态和/或任务的子集的训练以及交叉学习的量子版本。交叉学习也可以受益于量子实现,因为交叉学习结构中的稀疏连接和量子计算硬件的卓越搜索性能特征的组合可能会产生更快的应用。进一步设想,混合实现可以得到实际实现方式,其中经典硬件用于实现面向单个任务或模态的XTT,并且量子硬件用于实现交叉学习结构。
在示例性实施例中,XTT可被合并在工作流系统内,该工作流系统分别从XTT读取和写回XTT,包括处理数据和事件数据两者。还可以设想,XTT和工作流组合可以进一步集成在机器人处理自动化(RPA)系统、决策支持系统(DSS)或数据湖系统中。
XTT动作、客观度量、条件、约束、动作、触发和事件可以利用溯因、归纳、演绎逻辑与因果逻辑的组合。使用归纳逻辑,XTT可以基于可能已经完全自动学习的泛化规则和知识来预测未来的行为。使用演绎逻辑,XTT可以根据一个或多个条件或约束的组合来预测行为。使用溯因逻辑,XTT可以将观察到的场景改造成XTT中的一组已知的可能状态,或者能够以合理可接受的方式解释当前观察到的行为。溯因逻辑在基于XTT的诊断系统的实际实现方式中也可能是有用的,并且可以用于使用行为监测和预测数据来帮助人工智能系统的诊断和故障排除。溯因逻辑也可用于创建拟合观察状态的基于XTT的解释叙事,而归纳和演绎逻辑可用于创建一般基于XTT的解释叙事,以及类似预测的叙事。在环境提供部分可观察性的情况下,溯因逻辑可能是有用的。
XTT可以用于使用反事实语言表示架构的因果解释。在示例性实施例中,用附加的处理概念目标(Feder等人,2020年)和受控概念(Feder等人,2020年)训练XTT-编码器,以预测潜在混杂概念的存在。然后,使用指定给输出类的预测概率之间的绝对差的平均值,将该示例性实施例中的XTT-编码器的预测与没有使用反事实微调训练的XTT-编码器的预测进行比较。
XTT可以实现因果模型特定的功能以处理因果关系,处理关联性、干预以及反事实因果逻辑,经由环境模型输入执行合理性检查,并且还经由因果可信的同构来扩充训练数据。在图19所示的示例性实施例中,XTT与可解释的因果模型功能一起实现。输入层400(如果可解释系统是XNN,其可以对应于图3中的输入组件400),馈送到合适的特征交互组件424(如果可解释系统是XNN,其可以对应于图3中的拟合层组件424),然后馈送到可解释系统3400,其可以是XTT本身和/或其可解释模型组件之一。输入层400还馈入因果模型组件3410。特征交互424和可解释系统3400具有到因果模型3410的双向链接,因为它们都馈入因果模型并从因果模型接收反馈输入、特征和特征交互信息。因果模型3410向因果处理流水线4100-4600提供输入。因果处理流水线从因果场景4100开始,因果场景4100还可以可选地从环境模型4500接收环境上下文输入4510。这样的环境上下文4510可用于设置不允许AI系统考虑环境不可能状态的合理性约束和适当边界。因果场景4100馈送到因果选择组件4200,因果选择组件4200选择要考虑由流水线进一步处理的适当信息。因果变换组件4300从4200接收经过滤的信息,并应用合适的变换,包括基于关联的统计变换和符号变换,并馈送到干预组件4400。干预组件4400使用合适的逻辑(诸如如果使用Pearl的因果逻辑,则使用do()运算符)应用因果干预,然后馈送到反事实组件4600。反事实组件4600将反事实因果逻辑应用于正在考虑的当前场景。组件4300、4400、4600可以适当地从流水线的任何先前部分开始迭代地重复流水线处理。当流水线准备好处理时,结果经由因果特征和因果特征交互组件4700被发送并存储回因果模型3410中。可以进一步设想,可选的实现方式方面将允许示例性实施例经由因果和环境约束的同构处理来扩充训练数据。在这样的选项中,来自4700的输出被馈送到同构组件4800。环境模型4500还可以可选地将相关环境约束和不变性信息4520发送到同构组件4800。组件4800将可能的同构变换应用于已知数据,并且随后基于从4700接收的信息应用因果约束和过滤,以确保只有因果和环境可信的新生成或合成的数据样本被发送到增强的因果特征和交互组件4900。这种增强的数据样本被添加到因果模型3410,并可被可解释系统3400访问,用于进一步的再训练、适应、少样本学习处理和其他合适的用途。
继续示例性实施例,进一步设想可以利用各种因果试探法来改进因果XTT的性能。例如,每当因果XTT利用历史信息时,可以合并(Qi等人,2020年)中给出的两种启发式方法,基本上总是在历史信息和最终回答之间插入未观察到的混杂因素或噪声变量。
图23示出了从自然语言文档自动创建草稿因果模型的示例性因果XTT系统实现方式。利用XTT注意力模型,识别47010来自文本文档的相关原始文本片段,以及前件与其后件之间的位置链接,例如通过识别“及时支付”和其后件“我们的形象取决于”之间的前件-后件链接(因为在这个示例中,公司形象取决于及时支付)。通过适当的掩码或泛化处理或一些合适的自我监督处理47020,原始因果链接片段47010然后被泛化以匹配文档中的不同短语,这些短语在示例性XTT系统中被表示为泛化目标47030。例如,得到“我们的形象依赖”因果链接的“及时支付”的泛化目标可以由得到“<y>图像依赖”的“在<x>时间内支付*”给出,其中<x>和<y>是两种不同类型的掩码(即语义泛化),并且“*”符号是依赖于文档的输入语言的形态学泛化(即句法泛化)。然后使用合适的嵌入方案将泛化目标47030聚类成因果概念,例如将与“流动性”和“<Z>付款人”相关的短语链接到“流动性”的因果概念(即,因果变量)47110,将与“声誉”相关的短语链接到“公司看法”的因果概念47130,将并且与“谈判”和“交易”相关的短语链接到“购买交易”的因果概念47120。泛化目标47030之下的因果结构(其反过来是从原始文本片段47010中提取的)用于指定因果概念之间的因果联系的正确方向。在图23所示的示例中,流动性47110是购买交易47120和公司看法47130的原因。进一步设想,适当的因果启发式方法可能导致因果XTT在47110与47120之间插入混杂因素(表示交易头寸固有的不确定性)以及在47110与47130之间插入另一混杂因素(表示公司看法固有的不确定性及其与其他非财务原因的联系)。
在示例性实施例中,XTT可以将神经符号条件约束与其当前和/或先前历史状态的部分或全部和/或其先前历史激活率链接起来,以便约束触发激活率。神经符号约束可以以各种合适的示例性实现方式实现,包括但不限于符号规则或符号表达式系统的形式、多项式表达式、条件和非条件概率分布、联合概率分布、状态空间和相位空间变换、整数/实数/复数/四元数/八元数变换、傅立叶变换、沃尔什函数、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑和差分分析。神经符号条件约束也可以以数据结构的形式实现,该数据结构引用可解释模型和任何相关联的分类法、本体和因果模型可访问的不同特征和变量。神经符号约束也可以以知识图网络的形式实现。
命名参考标签可以被指定给XTT架构中可解释模型内的特定组件。命名参考标签本质上可以是描述性的,并且还可以包含附加的元数据以及到外部分类法、本体和模型的链接。命名参考标签可以由以下形式的符号表达式和/或公式构成:合取范式(CNF)规则布尔逻辑、一阶逻辑、二阶逻辑、命题逻辑、谓词逻辑、模态逻辑、概率逻辑、多值逻辑、模糊逻辑、直觉逻辑、非单调逻辑、非自反逻辑、量子逻辑、次协调逻辑或者用于逻辑的表达的其他合适类型的逻辑系统—或者类似的语句,以提供对导致XTT中当前组件执行的决策集或决策序列的解释,我们称之为路径跟踪。“激活路径”可以被定义为跟随AI模型的数据流路径,从特定输入开始,并以特定输出预测结束。路径跟踪是描述激活路径的特定AI模型的决策、节点、转换或适用描述结构的集合或序列。命名参考可用于与安全相关的约束中,以确保人类更容易和更可靠地识别,特别是在潜在的关键和紧张的情况下,在这种情况下,人类的注意力持续时间可能会受到严重影响或限制。
在另一示例性实施例中,XTT可以利用动态处理下命名参考标签的相同不变性来生成AI模型内发生的动态的稳定、长期解释,而不必随着动态处理的每次运行重新编码知识或重新训练解释方法。进一步设想,可以应用适当的时间变换来解释发生在2D或3D场景中的视觉动态,无论这种场景是直接观察的还是合成生成的。
在示例性实施例中,XTT将使用合适的计算和知识表示结构作为其约束和预测逻辑实现的基础。这种合适的结构可以是资源描述框架(RDF)树、RDF图、Levi图或其他合适形式的图结构。进一步设想,超图结构或单纯复形可以用于实际的XTT实现中。
在示例性实施例中,XTT可以实现审计日志功能。这种XTT审计日志信息的示例性应用是在决策日志和路径跟踪的创建中,决策日志和路径跟踪清楚地说明了XTT的流程、交互和行为及其条件、事件、触发和动作以及整体动态。可以设想,路径跟踪可以在专家系统和基于规则的系统中被实现为已经被触发和执行的规则的注释序列。可以进一步设想,路径跟踪可以在工作流系统中被实现为已经由工作流引擎执行的工作流节点和路径的注释序列。路径跟踪可以用于说明XTT的精确序列和行为,并且可以被实现和配置为显示用户可能感兴趣的沿着路径的最近邻域。可以进一步设想,XTT可以利用其自己的审计系统日志,该日志可以以防篡改和可追踪的方式存储在记录系统、DLT、数据库或一些其他合适的系统中。这种审计信息可以存储在与相关联的AI模型分离的独立系统中,或者共享由其相关联的AI模型使用的相同审计系统。
在示例性实施例中,XTT可以通过基于以下一项或多项的系统的组合来实现和验证:动作的时间逻辑、抽象机器符号、Petri网络、计算树逻辑以及其他合适的实现方法,这些方法可以形式地表示模态逻辑、直觉逻辑和/或关系语义,包括但不限于Kripke语义和/或Alexandrov拓扑。
在示例性实施例中,XTT可以利用锚定项。XTT中的节点和边以及其他事件、触发器、约束和动作的数量可以被认为对于特定的应用领域是重要的或关键的。这种重要性可以由应用或使用环境来确定,或者经由施加某些强制性约束的外部第三方(诸如监管或法律机构或行业标准制定机构)来确定。这些类型的重要或关键约束可以分别被称为锚定项、锚定变量、锚定节点、锚定边缘、锚定事件、锚定触发器、锚定约束和锚定动作。这种锚定组件类似于解释结构模型(ESM)中的锚定术语。锚定项也可以被指定一个命名的参考标签。
在示例性实施例中,量化方法可在XTT处理期间应用,以提高性能并可能地减小实现尺寸,尤其是在资源受限的硬件上。进一步设想,可以应用某种形式的不稳定性减少技术,诸如使用应用常微分方程(ODE)解算器,诸如可以应用Qin等人(2020年)中提出的解算器,以部分抵消量化对XTT精度的任何不利影响,并减少训练期间的不稳定性。
在示例性实施例中,XTT可以利用无模型和基于模型的优化方法的组合。依赖于统计关系和诸如协方差、相关和互信息的合适测量以及其他合适技术的无模型方法可以用于在XTT内生成必要的结构,而无需访问模型或合适的先验集。由于基于模型的方法的更广泛的计算表示能力,依赖于因果关系、符号知识或其他合适方法的基于模型的方法通过添加更丰富和更具表现力的优化步骤来进一步细化XTT。
在示例性实施例中,XTT可以用作实际数据隐私保护AI系统实现方式的基础或部分。SI系统可能在多种场景下有意或无意地侵犯数据隐私:(i)来自训练数据集的个人数据无意中合并AI模型;(ii)通过重复分析模型回答,可以重新提取或重新创建个人数据;(iii)某些唯一可识别群体的个人数据最终可能面临更高的识别风险;(iv)模型反演和成员推断技术,可以经由唯一的密钥或签名关联模型数据;(v)其他信息来源,诸如公共数据来源,可以与私人信息相结合,可以重新创建或以其他方式识别私人信息。AI的主要数据隐私保护解决方案可分为四种类别:(i)差别隐私;(ii)安全多方计算;(iii)联合学习;(iv)同态加密。基于XTT的系统的示例性实施例可以使能所有四个类别下的实际实现方式。
在示例性隐私保护解决方案(i)中,在XTT架构中,差分隐私、在训练数据中引入噪声或一些其他合适的混淆手段可用于通过噪声因子或比率来生成可控量的隐私。噪声级别可以是用户能够提供或编辑的变量,其中噪声级别可以被实现为约束和/或目标。在隐私保护解决方案(ii)中,安全多方计算(SMPC)可以用于获得正确回答,同时隐藏关于数据的部分信息,并且可以同时使用来自一个或多个源的数据来计算回答。XTT和可解释模型的示例性实施例可以扩展SMPC协议以应用于除了回答输出之外的解释生成。进一步设想,可以出于安全和建立信任的目的正式地分析和测试XTT的示例性实施例,而不暴露任何私人信息。安全隔区也可以用于解密硬件处理器内受保护空间中的数据,限制了系统的其他部分可以明文访问这种数据的可能性。XTT与安全隔区组合的端到端硬件实现可能对大多数形式的数据攻击相当有弹性。在隐私保护解决方案(iii),联合学习中,XTT可以分布在仅保存本地数据样本的各种分散设备上。本地数据样本不与其他设备共享,因此限制但不完全消除所涉及的隐私风险,并且可能特别适合于消息传递选项受到网络拓扑(诸如在网格网络中)限制或约束的物联网或边缘计算应用。在隐私保护解决方案(iv)中,同态加密或同态计算可用于允许对加密数据进行计算,而无需解密数据,并且也可选地使用加密的可解释模型。在使用同态加密数据和同态加密XNN的XTT的示例性实施例中,利用CKKS协议,生成秘密密钥和公共密钥。公钥用于加密并且可以共享,而私钥用于解密并且必须保密,例如,在安全的硬件隔区或类似的实现解决方案中。
XTT通可以利用基于假设(what-if)、假设-否则(what-if-not)、反事实、但是(but-for)和条件场景生成的结构化解释,以生成与将此类场景应用于XTT系统输入的结果相对应的解释策略和基于场景的解释;其中选择一个或多个假设的目标结果作为情景建模的一部分。这种基于场景的解释也被称为对比解释或比较解释,这分别取决于目标场景结果在本质上是对比的还是比较的。可以设想,在这种基于场景的解释生成应用中,XTT系统可以将约束与被检查的场景相关联,将客观成本与特征难度/可实现性/严重性相关联,并且将作为输出目标的动作与领域特定和场景特定的动作相关联。在另一示例性实施例中,XTT系统可以与XRL代理一起实现,以提供关于策略、成本和奖励的附加信息和/或还提供XRL代理的附加训练示例。在示例性实施例中,诸如XTT的XAI模型可用于预测贷款申请的结果。贷款申请可能因各种原因被接受或拒绝,诸如总收入、当前职业、年龄、总净资产和其他因素。系统用户可能需要关于如何改变贷款申请结果的建议。例如,在拒绝贷款申请的情况下,系统用户可能想知道输入中的什么项目组合需要改变才能使申请的状态从拒绝变为批准。可以设想,可能只需要改变所有输入变量、特征和特征交互的子集。一个或多个成本可以与每个变量相关联,对应于每种成本类型的一些合适的度量。例如,受偏见保护的类别,诸如性别或种族,可能具有非常高的相关联成本或者被标记为不可能完全达到(即,非法结果状态)。在另一示例中,高成本可能与不可逆的策略动作相关联。诸如当前收入的其他变量可能比总净值变量的成本更低。动作的成本可以是线性或非线性的,并且可以包含影响总成本的因变量或自变量。缺失数据也可能有与之相关联的特定成本,使能XTT系统适当地处理缺失数据,无论是否采取纠正措施。诸如特征重要性或系数的解释数据提供了给定动作的预期回报或成本的精确测量。外生变量和内生变量以及因果模型可用于估计动作的总成本,包括针对具有部分缺失值的数据包括的需要应用的任何特定关联、干预或反事实规则。可以训练XTT系统来学习在特定上下文中针对给定用户的建议动作,即,建议变量的可能变化,这导致结果的变化,同时最小化动作的总成本。还可以设想,建议的动作可以包含某种形式的序列,其通向期望的目标。进一步设想,最近邻域方法与这种基于场景的XTT系统解释结合使用,以提供(适当匿名化的)具有期望场景结果的应用的实际示例(范例)或这种应用的假设平均值(原型)。这种最近邻域方法可以利用可解释模型内的分区层次结构,从同一分区、或从附近的分区或从离当前分区更远的分区生成示例。进一步设想,变量的可能变化由一些合适的系统进行排序和优先排序,并以识别-评估-推荐-解决(IAR)框架的形式呈现给用户或自动化处理。在示例性实施例中,XTT可以与XRL代理一起实现,以生成真实的环境模拟和/或为XRL代理提供经验学习数据样本。可以进一步设想,这种示例性实施例可以用于虚拟现实模拟、增强现实模拟、虚拟协作空间和元宇宙的创建。
在具有AutoXAI系统的XTT系统的示例性实施例中,优化方法还可以用于生成基于场景的解释,诸如多目标优化(MOO)、帕累托前沿方法、粒子群优化(PSO)、遗传算法(GA)、贝叶斯优化、进化策略、梯度下降技术和蒙特卡罗模拟(MCS)。可以进一步设想,XAED和/或XGAN系统的编码-解码信息完全或部分链接到存储在解释结构模型(ESM)中的属性值和其他数据。可以进一步设想,这样的示例性AutoXAI系统可以利用形式语言或一些其他合适的手段来表示存储在XTT架构内的状态知识的计算图,连同更动态的变化,如XTT的编码器和/或解码器中的前馈网络。这允许AutoXAI系统使XTT系统性能适应一个或多个特定的应用领域或任务,并且为在XTT内合并元学习系统提供了实际解决方案,这虽然在强化学习系统中很常见,但对于XTT来说并不明显。这种元学习系统还可以为人类处理知识的初始合并提供实际解决方案,该知识随后在AutoXAI模型发现期间被细化。
XTT、XTT-编码器或XTT-解码器可以在共享相同参数的同时处理多个任务和多个模态。在多任务和多模态XTT系统的示例性实施例中,可解释模型包括使用相同参数处理音频、图像和视频的XTT-编码器或XTT-解码器。XTT-编码器或XTT-解码器的输入可以包括用于图像的标记化输入、用于视频的标记化输入和用于音频的标记化输入,使得:
XTT-编码器或XTT-解码器可以包括用于每个模态的多个类别标记,使得:
cls(XTT-Encoder)可以附加到线性层以产生任务的预测输出。对于每个模态,输入嵌入和位置嵌入可能是不同的,即使它们连接到相同的XTT-编码器或XTT-解码器。XTT-编码器或XTT-解码器可以通过从每个任务的每个数据集采样小批量、计算梯度并相应地更新参数来针对不同的任务进行训练。可以使用多种策略来从不同任务采样,诸如从不同任务交替采样、逐个任务采样、从不同任务均匀采样、根据特定加权标准对任务采样,或者针对多个任务的小批量累积梯度并且针对所有任务的所有小批量或跨所有任务的预定义小批量集执行单一参数更新。XTT-编码器或XTT-解码器可以针对给定任务一次训练一个模态。XTT-编码器或XTT-解码器可以通过针对给定任务使用多模态输入而以多模态方法训练。多模态XTT-编码器或XTT-解码器使能在多模态白盒模型中生成解释,以使能给定多模态输入和输出的模型可解释性。
在另一示例性实施例中,利用诸如XNN、INN或XTT的可解释模型的XTT可以具有对应于与一个或多个输入特征相关联的一个或多个任务的多个输入,并且具有对应于那些任务的输出的多个输出。在这种上下文中,任务的语义概念仅仅是通过指定一些输入特征作为任务标识符和任务元数据输入特征来实现的,而不需要对XTT结构本身进行任何改变。形成XTT一部分的可解释模型中的层次分区结构可以是树、图、超图或单纯复杂结构,允许针对不同任务学习的不同知识之间的交叉高效地发生。这种交叉发生在XTT预测网络内,该网络迎合了层次分区结构内的特征交互。XTT条件网络可用于通过链接任务、其相关联的输入和相关联的输出的分区结构来选择、编排和复用正确的路径跟踪。可以设想可以利用更密集或更稀疏的XTT以能量有效的方式实现部分分区结构。进一步设想,分布式XTT或DEA可以用于以实际的方式实现部分分区结构。
XTT可以使用稀疏可解释模型来实现,或者在其部分或全部组件中使用稀疏可解释模型的DEA来实现,包括前馈组件、查询值键组件、注意力模型和输出相关组件。可以设想,这种稀疏模型可能导致显著的功率降低和性能加速。
图20示出了具有多任务(和多模态)交叉学习的示例性可解释系统,其代表了用于可解释AI系统的多任务和多模态学习的实际解决方案。我们用于可解释AI系统的交叉学习的新公式利用了交叉学习结构45300,这在图21中有更详细的说明。继续图20,交叉开关控制器45100用于确定哪些可解释子系统45200得到发送到它们的任务信息和输入45150,从而减少需要并行执行的子系统的数量。可解释子系统可以被实现为DEA或一些其他合适的同质或异质分布式可解释AI系统。可以设想,多任务和多模型系统的灰盒版本可以通过具有由黑盒构成的一个或多个子系统来实现。继续示例性实施例,每个可解释子系统具有到交叉学习结构45300的链接,该交叉学习结构又由各种交叉子系统45350构成。并非所有子系统都必须连接到所有其他子系统,并且交叉学习结构被设计为实现为稀疏连接网络(尽管密集、全连接的网络仍然是可能的)。可解释输出45400被并行地产生,并且可能被排序和优先化,直到它到达输出选择器45500,输出选择器45500将中间可解释输出45400连同来自交叉开关控制器45100的控制信息45110一起获取,以最终选择将由系统输出的系统输出45600。
图21示出了链接两个可解释子系统的示例性交叉结构实现方式的详细组件(即,图20中示出的交叉子系统45350的详细部分),在图21中由取自两个子系统中的每一个的代表性节点45210表示,在这种情况下是子系统1节点1(1.1)和子系统2节点1(2.1)。在选项(a)中,通过具有将子系统1节点1与子系统2节点1链接的交叉节点45353和将子系统2节点1与子系统1节点1链接的另一交叉节点45354,利用单向链路或有向图结构来链接这两个节点。可选的交叉噪声节点可以在线插入每个交叉连接节点之间,即在子系统1节点1与交叉节点45353之间插入噪声节点45351,以及类似地,在子系统2节点1与交叉节点45354之间插入噪声节点45351。作为另一选项,交叉节点本身可以相互发送信息,如示例性链接45356和45357所描绘的。在选项(b)中,利用双向链路或无向图结构来链接两个节点,在这种情况下,每个交叉节点变成双向交叉节点,如组件45355所示。噪声节点和交叉节点间连接也可以以与选项(a)类似的方式被添加到选项(b)中。
图20和图21所示的交叉学习的示例性实施例可以使能XTT为多任务和多模态学习提供实际的解决方案。各种分布式技术可用于优化性能,包括优化训练期间的任务顺序、不同的训练计划和针对不同模态的优化,以及跨多个任务和模态共享XTT-编码器以优化参数空间。
在示例性实施例中,XTT可以被集成为基于示例性CNN的机器学习模型的最终压平层之后的组件。如图16所示,压平层可以用作基于变换器编码器的架构的输入。参照示出示例性医疗应用的图16,可以通过将最终编码器层的输出连接到分类层来微调XTT-编码器,以预测X射线图像是否构成正常的不显著病例还是显示细菌性肺炎或病毒性肺炎的迹象。进一步设想,通过连接附加的可解释机器学习模型来进一步分析可解释输出,可以实现进一步的细化和解释。在另一示例性实施例中,XTT或XNN可以连接到图16所示系统的X射线预测输出,以确定病毒性肺炎是否由某种特定类型的病毒性疾病引起,如流感病毒,或冠状病毒(如COVID-19病毒、腺病毒等)。可以进一步设想,在得到的解释和解译流水线中,可以进一步生成风险评估和具有建议动作的可操作解释。
XTT架构内的可解释架构可以为分类输出生成解释。可以使用基本解译、解释性解译和元解释性解译来解译这些解释。基本解译可以是指子组件可以理解的预测输出o。解释性解译由2元组向量<o,w>表示,并且其是指与针对这种预测值的模型解释w相结合的预测输出o,其可以被子组件理解。模型解释可以由可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)的系数θ构成,该架构可用于解释给定观察的输入特征的特征重要性。元解释性解译可以由3元组向量<o,w,j>表示,并且可以包含预测输出o、模型解释w和模型解释j的理由。模型理由j提供了关于解释系统所采取的假设、处理和决策的额外信息,这些信息在产生模型解释时被考虑在内。
如图16所示,黑盒CNN的全连接层可以用XTT 3212代替,以构建白盒CNN-XTT。对于黑盒CNN架构和CNN-XTT架构,3202与3210之间的步骤可以保持相同。首先,CNN层可以接收输入3202。然后对输入3202进行卷积3206,其中输入的不同元素被提取和分类。接下来,基于相似的特征将卷积后的层池化或分组。池化后的特征可以再次被卷积和池化。在该示例性实施例中,CNN层执行两次卷积操作3206和两次池化操作3208,然而可以设想,取决于应用,可以实现这些层的附加重复。在CNN层对卷积后的特征进行卷积和池化之后,特征可以被压平3210以输入到下一系统中。图16示出了在前向训练处理3200期间的CNN-XTT架构,其实现产生输出3214并且可以附加地产生解释的XTT架构。这些步骤的实际配置可取决于特定CNN网络的配置。CNN类似于表格数据集,利用全连接层来学习数据中的模式。其他CNN层只是在分类任务之前发生的特征变换步骤。类似的概念应用于CNN-XTT,由此这种CNN变换可以在一般XTT之前应用。
池化层是CNN网络中的标准层。它们通常放置在卷积层之后,其中卷积层提供图像或某种形式的多维数据中的特征的摘要。卷积层的主要问题是它们对输入特征的位置很敏感。这意味着输入数据的微小变化将导致不同的特征图。一种方法是对数据进行下采样,其中相同数据的低分辨率被用于进一步处理。CNN网络中的一种下采样方法叫做池化。池化利用运算符来减小特征图的大小。两种常见的池化方法是最大池化和平均池化。例如,最大池化可用于计算特征图的最大值或最大值。
CNN-XTT也可以充分利用掩码学习方法来更好地泛化他们的学习模型,包括之前讨论过的自我监督模型。
反向索引机制(反向映射(backmap))是CNN-XTT架构所独有的,由于CNN-XTT的白盒性质,这是可能的。在所有层(包括CNN层)都可解译的情况下,可以使用反向映射来应用反向索引,以便将输出一直回溯到原始输入。
现在参照示例性图17,图17可以示出示例性反向索引机制。示例性反向索引机制3201可用于生成CNN-XTT中的解释。图17所示的反向索引处理可以实现与图16所示的正向遍次索引处理中的步骤相同或相似的步骤。然而,在这种情况下,操作可以反向执行,从输出开始,到输入的特征结束。此外,与对数据进行下采样的前向遍次中的池化相反,池化函数可以对数据进行上采样。类似地,卷积层被设计为反卷积操作。
来自预测网络的输出可以用作在CNN-XTT中生成解释的基础。预测网络可以通过使用方程来对输入特征进行加权,其中每个特征由系数来加权。每个系数表示最终卷积后特征的重要性。为了创建有意义的解释,卷积后特征及其重要性可以被映射回原始输入。由于CNN-XTT的中间层不是全连接的密集层(黑盒),而是XNN的稀疏连接层(白盒),因此有可能应用反向索引机制(反向映射(backmap)),将卷积后特征的输出映射回原始输入。CNN-XTT的独特之处在于其反向索引机制的实现方式,该机制允许快速输出解释,连同解释与回答的快速关联以及CNN-XTT在处理期间遵循的精确激活路径。
反向映射的创建通常可以实现为静态处理,当确定CNN-XTT的架构时执行一次。如果CNN-XTT架构本身(即连接、层等)更新,则每次这样的架构更新都需要更新一次反向映射。如果CNN-XTT架构被动态更新,则可能的实施例可以涉及反向映射的动态创建和更新。反向映射创建的每架构更新一次的性质允许高效的实现和基于反向映射本身的进一步优化的空间。例如,反向映射可以用于有效地识别出现在输入多维数据中的感兴趣的片段和区域,有效地识别符号和概念,并且还优化快速创建输入多维数据的摘要和低分辨率子样本的处理。
反向映射可以作为外部处理或作为执行反函数的神经网络来处理。神经网络可以嵌入CNN-XTT内,或者保持作为专门设计用于执行反向索引机制的单独网络。该处理可以从识别由XTT网络的系数确定的特征重要性开始,并一步一步地反向后退。输出权重可以映射回原始输入。根据在原始CNN-XTT网络中发现的层的类型,可以顺序地应用这些步骤。可以应用映射直到它到达原始输入,这将使能概念特征重要性能够被映射回原始输入。
CNN-XTT可以使用反向映射来可视化CNN-XTT中用于特定查询的激活路径,并且还能够将其合并为理由的一部分。反向映射还可用于通过向融合图像、查询文本和回答对的多模态表示添加解释元素来增强视觉问题回答(Malinowski等人,2016年)。
反向索引机制可用于生成热图形式的解释,或者在生成解释时考虑实际卷积后过滤器的某种形式的解释。卷积后特征可用于检测笔画、边缘或图案,其随后可为解释生成处理提供燃料,该解释生成处理可以为视觉的、文本的、音频的等。
CNN-XTT架构可以集成内核标记方法,其中这种方法将人类可读标签与数据格式(诸如本质上不是文本的图像或3D扫描)相关联。内核标记方法将数据标记为来自允许定义模式识别内的任何数据格式的原语、模式、符号和概念的渐进细化,连同合适的关键点描述函数和激活最大化函数。内核原语可以被定义为在被分析的相应过滤器中被搜索的特定形状的矩阵。内核标记方法可以最初使用人类定义的内核原语分析第一卷积层,并且可以继续滑过CNN架构中的卷积层和池化层。进一步设想,不同的内核类型,诸如线性、非线性多项式、指数、径向基函数、sigmoid函数和其他合适的内核可以与XTT结合使用。进一步设想,近似内核可以与XTT结合使用,例如通过正交方法奇异值分解(SVD)、随机傅立叶特征、随机分箱特征和其他合适的方法,以减少所需的计算和/或资源的量。进一步设想,CNN的时间优化变型(诸如时间卷积网络(TCN))可以与XTT结合使用。
XTT还可以利用各种近似技术来增加预测和/或训练性能,包括但不限于使用稀疏局部注意力模型、自适应注意力窗口、使用多维注意力矩阵近似(潜在地使用可解释的近似模型)、智能权重共享和智能参数化来近似或彻底消除点积。
XTT可以具有各种各样的应用,其中输入数据可以是适合于某种形式的基于标记的编码的各种格式,包括但不限于人类可读的自然语言、图形或可视图像数据、音频、语音、触觉、视频、时间序列、多光谱数据、层次排序的多媒体内容、3D数据和其他合适的格式。可以设想,各种格式的组合也可以由XTT系统使用诸如复用或其他形式的输入组合的一些合适的实现方法来呈现和处理。
可以设想,XTT输出可以使用各种呈现格式和布局来呈现所生成的解释和解译,包括但不限于人类可读的自然语言、图形或可视格式、音频、语音、触觉、视频、时间序列、多光谱数据、层次排序的多媒体内容、3D数据和其他合适的格式。各种格式的组合也可以由XTT系统在其使用一些合适的实现方法(诸如复用或其他形式的输出组合)的输出中使用。
在示例性实施例中,XTT系统可用于处理序列数据。序列数据可以包括多个数据点,这些数据点包含各种序列格式的特征数据,包括但不限于:2D数据、3D数据、多维数据阵列、事务数据、时间序列、数字化样本、传感器数据、图像数据、超光谱数据、自然语言文本、视频数据、音频数据、触觉数据、激光雷达(LIDAR)数据、雷达(RADAR)数据以及声纳(SONAR)数据等。数据点可以具有一个或多个相关联的标签,这些标签可以指示特定数据点或连续或非连续数据点间隔的输出值或分类。数据点序列可以由内部和/或外部处理产生,该处理可以输出合成数据点、扰乱数据、采样数据或变换数据的组合。
XTT还可以允许以多模态和多任务方式将任意长度的数据点输入序列映射到任意长度的任意数据点输出序列。这是XTT通过利用可解释模型(不像不可解释变换器,其使用不可解释的潜在空间)进行映射计算来实现的,这与Map-Reduce系统的方式类似。XTT交叉学习结构允许独立于领域和应用的多任务泛化。
在示例性实施例中,XTT系统可用于分析人类行为,包括步态分析、运动预测和情绪状态预测。作为选项,这种XTT系统可以用于预测和分析运动镜头和运动表现。作为另一选项,这种XTT系统可以用于检测和预测医疗状况,特别是当与附加的传感器数据(诸如ECG心率数据、血压、氧合水平等)组合时。
在示例性实施例中,XTT系统可以分析金融股票交易模式,并利用因果模型和多模态数据的组合来预测市场行为,并随后执行自动化动作,诸如购买、出售或在特定股票上进行多头或空头建仓。
在示例性实施例中,用于工业4.0应用的XTT系统,诸如智能制造、支持物联网的应用、智能节能和生态友好的智能公用事业配电和消费网络以及相关应用,其结合了行为模型(BM)。这种示例性实施例可以提供四种主要的不同类型的功能:(i)被动预测和分析;(ii)反应性预测和分析;(iii)被动控制和干预;(iv)反应性控制和干预。在制造应用中,示例性应用将用于:(i)分析从机械发出的音频,分析操作状态,并预先预测故障模式;(ii)利用可向最终用户输出警告的边界邻近条件;(iii)利用反馈阈值触发基于反馈的行动和干预;(iv)利用事件的主动估计和预测来实时控制处理,包括安全考虑。
在示例性实施例中,XTT模型用于将句子从源语言翻译成目标语言。可解释编码器组件的输入是源语言句子Se,使得Se={t1,t2,…,tn}。编码器组件处理输入序列以产生用于解码器组件的存储器键和值。存储器键和值被传递到编码器-解码器注意力组件中的每个可解释解码器层。然后,可解释解码器组件使用线性层和softmax函数或类似机制来预测Se的翻译标记。softmax层的预测输出被用作解码器组件的输入,用于进一步的预测。在另一示例性实施例中,使用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)代替线性层来预测可解释解码器组件的输出。
在示例性实施例中,n层XTT用于将文档从源语言翻译成另一目标语言。输入嵌入与位置嵌入相结合,并用作可解释变换器XTT的输入。编码层中的可解释架构引入黑盒前馈神经网络组件预测黑盒前馈神经网络230的输出,同时生成全局解释和局部解释。可以使用来自解释框架的过滤器来对解释进行过滤,以创建用于解码器的编码器-解码器多头注意力组件的解释。XTT-编码器-解码器还可以利用动态注意力广度来提高对不同情况的适应性,广度窗口长度是包括在输出解释和/或理由中的参数。解码器的解释架构引入如图6所示的前馈神经网络组件270,为翻译的目标语言词汇的线性层的预测生成可解释性。XTT解释和/或XTT输出可以使用来自EIGS系统或合适的解释框架的过滤器进行过滤,以创建依次呈现给合适的解译器的解译。这种实际应用流水线的典型实施例在图14中示出,其中XTT可以用作典型解释和解译流水线中的组件904、908、912和可选的组件911的实际实施例。可以进一步设想,可以利用XTT来执行解释和/或解译输出的面向呈现的变换和增强,包括但不限于(i)生成人类可读的解释;(ii)对话和互动输出;(iii)问答;(iv)解释和/或解译的分类;(v)常见问题(FAQ)类输出;(vi)与先前已知的上下文相关的回答和输出的蕴涵;以及(vii)从多个排序选项中选择输出。还需要注意的是,无论是在并行化和整体吞吐量方面,还是在可解释性方面,XTT都比诸如ELMo的非变换器架构提供了显著的优势。
在示例性实施例中,n层XTT用于检测电子邮件的文本内容是否是垃圾邮件。如图10(a)所示,变换器编码器架构由连接到最终编码器层的下游分类器1008构成,以预测电子邮件是否是垃圾邮件。分类器可以是可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构),以生成对特定领域下游任务的解释。在另一示例性实施例中,变换器解码器架构用于文本分类任务,如图10(b)所示。下游任务分类器1009可以是可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构),以生成对域下游任务的解释。可解释架构从前馈神经网络组件1900导出。所生成的全局解释和局部解释与XTT的输出结合使用,用于下游垃圾邮件检测任务,使用诸如前馈神经网络的机器学习分类器来分类输入文本标记是否是垃圾邮件。下游任务分类器也可以使用可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)被引入,以生成对域下游任务的解释。
有限状态转导器(FST)是最早成功应用于文档处理的模型之一,并且XTT是这些早期FST的直接演变和泛化。FST,以及扩展后的XTT,在人类语言技术(HLT)应用中非常成功,如形态学分析和有限状态解析。FST处理自然语言的早期动机是意识到为自然语言编写语法太难太费力而不实际。FST的主要吸引力之一是它们能够转换为规则并编译回FST形式,同时允许它们的非确定性有限自动机(NDFA)起源的表达能力处理复杂的输入输出变换。使用可解释模型实现的XTT注意力模型允许经由连续级别的详细近似来完成这种规则提取。将XTT的整个注意力模型完全转换为导出的规则也是可能的,但是如果没有某种形式的压缩、归纳或近似,由于将提取的规则的绝对数量,将不太可能产生实际的系统。XTT的优点是可以使用符号方法,如类型化掩码和语法树分析以及基于信息论的压缩和分析方法,将这样的初始规则集归纳并压缩为更易于管理的格式。XTT中的可解释模型可用于通过分析它们的特征交互层将XTT注意力模型转换为基于符号规则的格式,该特征交互层可随后转换为递归关系(即使当存在递归或反馈元素或过去学习的表示参考时),然后最终转换为人类和机器可读的规则格式。
在另一示例性实施例中,XTT被用于处理法律文档,并且正确地确定适用于前述法律文档中涉及的并且被引用的不同当事人和实体的参考文献和文本部分。然后,由XTT注意力模型提取的实体关系、属性和约束,连同由XTT处理的文本语言信息本身,被用来对照例如存储在XAI模型和/或XNN和/或另一XTT中的一组预定规则来双重检查文档,以解决各种法律问题,包括危险信号、责任问题、条款的遗漏、对手方或实体的过度激进的索赔、优先权问题、先例、判例法参考、条款的风险分类、条款的影响分类以及关于特定条款的可接受性的确定的组合。进一步设想,可以利用XTT对可能的编辑进行排序,包括包含和删除和/或缓解策略,以提高法律文档的质量。进一步设想,XTT可以可选地考虑适当的上下文,这取决于XTT应该站在哪一方,以确保根据不同用户指定的全面性和进取性级别来表示这一方利益。
图22示出了使用解释结构模型(ESM)符号用于法律文档处理的示例性XTT系统实现。在该示例中,XTT注意力模型46100用于使用责任条款识别组件46150从法律文档语料库46110识别潜在的责任相关条款46190。XTT还可以访问历史判例责任信息46200和经由外部提供商获得的表示相关管辖区的法律系统的规则(在示例中为“Lex”)的结构化系统46210。历史信息46200、法律系统规则46210和责任相关条款46190用于使用严重性评估组件46250来评估每个条款46290的严重性和后果。XTT还使用用户提供的场景信息46300以及已经被并行提取的合同方信息46310,以使用责任策略推荐器组件46350来处理严重性评估责任条款46290,责任策略推荐器组件46350根据合同方采取哪一方来推荐不同的责任最小化策略46400。最后,XTT使用来自可解释模型的排序组件来推荐对法律文档46110的精确编辑46450,然后可以自动选择或通过人在回路类型的批准来选择。
在示例性实施例中,正在处理文档的XTT系统可以利用多模态文档布局和文档理解技术来正确地分割、处理和链接文档中的文本、图像和其他多模态内容。
XTT还可以用于跟踪它们正在建模的动态系统内的状态变化,并且生成解释这些系统内识别的动态处理的解释。
在示例性实施例中,XTT系统可以在其可解释模型组件中利用快速权重。这种XTT系统可以表示为快速XTT或F-XTT。快速权重可以更好地提高所得到的XTT系统的运行时性能,同时使其能够快速适应变化的输入数据集分布和不是原始训练数据集一部分的新的先前不可预见的训练数据样本。F-XTT还可以更有效地处理序列输入数据和其他类似的多维输入数据。如本领域可以理解的,快速权重可以通过权重变量提供某些先前事件的临时存储库,权重变量可以比标准模型权重变化更快,本质上为系统提供“短期记忆”。
在另一示例性实施例中,XTT用于控制交互解释和/或解译处理的流程,该交互解释和/或解译处理通常用于诸如对话处理、聊天机器人、呼叫中心管理系统、案例管理系统、客户支持系统、客户关系管理(CRM)系统、会话系统、问答系统以及需要与用户和/或另一系统的交互性元素的类似应用中。XTT注意力模型与其回答和解释生成能力结合使用,为交互流的有效管理和相关交互输出的生成提供了实际的解决方案。进一步设想,可解释变换器解码器类型的解决方案可以用于在这样的示例性实施例中提供实际的解决方案,而不需要完整的XTT架构。XTT-编码器可用于命名实体识别(NER)和相关任务,如回指解析。在端到端深度学习架构中,XTT-编码器可用于对字符和词语进行编码,以检测实体的开始和结束。在示例性实施例中,XTT-编码器用于对字符级信息进行编码,以用作另一XTT-编码器的输入,从而生成词语级上下文嵌入。词语级XTT-编码器可以处理预训练的词语嵌入与从字符级XTT-编码器提取的字符特征的组合。条件随机场层(Yan等人,2019年)可以用于最大化P(y|s),其中s是序列并且y是标签序列。字符级XTT-编码器和词语级XTT-编码器可以使用相对位置编码和无缩放注意力(Yan等人,2019年)来优化NER任务的性能。
XTT-编码器可以用于在下游任务中识别两个句子、诸如问答之间的关系。可以使用下一句预测(NSP)(Devlin等人,2018年)对XTT-编码器进行预训练,以使用单语语料库学习两个句子之间的关联。对于问答下游任务,XTT-编码器的输入标记可以定义为{[CLS],q1,q2,...,qn,[SEP],a1,a2,...,am},其中[CLS]是在每个输入前面使用的符号标记,[SEP]是问题和回答之间的分隔符标记,q是指问题的标记,使得q={q1,q2,...,qn},并且a是指回答的标记,使得a={a1,a2,...,am}。在端到端深度学习网络中,[CLS]标记被用作可解释模型的输入,用于分类以确定回答是否对应于输入问题。
XTT-解码器可以通过在外部处理中在目标实体上调节XTT-解码器而用于检测实体并在输入序列中执行实体跟踪,其中输入序列不知道该实体。XTT-解码器可以在输入序列tj的结束添加标记,并且使用tj的上下文化标记表示将其与实体表示组合,并且将其用作可解释模型的输入,以获得类别预测概率。XTT-解码器可以通过重构输入序列而被导向目标实体。可以使用句子与目标实体之间的分隔符标记[SEP]来重构输入序列。[CLS]标记可以被添加在输入序列的开始处或输入序列的结束处。[CLS]标记可以用作可解释模型x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)的输入,以获得类别预测概率。
进一步设想,XTT可以链接到知识图、RDF数据库、键值对表或其他合适的以符号方式提供可以无缝合并在XTT可解释模型内的事实的数据库。这种整合还允许在XTT的前馈预测遍次中利用演绎、归纳、溯因和因果逻辑的组合,将符号结构化知识与类神经网络方法相结合。
在示例性实施例中,可解释系统可以在可解释聊天机器人系统中使用,以解释预测性机器学习模型的决策。可解释聊天机器人系统允许用户与可解释模型x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)交互,以请求解释。可解释聊天机器人系统可以由可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或相似的架构)构成,以对查询意图进行分类并提取所请求的实体。对话管理组件可以用于管理用户与可解释聊天机器人系统之间的状态和上下文。可以训练XTT模型来将模型解释投影到用户可读文本,以将其呈现给用户。可解释聊天系统可以允许与系统管理员进行交互,用于人类知识注入(HKI)或识别白盒模型中的偏见。为用户生成的解释可以包括模型的基本解译、模型的解释性解译和模型的元解释性解译。解释性解译由2元组向量<o,w>表示,并且其是指与针对这种预测值的模型解释w相结合的预测输出o,其可以被子组件理解。模型解释可以由可解释架构x(其中x∈{XAI,XNN,INN,XRL,XSN,XMN}或者逻辑上等价或类似的架构)的系数θ构成,该架构可用于解释给定观察的输入特征的特征重要性。元解释性解译可以由3元组向量<o,w,j>表示,并且可以包含预测输出o、模型解释w和模型解释的理由j。模型理由j提供了关于解释系统所采取的假设、处理和决策的额外信息,这些信息在产生模型解释时被考虑在内。
使用具有图或超图形式的层次分区结构的可解释模型的XTT泛化为图-XTT(GXTT),其中注意力模型基于图-注意力(或超图-注意力),并且除了序列-序列变换的标准XTT模式之外,还可以处理图-序列、序列-图、图-图变换模式。GXTT可以利用不同的图、超图或单纯复形表示格式,包括有向图、无向图、拓扑网络、Levi图或其他合适的表示格式。
在另一示例性实施例中,XTT用于强化学习类型的应用,或需要反馈控制类型的机制的合适应用,诸如机器人系统或典型的控制工程应用。XTT可用于提供从动作策略中选择动作的实际解决方案和/或实现适当的奖励功能,作为强化学习代理的一部分。可以进一步设想,XTT可以用于动作策略和/或奖励功能本身的训练和学习中。进一步设想,可以利用XTT来学习和发现可以由利用所述XTT的强化学习代理执行的可能动作。
进一步设想,XTT与XRL结合使用和/或作为XRL系统的一部分使用。XRL代理可以用于使用XTT来生成涉及干预或反事实元素的解释,以提供必要的上下文。
可解释变换器架构可以合并其他机器学习系统来合并端到端可解释DL系统,该系统合并XTT架构作为流水线的一部分。在示例性实施例中,可解释自动编码器XAED用于压缩较低维度空间中的词语嵌入。压缩后的维度空间与生成的解释和分区信息以及位置编码一起用作可解释变换器架构的输入。
可解释变换器XTT架构可以是自主系统中端到端可解释系统中的组件。自主系统可以使用行为模型层次结构BMH来设计。BMH可能包括多种行为模型BMHBM,其中BMHBM={BM1,...,BMn}。
在示例性实施例中,自主系统可以对XTT或可解释变换器编码器架构具有条件约束BMHc,其中该架构是具有n个编码器层的基于变换器编码器的架构,并且最终编码器层的输出被馈送到输出SoftMax中以预测与另一车辆碰撞的风险。条件约束c可以被放置在可解释架构3400x(其中x∈{XAI,XNN,XTT,XRL,XSN,XMN}或者逻辑上等价或相似的架构)的内部系数上。该条件c可以基于层次形式的其他条件。条件可以是合取范式(CNF)或析取范式(DNF)的形式,或者是合适的一阶逻辑,以便与诸如可满足性模块理论(SMT)和冲突驱动条款学习(CDCL)可满足性(SAT)解算器的形式验证问题解算器兼容。
行为模型BM可以包括可解释系统3470、事件3420、触发器3430、终端动作3440、反馈动作3450和系统组件3460。一个或多个条件BMc的激活可以触发一个或多个事件BMe 3420以激活一个或多个触发器BMt 3430。触发器可以连接在BMH内的多个BM之间。触发器可以向可解释变换器XTT架构提供反馈动作3450,或者向系统组件3460提供反馈,或者激活行为模型中的终端动作3440。自主系统的行为模型层次BMH可以包括多个机器学习模型BMHx,其中BMHx=[x1,...,xn],XTT是BMHx中的模型之一。在这种情况下,行为模型层次结构BMH的条件可以融合在一起,作为BMHt中的特定触发器的条件要求。
可解释变换器XTT架构可以是行为模型框架内的可解释系统3470中的可解释架构组件3400,如图18所示。可解释系统3470可以包括其他组件,诸如因果架构3410。行为模型BM可以由可解释架构x(其中x∈{XAI,XNN,XTT,XRL,XSN,XMN}或者逻辑上等价或相似的架构)构成。在行为模型BMx的可解释架构的正式验证期间,可以包括输入约束。形式规范约束可以基于可解释架构XTT的可解译内部系数。可以设计形式规范约束,以便形式验证以不允许可解释系统中的偏差。形式规范约束可用于使能形式验证方法与XTT和所有XTT变型一起使用。进一步设想,形式规范约束可以使能高级模拟和行为分析方法与XTT和所有XTT变型一起使用。
在示例性实施例中,基于XTT的系统(或由基于XTT的系统控制或监测的子系统)可以在其标称操作周期期间监测异常、变化和偏离标称操作状态和状况。进一步设想,这种监测机制可以通过将XTT与行为模型(BM)或类似的控制工程解决方案相结合来实现,其允许条件、事件、触发和动作的定义和实现。条件、事件、触发和动作下的监测约束和表达式可以以各种合适的示例性实现方式实现,包括但不限于符号规则或符号表达式系统的形式、多项式表达式、条件和非条件概率分布、联合概率分布、状态空间和相位空间变换、整数/实数/复数/四元数/八元数变换、傅立叶变换、沃尔什函数、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑和差分分析。监测约束和表达式也可以以数据结构的形式实现,该数据结构引用可解释模型和任何相关联的分类法、本体和因果模型可访问的不同特征和变量。监测约束和表达式也可以以知识图网络、控制图、Nelson规则、Bode图、Nyquist图和相关方法的形式来实现,这些方法确定一些测量的行为变量是否失控,即给出不可预测性与一致性的度量。
在示例性实施例中,可以在行为模型BM内使用XTT架构来实现自主系统的形式验证,以检测附近的行人,可以使用诸如“如果行人在自主系统附近;并且这样的行人是从左边来的,执行右转”的约束和/或规则来描述。自动约束和/或规则增强系统可以通过从世界环境中采用的附加背景规则来增强验证声明,例如,通过添加“在这种转弯由系统速度、预测的行人速度和右侧障碍物边界确定的情况下”。这样的验证问题可以被转换成可解的方程组,具有诸如自主系统和行人之间的距离D的参数,给定distl<D<distu,其中distl和distu是这种距离的下边界和上边界,并且在角度θ处,给定angl<θ<angu,其中angl和angu是预测的行人运动向量的角度的下边界和上边界。可以利用形式验证技术来验证在这种参数约束下,右转角的预测输出需要在边界olower<rightturn<oupper内。进一步说明该示例,这种形式验证解决方案也可以与那些基于对实际观察到的行为的观察、动态验证的解决方案并行实现,在这种情况下,该方案在自主系统本身上运行。继续这个示例,自主系统也可以在用户级别输出解释,如“不得不向右强烈转向以避开跑在汽车前面的行人”。解释中的形容词,诸如“强烈”,可以经由一些适当的分类方法、值查找表、模糊逻辑系统、AI模型或其他适当的文本生成实现方式来确定。自主系统可以由可解释的基于变换器编码器的架构XTTe构成,该架构将输入图像作为输入。输入图像可以被分成图块并被压平,并且被用作具有其对应位置编码的输入标记。基于变换器编码器的架构XTTe可以连接到线性层以进行微调,从而预测控制动作。自主系统还可以输出更详细的解释,例如,在诊断级别,如“汽车强烈向右转向(加速度曲线:角度=20°,速度δ=2.77米/秒)以避开行人(检测到的物体:类别=行人,置信度=95%;物体向量(预测):相对程度=90°,相对速度δ=2.22米/秒)碰撞(预测碰撞=91%;预测伤害风险=高;预测车辆部件=前大灯)”。自主系统还可以利用以合适的格式编码的诊断级解释,诸如用于编码和发送XAI知识的机器可读方法,来产生多媒体输出,诸如在合适的仪表板显示器或平视显示系统或增强现实显示器上的动画。可以进一步设想,这样的信息也可以使用诸如IEEE 802.11p兼容协议的适当的车辆间通信(IVC)协议在适当的智能传输系统(ITS)网络(诸如车辆对车辆(V2V)网络、车辆自组织网络(VANET)、移动自组织网络(MANET))上发送。
在自主车辆中的XTT系统的示例性实施例中,XTT可用于预测行驶车道形状、执行端到端对象检测和行为预测、执行点云处理,以及结合单目镜、立体镜和多视图图像数据利用凝视注意力模型来创建周围环境的内部表示、创建环境动态的预测,同时向人类乘客或用户提供上下文感知解释。
示例性实施例可以提供可解释变换器。示例性实施例可以包括可解释转导器、可解释变换器、可解释变换器编码器和/或可解释变换器解码器。可解释变换器架构可以解释输入标记对预测数据表示的特征属性。这可用于理解变换器中给定组件的预测输出。使用XNN/INN作为变换器的可解释编码器和可解释解码器的底层架构,可以构建端到端的白盒机器学习系统。白盒变换器的进步包括:
可解释变换器架构和标准的黑盒变换器一样强大。
可解释变换器架构利用并完全兼容所有当前的深度学习库和架构,允许它们利用深度学习系统可用的所有性能进步。
可解释变换器架构允许以灵活的方式创建可解译模型。它们可以在一次迭代中训练,而不需要外部归纳步骤,也可以分阶段训练,或者通过合并对模型的部分的归纳来训练。
可解释变换器架构允许通过分区融合模型。
可解释变换器架构可以在单个前馈遍次中计算编码和解释,而不需要进一步的处理或扰乱。
例如,通过从黑盒模型转移知识,或者通过从外部已经训练过的现有规则集转移知识,可以初始化可解释变换器。迁移学习可以提高可解译模型的速度和质量。
可解释变换器架构可以合并其他机器学习系统来合并端到端可解释DL系统,该系统合并XTT作为流水线的一部分。
可解释变换器架构可用于创建可解译的AutoML模型。
在一个方面,一种可解释的机器学习系统,包括:有限状态转导器FST,其被配置为允许机器学习系统将数据从输入语言翻译、映射并变换成第二输出语言,其中有限状态转导器适用于从输入语言接收数据,该数据包括用于变换的一个或多个输入特征或者变换一个或多个输入特征,并且有限状态转导器还被配置为基于一个或多个输入特征提供经翻译、经映射和/或经变换的数据作为第二输出语言;和/或可解释变换器,其具有基于解码器和编码器组件的组合的基于注意力的架构,该解码器和编码器组件是相对于来自输入语言的数据而形成的,其中有限状态转导器和可解释变换器被配置为组合起来以产生可解释转导器变换器(XTT),其被配置为将数据从输入语言进行翻译、映射和变换。
在另一方面是一种用于提供可解释转导器-变换器的系统,包括:输入层,其被配置为接收输入并识别一个或多个特征;条件网络,包括:条件层,其被配置为基于一个或多个分区对输入特征进行建模,其中该一个或多个分区中的每个分区包括规则;聚合层,其被配置为将一个或多个规则聚合到一个或多个聚合分区中;以及交换输出层,其被配置为选择性地将来自聚合层的聚合分区与来自条件层的一个或多个分区池化;预测网络,包括:特征生成和变换网络,其包括被配置为将一个或多个变换应用于输入特征的一个或多个变换神经元;拟合层,其被配置为将已经由特征生成和变换网络变换的特征组合起来,以识别与以下至少一项相关的一个或多个系数:一个或多个特征和一个或多个分区;值输出层,其被配置为分析一个或多个系数,并且被配置为输出与一个或多个特征或者一个或多个分区中的至少一者相关的值;以及编码层和解码层,其中该编码层和解码层中的至少一个包括从输入形成的可解释架构;输出层,其被配置为生成可由机器程序或人中的至少一者解译和解释的输出;其中贯穿分区的一个或多个执行路径可由外部处理识别。
作为选项或可替代方案,根据权利要求1的机器学习系统,其中可解释变换器包括:输入层,其被配置为从输入语言接收与数据相关联的输入并且识别一个或多个输入特征;条件网络,包括:条件层,其被配置为基于一个或多个分区对一个或多个输入特征进行建模,其中一个或多个分区中的每个分区包括规则;聚合层,其被配置为将一个或多个规则聚合到一个或多个聚合分区中;以及交换输出层,其被配置为选择性地将来自聚合层的聚合分区与来自条件层的一个或多个分区池化;预测网络,包括:特征生成和变换网络,其包括被配置为将一个或多个变换应用于一个或多个输入特征的一个或多个变换神经元;拟合层,其被配置为将已经由特征生成和变换网络变换的特征组合起来,以识别与以下至少一项相关的一个或多个系数:一个或多个特征和一个或多个分区;值输出层,其被配置为分析一个或多个系数,并且被配置为输出与一个或多个特征或者一个或多个分区中的至少一者相关的值;并且其中解码器和编码器组件包括至少一个用于对所述输入进行编码的层以及至少一个用于对所述输入进行解码的层,解码器和编码器组件包括从该输入形成的可解释架构;输出层,其被配置为生成可由机器程序或人中的至少一者解译和解释的输出;其中贯穿分区的一个或多个执行路径可由外部处理识别。作为选项,根据权利要求1或权利要求2的机器学习系统,其中XTT被配置为作为可解释变换器-编码器或可解释变换器-解码器来操作,并且其中系统可选地还包括对XTT的内部系数的条件约束,并且其中条件约束可选地被配置为在XTT的标称操作周期期间被监测。作为选项,其中可解释转导器包括解码器组件和/或编码器组件的子层中的白盒模型组件。作为选项,其中在XTT中使用包括可解释神经网络XNN的可解释架构,其中XNN可选地包括:输入层,其被配置为输入到以下之中:条件网络,其包括条件层、聚合层以及交换输出层;以及预测网络,其包括特征生成和变换层、拟合层以及预测输出层;以及选择和排序层,其被配置为将交换输出层的输出与预测输出层的输出相乘以产生经过排序或评分的输出,其中XNN可选地包括快速权重(Fast Weights)。作为选项,其中在XTT中使用包括可解释神经网络(INN)的可解释架构;和/或其中可解释架构包括可解释强化学习(XRL)系统;和/或其中XTT被配置为支持广泛的学习模型。作为选项,其中可解释架构被配置为:产生由回答构成的可解释或可解译的输出;产生该回答的可选的模型解释,可选地产生该回答和/或模型解释的理由。作为选项,其中XTT包括被配置为处理一个或多个输入特征的分区,分区是可选地根据规则和/或距离相似性函数对数据点进行分组的集群,并且分区或者是其值被设置为静态值的锁定分区,或者是对于XTT的每个向后训练遍次可动态移动的可移动分区,其中分区最初由最初创建XTT的外部处理创建为XTT的一部分,或者其中从提供分区信息的链接的分类法或本体来预训练或适当地初始化分区,其中在预训练分区之后可选地预微调XTT,并且其中一旦创建分区,XTT被配置为使用梯度下降方法来拟合或进一步细化分区,并且其中分区结构可选地以图或超图排列,并且系统可选地被配置为处理图-序列、序列-图和图-图变换模式。作为选项,其中XTT被配置为实现排序函数以确定XTT如何选择、合并或分割分区,其中分区可选地根据层次性质来布置,层次性质可用于在语义和符号细节的不同级别上表示符号。作为选项,其中分区可使用以下一种或多种技术来改变:多目标优化技术、遗传算法、蒙特卡罗模拟方法和/或随意逻辑和模拟技术。作为选项,其中分区包括:两个或更多个重叠分区,以及优先级函数,其被配置为确定激活重叠分区中的哪个;两个或更多个不重叠的分区;和/或聚合函数,其被配置为对来自多个激活分区的结果进行组合或分割,并且其中分区可选地使用稀疏XNN或INN来实现。作为选项,其中每个分区包括以下一项或多项:拟合线性模型的数据;以及在将线性模型拟合到数据之前对其应用了以下至少一项的数据:多项式展开、旋转、维度缩放、无尺寸缩放、状态空间变换、相位空间变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、傅立叶变换、沃尔什函数、连续数据桶化、哈尔小波、非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型或2型模糊逻辑知识图网络、分类编码、Kolmogorov空间、Frechet空间、Hausdorff空间或Tychonoff空间的拓扑变换、差分分析、归一化、标准化和条件特征。作为选项,其中分区根据分区函数层次排列,分区函数包括聚类算法,其包括以下一种或多种函数:k-均值函数、贝叶斯函数、基于连通性的分区函数、基于质心的分区函数、基于分布的分区函数、基于网格的分区函数、基于密度的分区函数、基于模糊逻辑的分区函数、基于熵的函数或基于互信息的方法;其中分区函数可选地包括生成多个重叠和/或非重叠分区的集成方法。作为选项,XTT被配置为在分区中的一个或多个分区上执行一个或多个迭代优化步骤,其中一个或多个迭代优化步骤可选地涉及:使用合适的聚合、分割或优化方法对分区进行合并和分割。
作为选项,其中XTT包括XTT-解码器架构,其被配置为预测模型解释和与分区相关联的信息,其中使用所生成的模型解释来对XTT-解码器架构进行预训练,以预测下一模型解释,其中XTT-解码器架构可选地进一步在一组解释梯度上预训练,以预测下一解释梯度,从而预测模型解释中的差异或变化,其中XTT-解码器架构可选地在输入和输出数据的嵌入式表示上预训练,以在训练期间考虑相似性和对比度两者的元素,其中嵌入式表示可选地是稀疏嵌入。
作为选项,其中通过将来自外部可解释模型的分区信息添加到可解释变换器的编码器组件的输入嵌入以及可选地添加到可解释变换器的解码器组件的输出嵌入来训练可解释变换器;或者可解释变换器包括与编码器和解码器组件并行的两个附加层,这两个附加层被配置为从可解释变换器的输入空间构造可解释架构;或者可解释变换器包括并行可解释编码器层,其包括多头注意力组件或相加和归一组件,并行可解释编码器层被配置为接收多头注意力组件的输出或相加和归一组件的输出,以及分区或可解释信息作为输入,其中可解释变换器可选地还包括并行可解释解码器层,其被配置为接收并行可解释编码器层的输出作为输入,其中并行可解释编码器层可选地包括可解释架构,其可选地被配置为接收一个或多个模型解释、一个或多个模型解释的一个或多个梯度、或者与一个或多个分区相关联的信息作为输入,其中并行可解释解码器可选地包括可解释架构,以及相加和归一组件,其中并行可解释编码器层可选地被配置为将并行可解释编码器层的输出发送到解码器组件中的多头注意力层,其中并行可解释编码器层可选地被配置为在将输出发送到解码器组件中的多头注意力层之前将该输出与可解释变换器的编码器组件的输出合并。
作为选项,其中可解释变换器的解码器组件被配置为接收XTT的输出作为输入,该输入作为反馈回路的一部分。作为选项,其中可解释变换器的编码器和/或解码器组件被配置为作为可解释自动编码器-解码器(XAED)来操作。作为选项,其中XTT包括训练数据集的一个或多个特征变换,其中一个或多个特征变换可选地包括以下一项或多项:多项式展开、旋转变换、维度缩放、无尺寸缩放、傅立叶变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波、非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型模糊逻辑图网络、2型模糊逻辑图网络、Kolmogorov空间、Frechet空间、Hausdorff空间或Tychonoff空间的分类编码拓扑变换、差分分析、数据的归一化和数据的标准化,其中一个或多个特征变换可选地被布置为变换的流水线,该流水线可选地还包括:被配置为对根据一个或多个变量的值排序的数据序列进行分析的变换,数据序列可选地包括按时间排序的数据序列;和/或经由梯度下降方法和其他可解释的架构获得的变换。作为选项,其中XTT被配置为接收训练数据集样本,以训练使用以下一种或多种技术生成的XTT:基于因果GAN的生成、遗传工程、蒙特卡罗模拟、Petri网、强化学习技术、使用白盒模型和相关联的全局模型的模拟和/或可能可用的任何其他方法。作为选项,其中XTT还被配置为接收人类知识注入、HKI或系统知识注入作为输入,其中XTT内的可解释架构的系数是可修改的,以实施特定规则,从而通向人类用户与机器学习系统之间更有效的协作,其中XTT可选地还被配置为使用HKI或系统知识注入用于零样本学习或少样本学习。作为选项,其中XTT被配置为实现归纳、演绎、溯因和因果逻辑中的一项或多项以增强XTT的适应性,其中XTT可选地还被配置为利用无模型优化方法和基于模型的优化方法的组合。作为选项,其中XTT被配置为使能不可解释的潜在空间从XTT的输出中的完全去除,达到XTT的一个或多个输入特征是可解释的程度。作为选项,其中XTT被配置为将以下一种或多种应用于XTT的输出:傅立叶变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波、非哈尔小波、泛化L”函数、基于分形的变换、Hadamard变换、模糊逻辑图网络、分类编码、差分分析、归一化、标准化、多维贝塞尔曲线、递归关系和因果运算符;或者XTT被配置为将激活函数或变换函数应用于XTT的输出,激活函数或变换函数包括以下一项或多项:S形(sigmoid)函数、SoftMax函数、层次树或网络、因果图、有向图、无向图、超图、单纯复形、多媒体结构或一组超链接图。作为选项,其中XTT被配置为处理结构化和非结构化数据两者,以及处理层次结构化数据,其中层次结构化数据可选地以树、图、超图和/或单纯复形的形式被结构化。作为选项,其中XTT还包括:归一化模块,其被配置为在多个输入被XTT的输入层接收之前或者在多个输入从输入层输出之后对该多个输入进行归一化;缩放模块,其被配置为在输入被输入层接收之前或者在输入从输入层输出之后对该输入进行缩放;以及标准化模块,其被配置为在输入被输入层接收之前或者在输入从输入层输出之后对该输入进行标准化。作为选项,其中输入的归一化涉及创建偏差及其来源的适当报告和分析,以及经由监督、非监督或半监督手段制定用于偏差减少、缓解或消除的策略。作为选项,其中XTT分布在分布式可解释架构(DEA)上,其中DEA由可解释架构的同质或异质混合构成,其中DEA被配置为将数据集分割成多个数据子集,以便训练DEA中的可解释架构中的每一个,并且其中DEA的每个可解释架构可使用应用于DEA内的同质和异质可解释模型混合的分布式训练技术来训练,分布式训练技术可选地包括集体操作技术。作为选项,其中DEA可以包括以下一项或多项:混合模型,其使得DEA中的模型是可解释人工智能(XAI)、可解译神经网络(INN)、可解释神经网络(XNN)、可解释脉冲网络(XSN)以及可解释记忆网络(XMN)和/或可解释强化学习(XRL)的混合;多个独立模型,其中给定的独立模型一旦被训练,就可被配置为独立工作而不依赖于DEA,该DEA被优化用于训练。作为选项,其中XTT可在解释和解译生成系统(EIGS)内使用,并且被配置为提供模型以用于处理输入查询并产生与输入查询相关的适当回答、解释和可选理由,其中XTT可选地被配置为变换EIGS的一个或多个部分,其中变换EIGS的一个或多个部分包括以下一项或多项:变换呈现输出、用户特定输出个性化、上下文特定输出变换、目标特定输出变换、计划特定输出变换和动作特定变换,其中XTT可选地可在EIGS内使用,以便:为过滤器提供合适的模型,以产生解释支架(scaffolding)的适当过滤,或者利用解译框架、协议上下文、解译规则、解译处理、解译场景和冲突解决信息的组合来过滤EIGS的一个或多个部分,或者在EIGS内实现过滤器内和/或过滤器间协议处理,或者为解译器提供合适的模型以产生适当的解译并生成解译支架的元素,或者变换EIGS中解译支架的适当部分,或者基于框架、协议、解译规则、解译处理、解译模板、解译概要、场景模型、域、交互上下文和冲突解决信息的组合来对EIGS的解译输出进行变换,或者在EIGS内实现解译器内和/或解译器间协定处理,或者基于适当的选择模型和选择处理对EIGS解译输出进行变换。作为选项,其中XTT包括可解释的自注意力机制,其被配置为:生成多级解释,该多级解释可选地包括分区信息、XTT的内部系数以及XTT的输入空间的特征属性,其中解释可用作对解译器的输出。作为选项,其中XTT是可使用自我监督技术训练的。作为选项,其中XTT被配置为使用来自所有解码器或编码器组件的过去学习的表示或历史状态来合并成单个向量,该向量可用作对XTT中的任何层的反馈,其中XTT可选地还被配置为使用白盒模型的任何内部系数来合并成单个向量,其中XTT可选地还被配置为对过去学习的表示施加因果约束,以便避免创建因果不可信的推断或者创建可能在统计上有效但因果不可信的预测路径,其中XTT可选地还被配置为利用行为模型和相关联的条件、事件、触发和动作状态表示来对过去学习的表示施加进一步的环境上可信的约束,以实现可解释的并且因果和环境上可信的反馈记忆。
作为选项,其中系统被配置为:分析和解析以合适形式的语言编写的现有形式的计算机程序,并且一旦加载,就使用XTT注意力模型进一步细化它,其中XTT的可解释模型内的层次分区结构可选地可用于直接对形式语言程序的结构进行建模;或者根据预定义的风格标准转换代码,突出不一致性或错误,以建议更好的替代方案并对代码进行重构和重写,对已经混淆的代码进行去混淆,并将函数式编程语言概念(诸如alpha转换、beta减少和eta减少)应用于所生成的代码;或者与自动定理证明系统连同合适的数学形式语言系统一起使用,以或者从零开始或者经由已证明陈述和/或不完整陈述的现有集合自动地分析、生成并自动完成数学表达式、陈述和证明;或者结合蛋白质或其他合适的分子形状分析DNA编码,以解释DNA基因表达、蛋白质折叠以及其他相关生物化学应用中的监督变更,同时提供对XTT应用的输入-输出变换之间的潜在假设的解释;或者用于端到端自动语音识别架构中,可选地将语音音频波形翻译成对应的文本;或者用于端到端深度学习架构中以处理语音,其中机器学习系统可选地还包括被配置为将语音转换成潜在离散表示的XAED编码器;或者用于多目标跟踪;或者匹配卫星、航空或其他类型的鸟瞰图像,以生成数字表面模型或深度图;或者处理单目镜、立体镜以及多视图输入数据中的图像;或者用于视听分类任务,以预测视频中是否存在音频;或者用于合成生成的多维数据的生成和检测,其包括以下一项或多项:从真实图像中检测和分类深度伪造图像,或者检测已经成为混淆机器学习系统的数据的对抗性攻击信息的存在,其中XTT包括可解释模型;或者在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中机器学习系统实现在相机处理系统内;或者在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中机器学习系统实现在医疗硬件内,以用于手术或医学图像的分析;或者在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中机器学习系统实现在工程应用内,以用于设备检查处理和制造检查处理;或者实现在以人类可读和可解译的格式发送数据的医疗植入物内;或者接收来自生物神经元的输入信号并以合适地编码的格式向生物神经元输出信号,其中XTT被实现为桥接两个或更多个生物神经元的医学植入装置的一部分,以提供用于桥接受损的生物神经系统连接或者用于辅助高级假体装置中人工装置的植入和连接的实用解决方案;或者实现XGAIL系统的模拟器和数据样本合成,作为XTT的一部分,以生成多模态混合输出,多模态混合输出根据不同模态的相关序列排序和环境世界上下文进行适当同步;或者使用可用于适当修改所生成的数据样本的各种学习风格来创建新颖的数据样本、图像、数字和模拟混合媒体绘画和3D雕塑,其中机器学习系统可选地还被配置为用安全的可追踪数字代码、分布式分类帐条目或者不可替代的标记来标记所生成的数据;或者使用正式音乐符号和合成、声音样本混合、文本到语音生成以及一般音频样本生成的组合来生成音乐,其中机器学习系统可选地还被配置为实现多模态XTT以分析不同模态下的输入;或者预测视频帧上的注释,其中XTT被实现为端到端深度学习架构中的XTT-编码器;或者跟踪对话的状态并学习看不见的时隙,而不是先前在本体中定义的时隙;或者识别输入序列中的实体;或者识别输入问题的回答的开始位置和结束位置;或者将文本中对实体的提及链接到知识库中的对应实体;或者基于先前的输出预测输出;或者被合并在工作流系统内,并且可选地进一步集成在机器人处理自动化系统、决策支持系统或数据湖系统内;或者使用因果解释,其中因果解释使用反事实语言表示架构;或者实现因果模型特定的功能以处理因果关系,处理关联性、干预以及反事实因果逻辑,经由环境模型输入执行合理性检查,并且经由因果可信的同构来扩充训练数据;或者从自然语言文档自动创建草稿因果模型,其中XTT定义因果XTT系统;或者使用计算和知识表示结构作为约束和预测逻辑实现的基础,其中计算和知识表示结构可选地包括资源描述框架、RDF、树、RDF图、Levi图、超图结构或单纯复形;或者实现审计日志功能,其中实现审计日志功能涉及:创建决策日志和路径跟踪,其解释说明XTT及其相关联的条件、事件、触发和动作以及总体动态的流程、交互和行为,其中路径跟踪可选地在专家系统和基于规则的系统中被实现为已经被触发和执行的规则的注释序列,或者其中路径跟踪可选地在工作流系统中被实现为已经由工作流引擎执行的工作流节点和路径的注释序列,以及其中路径跟踪可用于解释说明XTT的精确序列和行为,并且可选地被配置为沿系统的用户感兴趣的路径显示最近邻居,其中XTT可选地还被配置为利用其自身的审计系统日志并且以防篡改和可追踪的方式存储日志;或者被实现在基于以下一项或多项的系统的组合上并由其验证:动作的时间逻辑、抽象机器符号、Petri网络、计算树逻辑或者可正式地表示模态逻辑、直觉逻辑和/或关系语义的实现方法;或者利用锚定项,其中锚定项定义关键重要性的节点、边缘、事件、触发、约束或动作;或者应用量化方法以提高性能,其中系统可选地还被配置为应用不稳定性减少技术以部分抵消量化对XTT的精确度的任何有害影响并减少训练期间的不稳定性;或者使能数据隐私保护解决方案的实际实现;或者利用基于假设(what-if)、假设-否则(what-if-not)、反事实、但是(but-for)和条件场景生成的结构化解释,以生成与将此类场景应用于XTT系统输入的结果相对应的解释策略和基于场景的解释;或者使用外生和内生变量以及因果模型来估计动作的总成本,其中估计总成本可选地包括应用任何特定关联、干预或反事实规则,并且可选地包括估计具有部分缺失值的数据的总成本,其中系统可选地还被配置为利用最近邻居方法来提供已经具有所期望的场景结果的应用的实际示例或者这样的应用的假设平均值;或者利用以下一项或多项来提高预测和/或训练性能:点积的近似或完全消除、稀疏局部注意力模型、自适应注意力窗口、多维注意力矩阵近似、智能权重共享和智能参数化;或者分析人类行为,包括步态分析、运动预测和情绪状态预测;或者预测和分析体育镜头和运动表现;或者检测和预测医疗状况;或者分析金融股票交易模式和预测市场行为,并随后执行诸如买入、卖出或对特定股票进行多头或空头建仓的自动化动作;或者在工业4.0应用中运行;或者将句子从源语言翻译成目标语言;或者执行解释和/或解译输出的面向表示的变换和增强;或者处理法律文档,并且正确地确定适用于法律文档中涉及的以及被引用的不同当事人和实体的参考文献和文本部分;或者控制通常在诸如对话处理、聊天机器人、呼叫中心管理系统、案例管理系统、客户支持系统、客户关系管理系统、对话系统以及问答系统的应用中使用的交互式解释和/或解译处理的流程;或者用于需要反馈控制类型的机制的强化学习类型的应用中。
作为选项,其中使用下列任一项将系统实现为硬件电路:灵活架构,该灵活架构可选地包括FPGA,或者静态架构,该静态架构可选地包括ASIC,或者分立组件,或者自旋电子元件或记忆电阻,或者可选地使用脉冲神经元的神经架构,或者量子计算硬件,其中量子计算硬件可选地包括被配置为进行以下操作的扩展部分:允许正确解译多个量子位态、量子位基态、混合态、辅助位和由于纠缠和/或退相干引起的其它量子效应,或者允许在XNN内引入量子逻辑专用运算符和/或硬件逻辑门,可选地包括量子逻辑门,或者利用量子效应来执行多个动作、或评估多个条件、或评估大型约束系统,并且其中量子计算硬件可选地被配置为利用量子算法或利用混合解决方案,或者为多个模态和/或任务定义Hilbert空间,其中多模态或多任务Hilbert空间可以用于表示任务和模态之间的所有交互,并且可以用于实现模态和/或任务的子集的训练以及交叉学习的量子版本。作为选项,其中XTT被配置为:将神经符号约束与和XTT相关联的当前和/或先前历史状态的部分或全部和/或与XTT相关联的先前历史激活率链接起来。作为选项,其中命名参考标签被指定给可解释架构内的特定组件,其中命名参考标签可选地包括元数据并且可以可选地由符号表达式和/或公式构成,其中命名参考标签可选地可在安全相关约束中使用,并且其中机器学习系统可选地被配置为利用命名参考标签的不变性来生成对系统内发生的动态的稳定、长期的解释。作为选项,其中机器学习系统至少部分地由识别-评估-推荐框架来定义。作为选项,其中机器学习系统还包括自动人工智能(AutoXAI)系统,其中该系统被配置为:生成基于场景的解释。作为选项,为了处理共享相同参数的多个任务和多个模态,其中XTT被配置为利用可解释模型,接收与和一个或多个输入特征相关联的一个或多个任务相对应的多个输入,并且生成与任务的输出相对应的多个输出,其中可解释模型可选地由层次交叉结构来定义,该层次交叉结构可选地由多个交叉子系统构成,交叉子系统被配置为允许针对不同任务学习的不同知识之间的交叉高效地发生,其中层次交叉结构包括一个或多个单向链接节点和/或一个或多个双向链接节点,以及可选的交叉噪声节点和/或交叉间节点链接,并且其中可解释模型可选地是稀疏可解释模型或DEA。作为选项,还包括卷积神经网络(CNN),其耦接到XTT的输入以定义CNN-XTT架构,其中CNN-XTT被配置为使用反向映射来可视化CNN-XTT中的激活路径以用于查询,并且可选地将反向映射合并为理由的一部分,其中CNN-XTT可选地被配置为将内核标记方法集成到具有本质上不是文本的数据格式的相关联的人类可读标签,其中与内核标记方法相关联的内核类型可选地是近似内核,并且CNN可选地是时间上优化的CNN。作为选项,其中系统被配置为以以下一种或多种格式或布局输出数据:人类可读的自然语言、图形或可视格式、音频、语音、触觉、视频、时间序列、多光谱数据、层次排序的多媒体内容以及3D数据,其中输出数据可选地为以下中的一项或多项的顺序格式或布局:2D数据、3D数据、多维数据阵列、事务数据、时间序列、数字化样本、传感器数据、图像数据、超光谱数据、自然语言文本、视频数据、音频数据、触觉数据、激光雷达(LIDAR)数据、雷达(RADAR)数据以及声纳(SONAR)数据。作为选项,其中可解释转导器变换器被配置为使用相同的参数集来执行多个任务或模态,其中多个输入对应于与一个或多个输入特征相关联的一个或多个任务,并且多个输出对应于每个任务;其中可解释转导器变换器还包括层次分区结构和交叉结构子系统,该交叉结构子系统被配置为交叉针对不同任务学习的知识;其中预测网络被配置为识别层次分区结构内的一个或多个特征交互,并且条件网络被配置为对通过该层次分区结构的路径跟踪进行选择、编排和复用,以将任务与相关联的输入和输出链接起来;并且其中在条件网络和预测网络中的至少一个中实现稀疏可解释模型,其中交叉结构子系统实现单向链接节点、双向链接节点、交叉噪声节点以及交叉间节点链接中的至少一个。作为选项,卷积层被配置为应用一个或多个卷积层,并且被配置为实现:用于生成解释的反向映射或反向索引机制,以及内核标记方法,其被配置为使用内核、模式、符号和概念的渐进细化将人类可读标签与非文本数据相关联;并且其中实现包括线性、非线性多项式、指数、径向基函数或sigmoid内核中的至少一个的一个或多个内核类型,以使用求积分方法、奇异值分解、随机傅立叶变换或随机装箱(random binning)特征中的至少一项来减少所需的计算量和/或资源;并且还包括一个或多个时间卷积网络。作为选项,其中解释包括与一个或多个假设(what-if)、假设否则(what-if-not)、反事实、但是(but-for)或条件场景相关联的基于场景的解释,用于根据可解释代理的动作和决定生成解释的策略和基于场景的解释;和/或其中可解释代理被训练以学习针对给定用户的建议动作,该用户具有导致决策结果的改变并使动作的总成本最小化的特定上下文,其中总成本是基于每种类型成本的度量与每个变量相关联的一个或多个成本的合并;和/或其中基于场景的解释涉及最近邻居方法、识别-评估-推荐-解决(IAR)框架、多目标优化(MOO)、帕累托前沿方法、粒子群优化(PSO)、遗传算法(GA)、贝叶斯优化、进化策略、梯度下降技术和蒙特卡罗模拟(MCS)的使用。作为选项,其中编码器层是并行可解释编码器层,其被配置为接收以下至少一项:多头注意力组件的输出、相加和归一组件的输出,以及输入的可解释信息或分区信息,并且其中解码器层是并行可解释解码器层,其被配置为接收来自并行可解释解码器层的输出,并且包括相加和归一组件和多头注意力组件,并且其中并行可解释编码器层的输出与并行可解释解码器层的输出被合并。作为选项,其中当前解释与先前呈现的解释之间的差异和/或变化被用作可解释转导器-变换器的输入,以预测解释的后续变化;其中在给定当前解释和包括历史解释梯度的上下文窗口的情况下,在一组解释梯度上训练解码器以预测下一梯度;并且其中输入和/或输出的稀疏嵌入表示识别一个或多个相似性和对比度元素。作为选项,其中一个或多个解释、解释的梯度或可解释架构的分区信息被用作对编码器层的输入;其中可解释自动编码器-解码器包括编码器层和解码器层;并且其中输出包括一个或多个训练数据集样本,其被配置为用作可解释转导器-变换器的一个或多个层的训练输入。作为选项,其中可解释转导器-变换器内的一个或多个可解释架构的系数通过使用零样本学习或少样本学习的人类知识注入来修改;其中可解释转导器-变换器的一个或多个层实现归纳逻辑、演绎逻辑、溯因逻辑和因果逻辑中的至少一个;并且其中可解释转导器-变换器被配置为移除一个或多个不可解释的潜在空间。作为选项,其中输出还应用以下一项或多项:傅立叶变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、模糊逻辑、知识图网络、分类编码、差分分析、归一化、标准化、多维贝塞尔曲线、递归关系和因果运算符。作为选项,还包括至少一个激活函数和/或变换函数,其中变换函数被配置为使用以下至少一项来对输出进行变换:层次树、因果图、有向图或无向图、超图或单纯复形、多媒体结构和一组超链接图。作为选项,其中每个分区被配置为拟合线性模型并应用非线性变换,非线性变换包括以下至少一项:多项式展开、旋转、维度缩放和无尺寸缩放、状态空间和相位空间变换、整数/实数/复数/四元数/八元数变换、傅立叶变换、沃尔什函数、连续数据桶化、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、知识图网络、分类编码、Kolmogorov/Frechet/Hausdorff/Tychonoff空间的拓扑变换、差分分析和数据的归一化/标准化。作为选项,其中每个分区包括被配置为根据规则或距离相似性函数对多个数据点进行分组的集群,其中每个分区表示数据的概念或类别。作为选项,其中分区是基于聚类算法形成的,聚类算法包括以下至少一种:k-均值函数、贝叶斯函数、基于连通性、基于质心、基于分布、基于网格、基于密度、基于模糊逻辑、基于熵或基于互信息(MI)的方法,其中聚类算法还包括产生多个重叠或非重叠分区的集成方法、基于关联的算法或基于因果关系的分区函数。作为选项,其中输入包括结构化和非结构化数据,或者包括一个或多个树、图、超图和单纯复形的层次结构化数据,并且其中可解释转导器-变换器还包括知识表示结构,其包括资源描述框架(RDF)树、RDF图或Levi图中的至少一个,以及被配置为识别一个或多个决策日志和路径跟踪的审计日志。作为选项,其中可解释转导器-变换器还实现至少一个因果模型,该因果模型被配置为识别因果关联、干预和反事实因果逻辑,并且还被配置为使用环境模型输入执行可信性检查,并且被配置为使用因果上可信的同构来扩充训练数据;其中至少一个因果模型是使用注意力模型自动生成的,并且被配置为识别对概括目标的前因概括和后果概括之间的因果联系,提取因果结构,并且创建初始因果模型;还包括识别历史激活速率的一个或多个神经符号约束,其中激活速率可以被约束;并且还包括指定给可解释模型内的一个或多个组件或层的命名参考标签,其中每个命名参考标签包括至少一个描述或元数据以及到提供安全相关约束的外部分类法、本体和模型的链接。作为选项,还包括一个或多个输入模块和输出模块,该输入模块和输出模块包括:归一化模块,其被配置为在输入层之前或者输入层之后对输入进行归一化;缩放模块,其被配置为在输入层之前或者输入层之后对输入进行缩放;以及标准化模块,其被配置为在输入层之前或者输入层之后对输入进行标准化。作为选项,其中可解释转导器-变换器实现在包括一个或多个可解释层或模型的分布式可解释架构上,并且其中一个或多个独立模型被配置为独立于一个或多个可解释层或模型而激活。作为选项,其中可解释转导器-变换器被配置为使用自监督技术来训练,并且使用以下一项或多项来验证:动作的时间逻辑、抽象机器符号、Petri网络、计算树逻辑、直觉逻辑和/或关系语义。作为选项,其中可解释转导器-变换器被配置为分析和解析现有的正式计算机程序,其中该计算机程序在一个或多个可解释模型内以层次分区结构被建模,并且正式规范语言被用于指定要使用该计算机程序来解决的问题,其中可解释转导器-变换器被配置为生成针对要解决的问题的候选代码解决方案;或者其中可解释转导器-变换器被配置为根据预定义的风格标准转换代码、突出显示不一致性或错误,并且建议代码的替代和重构或重写,以对已经被混淆的代码进行去混淆,并且将alpha转换、beta减少和eta减少中的一个或多个应用于所生成的代码,或者其中可解释转导器-变换器用自动定理证明系统来实现,以使用已证明陈述和/或不完整陈述的现有集合来自动分析、生成并自动完成数学表达式、陈述和证明,或者其中可解释转导器-变换器还包括端到端自动语音识别架构,以将语音音频波形翻译成对应的文本或潜在的离散表示,或者其中可解释转导器-变换器还包括系统用于多对象跟踪的系统、或者用于匹配卫星、航空或鸟瞰图像以生成数字表面模型或深度图、或者用于处理单目镜、立体镜和多视图输入数据中的图像、或者用于音频可视化分类以预测音频剪辑是否存在于视频中。作为选项,其中至少一层实现在硬件上,该硬件包括以下至少一项:灵活架构或现场可编程门阵列、静态架构或专用集成电路、模拟或数字电子学、光电子学、光处理器、神经形态架构、自旋电子元件或记忆电阻、分立计算组件、脉冲神经元、机器人硬件、自主车辆、工业控制硬件或量子计算硬件,并且其中至少一层在硬件上的实现方式基于量化或面向硬件的压缩技术在硬件上的应用中的至少一种;并且其中至少一层包括稀疏的可解释神经网络架构,并且其中可解释模型实现一个或多个工作流、处理流、快速权重、机器人处理自动化(RPA)、决策支持系统(DSS)、数据湖、根本原因分析(RCA)、目标-计划-行动(GPA)系统、处理描述、状态转换图、Petri网络、电子电路、逻辑门、光学电路、数模混合电路、生物机械接口、生物电接口和量子电路。作为选项,还包括至少一个可解释模型,其被配置为形成包括该解释模型的解释结构模型(ESM)、对多个统计关系进行建模的统计结构模型、对多个因果关系进行建模的因果结构模型(CSM),以及对形成为一个或多个规则和/或符号逻辑的多个符号和逻辑关系进行建模的符号结构模型,其中一个或多个统计、因果、符号或逻辑关系被建模为锚分量,并且还包括实现解释解译生成系统(EIGS)和/或解释过滤器解译,其被配置为输出解释输出模板(EOT),以及可解释自注意力机制,其被配置为生成包括以下至少一项的多个级别的解释:分区信息、一个或多个可解释模型的内部系数,以及输入空间的特征属性,其中解释被用作解译器的输入。作为选项,其中解释还包括基本解译、解释性解译和元解释性解译中的至少一个,以及具有一定激活速率的神经符号条件约束,以便相对于可解释模型约束触发激活的速率,其中神经符号条件约束被实现为以下至少一项:符号规则或符号表达式系统、多项式表达式、条件和非条件概率分布、联合概率分布、状态空间和相位空间变换、整数/实数/复数/四元数/八元数变换、傅立叶变换、沃尔什函数、哈尔小波和非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型和2型模糊逻辑、差分分析和知识图网络。作为选项,还包括解释组件,其被配置为接收模型输出以使用解释支架(scaffolding)产生解释,该解释支架包括:解释模型组件,其包括指示回答的模型输出、模型解释,以及模型融合和链接组件,其中该模型融合和链接组件被配置为存储与一个或多个系统和数据库之间的一个或多个链接相关联的元数据和信息;假设和因果组件,其被配置为通过形成一个或多个结构等式模型、结构因果模型和/或因果有向无环图来对至少一个因果关系建模;以及场景、交互和表示组件。作为选项,其中输出包括回答、模型解释以及该回答和/或模型解释的证明,其中该证明指示由可解释神经网络在得出该回答或模型解释时使用的至少一个假设、处理或决策。作为选项,其中输出包括以下至少一项:人类可读的自然语言格式、图形或视觉格式、音频、语音、触觉、视频、时间序列、多光谱数据、层次排序的多媒体内容以及3D数据,并且其中可解释转导器变换器被配置为处理序列数据,该序列数据包括顺序格式和指示输出值、或分类、或数据点、或连续或非连续数据点间隔的一个或多个相关联标签,其中输入序列以多模型和多任务方式被映射到输出序列。作为选项,作为选项,其中至少一个可解释神经网络被配置为实现广泛的学习模型。作为选项,其中条件层被配置为基于外部分区创建处理来接收一个或多个分区。作为选项,其中一个或多个分区被预训练或从链接的分类法或本体初始化。作为选项,作为选项,其中应用梯度下降方法来进一步细化分区,并且其中一个或多个分区被:用静态值锁定;使用反向训练技术、多目标优化、遗传算法、蒙特卡罗模拟方法或因果逻辑和模拟技术进行动态调整;或者层次化。作为选项,还包括排序函数,其被配置为选择、合并或分割一个或多个重叠或非重叠分区,并且其中一个或多个分区被配置为表示具有至少两个不同级别的语义和符号细节的符号和概念。
上述任何示例的方面可以与所描述的任何其他示例的方面和/或选项相结合,以形成进一步的示例,而不会失去所寻求的效果。
前述描述和附图说明了本发明的原理、优选实施例和操作模式。然而,本发明不应被翻译为限于以上讨论的特定实施例。本领域技术人员将理解以上讨论的实施例的附加变化(例如,根据需要,与本发明的某些配置相关联的特征可以替代地与本发明的任何其他配置相关联)。
因此,上述实施例应当被认为是说明性的而不是限制性的。因此,应当理解,在不脱离由以下权利要求限定的本发明的范围的情况下,本领域技术人员可以对这些实施例做出变型。

Claims (42)

1.一种可解释的机器学习系统,包括:
有限状态转导器FST,其被配置为允许所述机器学习系统将数据从输入语言翻译、映射并变换成第二输出语言
其中所述有限状态转导器适用于从所述输入语言接收所述数据,所述数据包括用于变换的一个或多个输入特征或者变换所述一个或多个输入特征,并且所述有限状态转导器还被配置为基于所述一个或多个输入特征提供经翻译、经映射和/或经变换的数据作为所述第二输出语言;和/或
可解释变换器,其具有基于解码器和编码器组件的组合的基于注意力的架构,所述解码器和编码器组件是相对于来自所述输入语言的所述数据而形成的,
其中所述有限状态转导器和所述可解释变换器被配置为组合起来以产生可解释转导器变换器XTT,其被配置为将所述数据从所述输入语言进行翻译、映射和变换。
2.根据权利要求1所述的机器学习系统,其中所述可解释变换器包括:
输入层,其被配置为从所述输入语言接收与所述数据相关联的输入并且识别所述一个或多个输入特征;
条件网络,包括:条件层,其被配置为基于一个或多个分区对所述一个或多个输入特征进行建模,其中所述一个或多个分区中的每个分区包括规则;聚合层,其被配置为将一个或多个规则聚合到一个或多个聚合分区中;以及交换输出层,其被配置为选择性地将来自所述聚合层的所述聚合分区与来自所述条件层的所述一个或多个分区池化;
预测网络,包括:特征生成和变换网络,其包括被配置为将一个或多个变换应用于所述一个或多个输入特征的一个或多个变换神经元;拟合层,其被配置为将已经由所述特征生成和变换网络变换的特征组合起来,以识别与以下至少一项相关的一个或多个系数:一个或多个特征和一个或多个分区;值输出层,其被配置为分析所述一个或多个系数,并且被配置为输出与所述一个或多个特征或者所述一个或多个分区中的至少一者相关的值;并且
其中所述解码器和编码器组件包括用于对所述输入进行编码的至少一个层以及用于对所述输入进行解码的至少一个层,所述解码器和编码器组件包括从所述输入形成的可解释架构;
输出层,其被配置为生成可由机器程序或人中的至少一者解译和解释的输出;其中贯穿所述分区的一个或多个执行路径可由外部处理识别。
3.根据权利要求1或权利要求2所述的机器学习系统,其中所述XTT被配置为作为可解释变换器-编码器或可解释变换器-解码器来操作,并且其中所述系统可选地还包括对所述XTT的内部系数的条件约束,并且其中所述条件约束可选地被配置为在所述XTT的标称操作周期期间被监测。
4.根据前述任一权利要求所述的机器学习系统,其中所述可解释转导器包括所述解码器组件和/或所述编码器组件的子层中的白盒模型组件。
5.根据前述权利要求中任一项所述的机器学习系统,其中在所述XTT中使用包括可解释神经网络XNN的可解释架构,其中所述XNN可选地包括:
输入层,其被配置为输入到以下之中:
条件网络,其包括条件层、聚合层以及交换输出层;以及
预测网络,其包括特征生成和变换层、拟合层以及预测输出层;以及
选择和排序层,其被配置为将所述交换输出层的输出与所述预测输出层的输出相乘以产生经过排序或评分的输出,
其中所述XNN可选地包括快速权重。
6.根据前述权利要求中任一项所述的机器学习系统,其中在所述XTT中使用包括可解释神经网络INN的可解释架构;和/或
其中可解释架构包括可解释强化学习XRL系统;和/或
其中所述XTT被配置为支持广泛的学习模型。
7.根据权利要求2至权利要求6所述的机器学习系统,其中所述可解释架构被配置为:
产生由回答构成的可解释或可解译的输出;
产生该回答的可选的模型解释,
可选地产生所述回答和/或所述模型解释的理由。
8.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT包括被配置为处理所述一个或多个输入特征的分区,所述分区是可选地根据规则和/或距离相似性函数对数据点进行分组的集群,并且所述分区是其值被设置为静态值的锁定分区,或者是对于所述XTT的每个向后训练遍次可动态移动的可移动分区,其中所述分区最初由最初创建所述XTT的外部处理创建为所述XTT的一部分,或者
其中从提供分区信息的链接的分类法或本体来预训练或适当地初始化所述分区,其中在预训练所述分区之后可选地预微调所述XTT,并且其中一旦创建所述分区,所述XTT被配置为使用梯度下降方法来拟合或进一步细化所述分区,并且其中所述分区结构可选地以图或超图排列,并且所述系统可选地被配置为处理图-序列、序列-图和图-图变换模式。
9.根据权利要求8所述的机器学习系统,其中所述XTT被配置为实现排序函数以确定所述XTT如何选择、合并或分割分区,其中所述分区可选地根据层次性质来布置,所述层次性质可用于在语义和符号细节的不同级别上表示符号。
10.根据权利要求8或权利要求9所述的机器学习系统,其中所述分区可使用以下一种或多种技术来改变:多目标优化技术、遗传算法、蒙特卡罗模拟方法和/或随意逻辑和模拟技术。
11.根据权利要求8至权利要求10中任一项所述的机器学习系统,其中所述分区包括:两个或更多个重叠分区,以及优先级函数,其被配置为确定激活所述重叠分区中的哪个;两个或更多个不重叠的分区;和/或
聚合函数,其被配置为对来自多个激活分区的结果进行组合或分割,并且其中所述分区可选地使用稀疏XNN或INN来实现。
12.根据权利要求8至权利要求11中任一项所述的机器学习系统,其中每个分区包括以下一项或多项:拟合线性模型的数据;以及在将线性模型拟合到所述数据之前对其应用了以下至少一项的数据:多项式展开、旋转、维度缩放、无尺寸缩放、状态空间变换、相位空间变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、傅立叶变换、沃尔什函数、连续数据桶化、哈尔小波、非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型或2型模糊逻辑知识图网络、分类编码、Kolmogorov空间、Frechet空间、Hausdorff空间或Tychonoff空间的拓扑变换、差分分析、归一化、标准化和条件特征。
13.根据权利要求8至权利要求12中任一项所述的机器学习系统,其中所述分区根据分区函数层次排列,所述分区函数包括聚类算法,其包括来自以下中的一种或多种:k-均值函数、贝叶斯函数、基于连通性的分区函数、基于质心的分区函数、基于分布的分区函数、基于网格的分区函数、基于密度的分区函数、基于模糊逻辑的分区函数、基于熵的函数或基于互信息的方法;并且其中所述分区函数可选地包括生成多个重叠和/或非重叠分区的集成方法。
14.根据权利要求8至权利要求13中任一项所述的机器学习系统,其中所述XTT被配置为在所述分区中的一个或多个分区上执行一个或多个迭代优化步骤,其中所述一个或多个迭代优化步骤可选地涉及:使用合适的聚合、分割或优化方法对所述分区进行合并和分割。
15.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT包括XTT-解码器架构,其被配置为预测所述模型解释和与所述分区相关联的信息,其中使用所生成的模型解释来对所述XTT-解码器架构进行预训练,以预测下一模型解释,其中所述XTT-解码器架构可选地进一步在一组解释梯度上预训练,以预测下一解释梯度,从而预测所述模型解释中的差异或变化,其中所述XTT-解码器架构可选地在输入和输出数据的嵌入式表示上预训练,以在训练期间考虑相似性和对比度两者的元素,其中所述嵌入式表示可选地是稀疏嵌入。
16.根据前述权利要求中任一项所述的机器学习系统,其中通过将来自外部可解释模型的分区信息添加到所述可解释变换器的所述编码器组件的输入嵌入以及可选地添加到所述可解释变换器的所述解码器组件的输出嵌入来训练所述可解释变换器;或者
所述可解释变换器包括与所述编码器和解码器组件并行的两个附加层,所述两个附加层被配置为从所述可解释变换器的输入空间构造可解释架构;或者
所述可解释变换器包括并行可解释编码器层,其包括多头注意力组件或相加和归一组件,所述并行可解释编码器层被配置为接收所述多头注意力组件的输出或所述相加和归一组件的输出,以及分区或可解释信息作为输入,其中所述可解释变换器可选地还包括并行可解释解码器层,其被配置为接收所述并行可解释编码器层的输出作为输入,其中所述并行可解释编码器层可选地包括可解释架构,其可选地被配置为接收一个或多个模型解释、所述一个或多个模型解释的一个或多个梯度、或者与一个或多个分区相关联的信息作为输入,其中所述并行可解释解码器可选地包括可解释架构以及相加和归一组件,其中所述并行可解释编码器层可选地被配置为将所述并行可解释编码器层的输出发送到所述解码器组件中的多头注意力层,其中所述并行可解释编码器层可选地被配置为在将所述输出发送到所述解码器组件中的所述多头注意力层之前将所述输出与所述可解释变换器的所述编码器组件的输出合并。
17.根据前述权利要求中任一项所述的机器学习系统,其中所述可解释变换器的所述解码器组件被配置为接收所述XTT的输出作为输入,所述输入作为反馈回路的一部分。
18.根据前述权利要求中任一项所述的机器学习系统,其中所述可解释变换器的所述编码器和/或解码器组件被配置为作为可解释自动编码器-解码器XAED来操作。
19.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT包括训练数据集的一个或多个特征变换,其中所述一个或多个特征变换可选地包括以下一项或多项:多项式展开、旋转变换、维度缩放、无尺寸缩放、傅立叶变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波、非哈尔小波、泛化L2函数、基于分形的变换、Hadamard变换、1型模糊逻辑图网络、2型模糊逻辑图网络、Kolmogorov空间、Frechet空间、Hausdorff空间或Tychonoff空间的分类编码拓扑变换、差分分析、数据的归一化和数据的标准化,其中所述一个或多个特征变换可选地被布置为变换的流水线,所述流水线可选地还包括:被配置为对根据一个或多个变量的值排序的数据序列进行分析的变换,所述数据序列可选地包括按时间排序的数据序列;和/或
经由梯度下降方法和其他可解释的架构获得的变换。
20.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为接收训练数据集样本,以训练使用以下一种或多种技术生成的所述XTT:基于因果GAN的生成、遗传工程、蒙特卡罗模拟、Petri网、强化学习技术、使用白盒模型和相关联的全局模型的模拟和/或可能可用的任何其他方法。
21.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT还被配置为接收人类知识注入HKI或系统知识注入作为输入,其中所述XTT内的可解释架构的系数是可修改的,以实施特定规则,从而通向人类用户与所述机器学习系统之间更有效的协作,其中所述XTT可选地还被配置为使用所述HKI或系统知识注入用于零样本学习或少样本学习。
22.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为实现归纳、演绎、溯因和因果逻辑中的一项或多项以增强所述XTT的适应性,其中所述XTT可选地还被配置为利用无模型优化方法和基于模型的优化方法的组合。
23.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为使能不可解释的潜在空间从所述XTT的输出中的完全去除,达到所述XTT的所述一个或多个输入特征是可解释的程度。
24.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为将以下一种或多种应用于所述XTT的输出:傅立叶变换、整数变换、实数变换、复数变换、四元数变换、八元数变换、沃尔什函数、状态空间变换、相位空间变换、哈尔小波、非哈尔小波、泛化L”函数、基于分形的变换、Hadamard变换、模糊逻辑图网络、分类编码、差分分析、归一化、标准化、多维贝塞尔曲线、递归关系和因果运算符;或者
所述XTT被配置为将激活函数或变换函数应用于所述XTT的输出,所述激活函数或变换函数包括以下一项或多项:sigmoid函数、SoftMax函数、层次树或网络、因果图、有向图、无向图、超图、单纯复形、多媒体结构或一组超链接图。
25.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为处理结构化和非结构化数据两者,以及处理层次结构化数据,其中所述层次结构化数据可选地以树、图、超图和/或单纯复形的形式被结构化。
26.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT还包括:
归一化模块,其被配置为在多个输入被所述XTT的输入层接收之前或者在所述多个输入从所述输入层输出之后对所述多个输入进行归一化;
缩放模块,其被配置为在所述输入被所述输入层接收之前或者在所述输入从所述输入层输出之后对所述输入进行缩放;以及
标准化模块,其被配置为在所述输入被所述输入层接收之前或者在所述输入从所述输入层输出之后对所述输入进行标准化。
27.根据权利要求26所述的机器学习系统,其中所述输入的所述归一化涉及创建偏差及其来源的适当报告和分析,以及经由监督、非监督或半监督手段制定用于偏差减少、缓解或消除的策略。
28.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT分布在分布式可解释架构DEA上,其中所述DEA由可解释架构的同质或异质混合构成,其中所述DEA被配置为将数据集分割成多个数据子集,以便训练所述DEA中的所述可解释架构中的每一个,并且其中可使用应用于所述DEA内的同质和异质可解释模型混合的分布式训练技术来训练所述DEA的每个可解释架构,所述分布式训练技术可选地包括集体操作技术。
29.根据权利要求30所述的机器学习系统,其中所述DEA可以包括以下一项或多项:混合模型,其使得所述DEA中的所述模型是可解释人工智能(XAI)、可解译神经网络(INN)、可解释神经网络(XNN)、可解释脉冲网络(XSN)和可解释记忆网络(XMN)和/或可解释强化学习(XRL)的混合;
多个独立模型,其中给定的独立模型一旦被训练,就可被配置为独立工作而不依赖于所述DEA,所述DEA被优化用于训练。
30.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT可在解释和解译生成系统EIGS内使用,并且被配置为提供模型以用于处理输入查询并产生与所述输入查询相关的适当回答、解释和可选理由,
其中所述XTT可选地被配置为变换所述EIGS的一个或多个部分,其中变换所述EIGS的一个或多个部分包括以下一项或多项:变换呈现输出、用户特定输出个性化、上下文特定输出变换、目标特定输出变换、计划特定输出变换和动作特定变换,
其中所述XTT可选地可在EIGS内使用,以便:
为过滤器提供合适的模型,以产生解释支架的适当过滤,或者
利用解译框架、协议上下文、解译规则、解译处理、解译场景和冲突解决信息的组合来过滤所述EIGS的一个或多个部分,或者
在所述EIGS内实现过滤器内和/或过滤器间协议处理,或者
为解译器提供合适的模型以产生适当的解译并生成解译支架的元素,或者
变换EIGS中解译支架的适当部分,或者
基于框架、协议、解译规则、解译处理、解译模板、解译概要、场景模型、域、交互上下文和冲突解决信息的组合来对EIGS的解译输出进行变换,或者
在EIGS内实现解译器内和/或解译器间协定过程,或者
基于适当的选择模型和选择处理对EIGS解译输出进行变换。
31.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT包括可解释的自注意力机制,其被配置为:生成多级解释,所述多级解释可选地包括分区信息、所述XTT的内部系数以及所述XTT的输入空间的特征属性,其中所述解释可用作对解译器的输出。
32.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT是可使用自监督技术训练的。
33.根据权利要求2至权利要求32中任一项所述的机器学习系统,其中所述XTT被配置为使用来自所有解码器或编码器组件的过去学习的表示或历史状态来合并成单个向量,所述向量可用作对所述XTT中的任何层的反馈,其中所述XTT可选地还被配置为使用所述白盒模型的任何内部系数来合并成所述单个向量,其中所述XTT可选地还被配置为对所述过去学习的表示施加因果约束,以便避免创建因果不可信的推断或者创建可能在统计上有效但因果不可信的预测路径,其中所述XTT可选地还被配置为利用行为模型和相关联的条件、事件、触发和动作状态表示来对所述过去学习的表示施加进一步的环境上可信的约束,以实现可解释的并且因果和环境上可信的反馈记忆。
34.根据前述权利要求中任一项所述的机器学习系统,其中所述系统被配置为:
分析和解析以合适形式的语言编写的现有形式的计算机程序,并且一旦加载,就使用所述XTT注意力模型进一步细化它,其中所述XTT的可解释模型内的层次分区结构可选地可用于直接对所述形式语言程序的所述结构进行建模;或者
根据预定义的风格标准转换代码,突出不一致性或错误,以建议更好的替代方案并对代码进行重构和重写,对已经混淆的代码进行去混淆,并将函数式编程语言概念、诸如alpha转换、beta减少和eta减少应用于所生成的代码;或者
与自动定理证明系统连同合适的数学形式语言系统一起使用,以或者从零开始或者经由过已证明陈述和/或不完整陈述的现有集合自动地分析、生成并自动完成数学表达式、陈述和证明;或者
结合蛋白质或其他合适的分子形状分析DNA编码,以解释DNA基因表达、蛋白质折叠以及其他相关生物化学应用中的监督变更,同时提供对所述XTT应用的输入-输出变换之间的所述潜在假设的解释;或者
用于端到端自动语音识别架构中,可选地将语音音频波形翻译成对应的文本;或者
用于端到端深度学习架构中以处理语音,其中所述机器学习系统可选地还包括被配置为将所述语音转换成潜在离散表示的XAED编码器;或者
用于多目标跟踪;或者
匹配卫星、航空或其他类型的鸟瞰图像,以生成数字表面模型或深度图;或者
处理单目镜、立体镜以及多视图输入数据中的图像;或者
用于视听分类任务,以预测视频中是否存在音频;或者
用于合成生成的多维数据的生成和检测,其包括以下一项或多项:
从真实图像中检测和分类深度伪造图像,或者
检测已经成为混淆机器学习系统的数据的对抗性攻击信息的存在,
其中所述XTT包括可解释模型;或者
在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中在相机处理系统内实现所述机器学习系统;或者
在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中在医疗硬件内实现所述机器学习系统,以用于手术或医学图像的分析;或者
在实际图像和计算机生成的图像的组合内自动生成、插入和混合人和物体的精确定位的已经帧化、缩放、调亮和渲染的合成图像,其中在工程应用内实现所述机器学习系统,以用于设备检查处理和制造检查处理;或者
被实现在以人类可读和可解译的格式发送数据的医疗植入物内;或者
接收来自生物神经元的输入信号并以合适地编码的格式向生物神经元输出信号,其中所述XTT被实现为桥接两个或更多个生物神经元的医学植入装置的一部分,以提供用于桥接受损的生物神经系统连接或者用于辅助高级假体装置中人工装置的植入和连接的实用解决方案;或者
实现XGAIL系统的模拟器和数据样本合成,作为所述XTT的一部分,以生成多模态混合输出,所述多模态混合输出根据不同模态的相关序列排序和环境世界上下文进行适当同步;或者
使用可用于适当修改所生成的数据样本的各种学习风格来创建新颖的数据样本、图像、数字和模拟混合媒体绘画和3D雕塑,其中所述机器学习系统可选地还被配置为用安全的可追踪数字代码、分布式分类帐条目或者不可替代的标记来标记所生成的数据;或者
使用正式音乐符号和合成、声音样本混合、文本到语音生成以及一般音频样本生成的组合来生成音乐,其中所述机器学习系统可选地还被配置为实现多模态XTT以分析不同模态下的输入;或者
预测视频帧上的注释,其中所述XTT被实现为端到端深度学习架构中的XTT-编码器;或者
跟踪对话的状态并学习看不见的时隙,而不是先前在本体中定义的时隙;或者
识别输入序列中的实体;或者
识别输入问题的回答的开始位置和结束位置;或者
将文本中对实体的提及链接到知识库中的对应实体;或者
基于先前的输出预测输出;或者
被合并在工作流系统内,并且可选地进一步集成在机器人过程自动化系统、决策支持系统或数据湖系统内;或者
使用因果解释,其中所述因果解释使用反事实语言表示架构;或者
实现因果模型特定的功能以处理因果关系,处理关联性、干预以及反事实因果逻辑,经由环境模型输入执行合理性检查,并且经由因果可信的同构扩充训练数据;或者
从自然语言文档自动创建草稿因果模型,其中所述XTT定义因果XTT系统;或者
使用计算和知识表示结构作为约束和预测逻辑实现的基础,其中所述计算和知识表示结构可选地包括资源描述框架、RDF、树、RDF图、Levi图、超图结构或单纯复形;或者
实现审计日志功能,其中实现审计日志功能涉及:创建决策日志和路径跟踪,其解释说明所述XTT及其相关联的条件、事件、触发和动作以及总体动态的流程、交互和行为,
其中所述路径跟踪可选地在专家系统和基于规则的系统中被实现为已经被触发和执行的规则的注释序列,或者
其中所述路径跟踪可选地在工作流系统中被实现为已经由所述工作流引擎执行的工作流节点和路径的注释序列,以及
其中所述路径跟踪可用于解释说明所述XTT的所述精确序列和行为,并且可选地被配置为沿所述系统的用户感兴趣的路径显示最近邻居,其中所述XTT可选地还被配置为利用其自身的审计系统日志并且以防篡改和可追踪的方式存储所述日志;或者
被实现在基于以下一项或多项的系统的组合上并由其验证:动作的时间逻辑、抽象机器符号、Petri网络、计算树逻辑或者可正式地表示模态逻辑、直觉逻辑和/或关系语义的实现方法;或者
利用锚定项,其中锚定项定义关键重要性的节点、边缘、事件、触发、约束或动作;或者
应用量化方法以提高性能,其中所述系统可选地还被配置为应用不稳定性减少技术以部分抵消量化对所述XTT的所述精确度的任何有害影响并减少训练期间的不稳定性;或者
使能数据隐私保护解决方案的实际实现;或者
利用基于假设、假设-否则、反事实、但是和条件场景生成的结构化解释,以生成与将此类场景应用于XTT系统输入的结果相对应的解释策略和基于场景的解释;或者
使用外生和内生变量以及因果模型来估计动作的总成本,其中估计所述总成本可选地包括应用任何特定关联、干预或反事实规则,并且可选地包括估计具有部分缺失值的数据的总成本,
其中所述系统可选地还被配置为利用最近邻居方法来提供已经具有所期望的场景结果的应用的实际示例或者这样的应用的假设平均值;或
利用以下一项或多项来提高预测和/或训练性能:点积的近似或完全消除、稀疏局部注意力模型、自适应注意力窗口、多维注意力矩阵近似、智能权重共享和智能参数化;或者
分析人类行为,包括步态分析、运动预测和情绪状态预测;或者
预测和分析体育镜头和运动表现;或者
检测和预测医疗状况;或者
分析金融股票交易模式和预测市场行为,并随后执行诸如买入、卖出或对特定股票进行多头或空头建仓的自动化动作;或者
在工业4.0应用中运行;或者
将句子从源语言翻译成目标语言;或者
执行解释和/或解译输出的面向表示的变换和增强;或者
处理法律文档,并且正确地确定适用于所述法律文档中涉及的以及被引用的不同当事人和实体的参考文献和文本部分;或者
控制通常在诸如对话处理、聊天机器人、呼叫中心管理系统、案例管理系统、客户支持系统、客户关系管理系统、对话系统以及问答系统的应用中使用的交互式解释和/或解译处理的流程;或者
用于需要反馈控制类型的机制的强化学习类型的应用中。
35.根据前述权利要求中任一项所述的机器学习系统,其中使用下列任一项将所述系统实现为硬件电路:
灵活架构,所述灵活架构可选地包括FPGA、或者
静态架构,所述静态架构可选地包括ASIC,或者
分立组件,或者
自旋电子元件或记忆电阻,或者
可选地使用脉冲神经元的神经架构,
或者量子计算硬件,其中所述量子计算硬件可选地包括被配置为进行以下操作的扩展部分:
允许正确解译多个量子位态、量子位基态、混合态、辅助位和由于纠缠和/或退相干引起的其它量子效应,或者
允许在XNN内引入量子逻辑专用运算符和/或硬件逻辑门,可选地包括量子逻辑门,或者
利用量子效应来执行多个动作、或评估多个条件、或评估大型约束系统,以及
其中所述量子计算硬件可选地被配置为利用量子算法或利用混合解决方案,或者
为多个模态和/或任务定义Hilbert空间,其中所述多模态或多任务Hilbert空间可以用于表示任务和模态之间的所有交互,并且可以用于实现模态和/或任务的子集的训练以及交叉学习的量子版本。
36.根据前述权利要求中任一项所述的机器学习系统,其中所述XTT被配置为:将神经符号约束与和所述XTT相关联的当前和/或先前历史状态的部分或全部和/或与所述XTT相关联的先前历史激活率链接起来。
37.根据权利要求4至权利要求36所述的机器学习系统,其中命名参考标签被指定给所述可解释架构内的特定组件,其中所述命名参考标签可选地包括元数据并且可以可选地由符号表达式和/或公式构成,
其中所述命名参考标签可选地可在安全相关约束中使用,并且
其中所述机器学习系统可选地被配置为利用所述命名参考标签的不变性来生成对所述系统内发生的动态的稳定、长期的解释。
38.根据前述权利要求中任一项所述的机器学习系统,其中所述机器学习系统至少部分地由识别-评估-推荐框架来定义。
39.根据前述权利要求中任一项所述的机器学习系统,其中所述机器学习系统还包括自动人工智能AutoXAI系统,其中所述系统被配置为:生成基于场景的解释。
40.根据前述权利要求中任一项所述的机器学习系统,为了处理共享相同参数的多个任务和多个模态,
其中所述XTT被配置为利用可解释模型,接收与和所述一个或多个输入特征相关联的一个或多个任务相对应的多个输入,并且生成与所述任务的输出相对应的多个输出,
其中所述可解释模型可选地由层次交叉结构来定义,所述层次交叉结构可选地由多个交叉子系统构成,所述交叉子系统被配置为允许针对所述不同任务学习的不同知识之间的交叉高效地发生,
其中所述层次交叉结构包括一个或多个单向链接节点和/或一个或多个双向链接节点,以及可选的交叉噪声节点和/或交叉间节点链接,并且
其中所述可解释模型可选地是稀疏可解释模型或DEA。
41.根据权利要求41所述的机器学习系统,还包括卷积神经网络CNN,其耦接到所述XTT的输入以定义CNN-XTT架构,其中所述CNN-XTT被配置为使用反向映射来可视化所述CNN-XTT中的激活路径以用于查询,并且可选地将所述反向映射合并为理由的一部分,其中所述CNN-XTT可选地被配置为将内核标记方法集成到具有本质上不是文本的数据格式的相关联的人类可读标签,其中与所述内核标记方法相关联的内核类型可选地是近似内核,并且所述CNN可选地是时间上优化的CNN。
42.根据前述权利要求中任一项所述的机器学习系统,其中所述系统被配置为以以下一种或多种格式或布局输出数据:人类可读的自然语言、图形或可视格式、音频、语音、触觉、视频、时间序列、多光谱数据、层次排序的多媒体内容以及3D数据,
其中所述输出数据可选地为以下中的一项或多项的顺序格式或布局:2D数据、3D数据、多维数据阵列、事务数据、时间序列、数字化样本、传感器数据、图像数据、超光谱数据、自然语言文本、视频数据、音频数据、触觉数据、激光雷达LIDAR数据、雷达RADAR数据以及声纳SONAR数据。
CN202180093586.9A 2020-12-17 2021-12-17 可解释转导器变换器 Pending CN116888602A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063126694P 2020-12-17 2020-12-17
US63/126,694 2020-12-17
PCT/EP2021/086646 WO2022129610A1 (en) 2020-12-17 2021-12-17 Explainable transducer transformers

Publications (1)

Publication Number Publication Date
CN116888602A true CN116888602A (zh) 2023-10-13

Family

ID=79425360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180093586.9A Pending CN116888602A (zh) 2020-12-17 2021-12-17 可解释转导器变换器

Country Status (8)

Country Link
US (2) US11593631B2 (zh)
EP (1) EP4264498A1 (zh)
JP (1) JP2024500182A (zh)
KR (1) KR20230128492A (zh)
CN (1) CN116888602A (zh)
AU (1) AU2021399965A1 (zh)
CA (1) CA3202297A1 (zh)
WO (1) WO2022129610A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421661A (zh) * 2023-12-19 2024-01-19 南开大学 一种基于反事实增强的图卷积网络的群组推荐方法
CN117953351A (zh) * 2024-03-27 2024-04-30 之江实验室 一种基于模型强化学习的决策方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902849B (zh) * 2018-06-20 2021-11-30 华为技术有限公司 用户行为预测方法及装置、行为预测模型训练方法及装置
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
US11878684B2 (en) * 2020-03-18 2024-01-23 Toyota Research Institute, Inc. System and method for trajectory prediction using a predicted endpoint conditioned network
WO2022150649A1 (en) * 2021-01-07 2022-07-14 Google Llc Neural networks with switch layers
CA3204447A1 (en) * 2021-01-13 2022-07-21 Yudong CAO Quantum enhanced word embedding for natural language processing
US11829726B2 (en) * 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph
US20220247548A1 (en) * 2021-02-01 2022-08-04 Sap Se Efficient distributed privacy-preserving computations
US11842159B1 (en) * 2021-03-16 2023-12-12 Amazon Technologies, Inc. Interpreting a text classifier
US11531555B2 (en) * 2021-03-26 2022-12-20 International Business Machines Corporation Selective pruning of a system configuration model for system reconfigurations
US11921824B1 (en) * 2021-03-29 2024-03-05 Amazon Technologies, Inc. Sensor data fusion using cross-modal transformer
US20220318640A1 (en) * 2021-03-31 2022-10-06 Fujitsu Limited Automated empathetic reconciliation of decisions of artificial intelligence (ai) models
US11908202B2 (en) * 2021-12-23 2024-02-20 Gm Cruise Holdings Llc Method and system of using a global transformer for efficient modeling of global context in point clouds
CN115311720B (zh) * 2022-08-11 2023-06-06 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN115147315B (zh) * 2022-09-05 2022-12-09 杭州涿溪脑与智能研究所 一种基于变压器模块的神经网络荧光显微图像去噪方法
US20240087683A1 (en) * 2022-09-14 2024-03-14 Microsoft Technology Licensing, Llc Classification using a machine learning model trained with triplet loss
GB202213823D0 (en) * 2022-09-22 2022-11-09 Veltz Francois Text generation
CN115510854B (zh) * 2022-09-27 2023-06-09 北京白星花科技有限公司 基于强化学习的实体关系提取方法和系统
CN115578735B (zh) * 2022-09-29 2023-09-15 北京百度网讯科技有限公司 文本检测方法和文本检测模型的训练方法、装置
US20240169189A1 (en) * 2022-11-18 2024-05-23 NEC Laboratories Europe GmbH Iterative self-explaining artificial intelligence system for trustworthy decision making
US11972333B1 (en) * 2023-06-28 2024-04-30 Intuit Inc. Supervisory systems for generative artificial intelligence models
CN117349786A (zh) * 2023-09-11 2024-01-05 国网湖北省电力有限公司宜昌供电公司 基于数据均衡的证据融合变压器故障诊断方法
CN116992888A (zh) * 2023-09-25 2023-11-03 天津华来科技股份有限公司 基于自然语义的数据分析方法及系统
CN117691594B (zh) * 2023-12-20 2024-06-21 四川盛鑫源电器设备制造有限公司 一种用于变压器的节能降耗判断方法及系统
CN117979518B (zh) * 2024-03-28 2024-06-07 深圳市易联科电子有限公司 车辆氛围灯的控制方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5499319A (en) * 1991-09-30 1996-03-12 Al Janabi; Talib H. Fuzzy logic controller
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US10832138B2 (en) * 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
US10586173B2 (en) * 2016-01-27 2020-03-10 Bonsai AI, Inc. Searchable database of trained artificial intelligence objects that can be reused, reconfigured, and recomposed, into one or more subsequent artificial intelligence models
US11151450B2 (en) * 2018-05-21 2021-10-19 Fair Isaac Corporation System and method for generating explainable latent features of machine learning models
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
US20190370647A1 (en) * 2019-01-24 2019-12-05 Intel Corporation Artificial intelligence analysis and explanation utilizing hardware measures of attention
CA3129731A1 (en) * 2019-03-13 2020-09-17 Elliot Meyerson System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains
US11132403B2 (en) * 2019-09-06 2021-09-28 Digital Asset Capital, Inc. Graph-manipulation based domain-specific execution environment
US11676365B2 (en) * 2019-12-16 2023-06-13 Accenture Global Solutions Limited Explainable artificial intelligence (AI) based image analytic, automatic damage detection and estimation system
US20210350221A1 (en) * 2020-05-05 2021-11-11 Silicon Laboratories Inc. Neural Network Inference and Training Using A Universal Coordinate Rotation Digital Computer
US11763180B2 (en) * 2020-07-28 2023-09-19 Intuit Inc. Unsupervised competition-based encoding
US11934957B2 (en) * 2020-08-27 2024-03-19 GM Global Technology Operations LLC Methods, systems, and apparatuses for user-understandable explainable learning models
US20220067510A1 (en) * 2020-09-03 2022-03-03 Paypal, Inc. System and method for tag-directed deep-learning-based features for predicting events and making determinations
US20220147838A1 (en) * 2020-11-09 2022-05-12 Adobe Inc. Self-supervised visual-relationship probing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421661A (zh) * 2023-12-19 2024-01-19 南开大学 一种基于反事实增强的图卷积网络的群组推荐方法
CN117421661B (zh) * 2023-12-19 2024-02-13 南开大学 一种基于反事实增强的图卷积网络的群组推荐方法
CN117953351A (zh) * 2024-03-27 2024-04-30 之江实验室 一种基于模型强化学习的决策方法

Also Published As

Publication number Publication date
US11797835B2 (en) 2023-10-24
AU2021399965A1 (en) 2023-08-03
EP4264498A1 (en) 2023-10-25
CA3202297A1 (en) 2022-06-23
US11593631B2 (en) 2023-02-28
US20230153599A1 (en) 2023-05-18
WO2022129610A1 (en) 2022-06-23
US20220198254A1 (en) 2022-06-23
KR20230128492A (ko) 2023-09-05
JP2024500182A (ja) 2024-01-04

Similar Documents

Publication Publication Date Title
US11797835B2 (en) Explainable transducer transformers
US11948083B2 (en) Method for an explainable autoencoder and an explainable generative adversarial network
Li et al. A survey of data-driven and knowledge-aware explainable ai
Vilone et al. Explainable artificial intelligence: a systematic review
US20200104726A1 (en) Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
US11651216B2 (en) Automatic XAI (autoXAI) with evolutionary NAS techniques and model discovery and refinement
Bagherzadeh et al. A review of various semi-supervised learning models with a deep learning and memory approach
Ibrahim et al. Explainable convolutional neural networks: A taxonomy, review, and future directions
US20230134798A1 (en) Reasonable language model learning for text generation from a knowledge graph
Baghaei et al. Deep representation learning: Fundamentals, technologies, applications, and open challenges
Liu et al. Hands-On Deep Learning Architectures with Python: Create deep neural networks to solve computational problems using TensorFlow and Keras
Xia An overview of deep learning
Vanani et al. Deep learning for opinion mining
Soppin et al. Essentials of deep learning and ai: experience unsupervised learning, autoencoders, feature engineering, and time series analysis with tensorflow, keras, and scikit-learn (English Edition)
Oliveira et al. A new generation? a discussion on deep generative models in supply chains
Potapov et al. Cognitive module networks for grounded reasoning
Maharaj Generalizing in the Real World with Representation Learning
Cruttwell et al. Deep Learning with Parametric Lenses
Gangal et al. Neural Computing
Kota Generative Models for Trajectory Prediction
Schwartz et al. Machine learning methods
Vieira Bernat Topical Classification of Images in Wikipedia: Development of topical classification models followed by a study of the visual content of Wikipedia
Škrlj From Unimodal to Multimodal Machine Learning: An Overview
Wu Spatial-Temporal Data Modeling with Graph Neural Networks
Liu et al. Particle Swarm Optimization-Based Model Abstraction and Explanation Generation for a Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination