CN112905465B - 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 - Google Patents
一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 Download PDFInfo
- Publication number
- CN112905465B CN112905465B CN202110180076.7A CN202110180076A CN112905465B CN 112905465 B CN112905465 B CN 112905465B CN 202110180076 A CN202110180076 A CN 202110180076A CN 112905465 B CN112905465 B CN 112905465B
- Authority
- CN
- China
- Prior art keywords
- fairness
- discrimination
- black box
- machine learning
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统,其主要流程包括:(1)机器学习模型黑盒公平性测试环境构建、(2)基于公平性测试环境的最优歧视实例生成策略学习、(3)结果统计三大部分,首先构建机器学习模型黑盒公平性测试环境,然后强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略,最后统计测试结果。本发明能够解决机器学习模型黑盒公平性测试领域无有效启发式策略指导、测试效率较低、测试开销较大的问题。
Description
技术领域
本发明涉及一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统,涉及软件工程与人工智能技术领域。
背景技术
机器学习软件广泛应用于人类现实生活各类决策领域,如招聘、保险、政策预测等。研究人员发现,机器学习软件在实际运行过程中会产生各种不公平的决策行为,造成恶劣的社会影响。因此从软件工程的角度出发,设计高效的公平性测试算法,在机器学习软件交付之前进行充分的公平性测试,尽可能多地发现机器学习软件的歧视实例,成为亟待解决的问题。这里,公平性测试的目标是尽可能多地发现机器学习模型的歧视实例。现有的公平性测试方法主要分为黑盒方法和白盒方法。其中,黑盒方法主要有三种:第一种THEMIS利用对输入空间进行随机采样的方法生成歧视实例,由于输入空间巨大,歧视实例的分布不明确,歧视实例生成效率很低;第二种方法AEQUITAS先随机生成初始歧视实例,通过局部贪心搜索发现其它歧视实例,效率略高于随机生成方法;第三种方法SG利用可解释技术如LIME,学习黑盒机器学习模型关于给定测试输入的局部决策树,再结合符号执行技术,在决策树约束空间搜索其它歧视实例;另外,采用基于梯度制导的白盒歧视实例生成方法,提高了神经网络模型歧视实例的生成效率,但仅适用于神经网络模型,且需要获得神经网络模型的梯度信息。
这里的歧视实例定义为个体公平性歧视实例,定义如下:
给定n维数据集X,其中n>1,其对应的特征集合为A={a1,a2,…,an},定义Ik为特征ak的值集,其中1≤k≤n,输入空间为I=I1×I2×…In,且设非空保护特征集合如性别、肤色、年龄等。则A\P为非保护特征集合,其中“\”表示集合差运算(即A\P表示从集合A中删除属于集合P的元素)。给定机器学习模型M:I→O和输入x∈I,模型输出M(x)∈O。对于任意x=(x1,x2,…,xn)∈I,x′=(x′1,x′2,…,x′n)∈I,如果存在ap∈P,使得xp≠x′p,且对任意aq∈A\P,xq=x′q,模型输出M(x)≠M(x′),则序对(x,x′)构成关于模型M和保护特征集合P的一个歧视输入对,x和x′构成关于模型M和保护特征集合P的歧视实例。
发明内容
针对现有黑盒公平性测试效率低、开销大等问题,而白盒公平性测试方法在黑盒场景下又无法使用,本发明提出一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统。
本发明的技术方案如下:
一种基于深度强化学习的机器学习模型黑盒公平性测试方法,包括以下步骤:
构建机器学习模型黑盒公平性测试环境;
强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略;
统计根据学习的最优歧视实例生成策略生成的歧视实例,得到机器学习模型黑盒公平性测试结果。
进一步地,所述机器学习模型黑盒公平性测试环境,包括测试数据生成子模块、被测黑盒机器学习模型和奖励计算子模块;所述测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s0;当前环境状态s下,接收强化学习智能体输入的动作α,将动作α分解为维度index和偏移量b,将状态s对应的维度index的特征值加上偏移量b,生成下一个状态s′;状态s′作为测试数据输入所述被测黑盒机器学习模型,判断在状态s′下是否产生个体公平性歧视;将状态s′和个体公平性歧视的判断结果输入所述奖励计算子模块,将状态s′和奖励返回给强化学习智能体。
进一步地,所述强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略,包括:
强化学习智能体在观察到公平性测试环境的状态后,根据当前歧视实例生成策略选择最优动作输入公平性测试环境执行;
公平性测试环境反馈新的状态和相应的动作奖励给强化学习智能体;
强化学习智能体利用深度强化学习算法更新其歧视实例生成策略,并给出下一步动作,进入下一轮迭代直到测试终止。
一种采用上述方法的基于深度强化学习的机器学习模型黑盒公平性测试系统,其包括:
机器学习模型黑盒公平性测试环境构建模块,用于构建机器学习模型黑盒公平性测试环境;
基于公平性测试环境的最优歧视实例生成策略学习模块,即强化学习智能体模块,用于与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略;
结果统计模块,用于统计根据学习的最优歧视实例生成策略生成的歧视实例,得到机器学习模型黑盒公平性测试结果。
本方法的优势和创新点在于:首先,将黑盒公平性测试转化为强化学习问题,可以自适应地提高歧视实例的发现能力和效率,与现有黑盒公平性测试方法相比,减少了测试代价;其次,该方法适用于各种机器学习模型;最后,该方法可以很好地扩展到其它机器学习模型测试框架下,具有良好的可扩展性。
附图说明
图1是基于深度强化学习的黑盒机器学习模型公平性测试框图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明,而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于深度强化学习的黑盒公平性测试方法,包括机器学习模型黑盒公平性测试环境构建模块、基于公平性测试环境的最优歧视实例生成策略学习模块(即强化学习智能体模块)、结果统计模块三个部分。实际机器学习模型输入空间巨大,具体歧视实例的分布未知,随机测试效率太低,穷尽搜索输入空间也不可行。本发明将机器学习模型黑盒公平性测试问题转化为强化学习问题,把黑盒机器学习模型作为策略学习模块(强化学习智能体)的交互环境。策略学习模块在观察到公平性测试环境的状态后,根据当前歧视实例生成策略选择最优动作输入公平性测试环境执行;公平性测试环境反馈新的状态和相应的动作奖励给策略学习模块;策略学习模块利用深度强化学习算法更新其歧视实例生成策略,并给出下一步动作,进入下一轮迭代直到测试终止,最后统计测试结果。
1.机器学习模型黑盒公平性测试环境构建模块
机器学习模型黑盒公平性测试环境由测试数据生成子模块,黑盒机器学习模型(即被测模型),奖励计算子模块组成。
首先,测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s0。在当前环境状态s下,测试数据生成子模块接收智能体输入的动作α,将动作α分解为维度index和偏移量b,将状态s对应维度index的特征值加上偏移量b,生成下一个状态s′。状态s′将作为测试数据输入被测机器学习模型。
其中,动作α是对状态s在维度index上的特定干扰,从而得到新的状态。维度index对应于非保护特征aindex∈A\P。如上文所述,A是被测模型的输入特征集合,为公平性测试指定的非空保护特征集合,“\”是集合差运算。
将每次生成的新状态加入生成的测试集合t_set中,如果生成的状态为歧视实例,则加入生成的歧视实例集合d_set中。
随后,将状态s′和个体公平性歧视的判断结果输入奖励计算子模块,反馈相应的状态和奖励给智能体。具体计算方法是:根据个体公平性歧视的判断结果,判定状态s′是否构成歧视实例,如果是歧视实例且不属于已生成的歧视实例集合d_set,则设定奖励为r1;如果是歧视实例但属于歧视实例集合d_set,说明该状态为之前已生成的重复歧视实例,则设定奖励为r2;如果不是歧视实例,则设定奖励为r3。这里,r1、r2、r3为奖励常数。一般地,r1≥r2≥r3,r1≥0,r3≤0。然后将状态s′和设定的奖励返回给最优歧视实例生成策略学习模块(即强化学习智能体模块)。
2.基于公平性测试环境的最优歧视实例生成策略学习模块(即强化学习智能体模块)
首先随机初始化一个深度Q网络作为歧视实例生成策略学习模型。公平性测试环境给出的初始状态s0,作为策略学习的初始输入;智能体选择相应动作,输入公平性测试环境;公平性测试环境中的测试数据生成子模块生成测试数据,输入被测机器学习模型执行;公平性测试环境中的奖励计算子模块返回相应的下一个状态和动作奖励;智能体采用深度强化学习算法更新策略学习模型,根据观察到的环境状态不断选择最优动作,直到当前episode(幕)结束。当前episode结束后,智能体重新从相同的初始状态s0出发,迭代更新歧视实例生成策略学习模型,直到测试终止。测试终止条件可人为设定,如episode的数量。
本发明的一个实施例中,策略学习模块从状态s0开始,采用∈-greedy策略(∈-贪婪策略)选择动作与环境交互,同时采用深度强化学习算法更新歧视实例生成策略,学习目标为策略学习模块的累积奖励最大化;在经过T步之后到达状态sT完成一轮episode,智能体重新回到状态s0,进入下一轮episode,直到智能体完成所有episode,测试结束。
3.结果统计模块
统计歧视实例生成策略学习模型生成的歧视实例数量,测试结束。
效果检验:为验证本发明在机器学习模型黑盒公平性测试上的效果,采用公平性测试基准数据集(如表1所示),针对每个数据集训练6层全连接神经网络(Multi-LayerPerceptron,MLP)模型和对数几率回归(Logistic Regression,LR)模型,训练结果如表2所示。
表1:数据集
数据集 | 保护特征 | 数据集大小 | 特征数量 | 输入空间大小 |
German Credit | 性别 | 1000 | 21 | 6.32×10<sup>17</sup> |
Bank Marketing | 年龄 | 45211 | 16 | 3.30×10<sup>24</sup> |
Census Income | 性别 | 15360 | 13 | 1.74×10<sup>18</sup> |
表2:机器学习被测模型
数据集 | 模型 | 准确率 |
German Credit | MLP | 100% |
German Credit | LR | 70% |
Bank Marketing | MLP | 93.41% |
Bank Marketing | LR | 89.87% |
Census Income | MLP | 86.28% |
Census Income | LR | 80.87% |
实验环境:以下所有实验在MacBook上进行,其操作系统为macOs Catalina,配有2.7GHZ的Intel Core i7处理器,16G内存。
评估指标:为量化评估本发明所设计的方法,设计评估指标如下:
#Tests:被测模型执行的测试输入的数量;
#DTests:发现的个体公平性歧视实例的数量;
Time:执行所有测试输入所花费的CPU时间;
这里主要对比目前性能最好的黑盒公平性测试方法,包括背景技术中提到的AEQUITAS和SG。AEQUITAS和SG的相关文献中指出,THEMIS随机采样生成个体公平性歧视实例的效率远低于AEQUITAS和SG,故而不对比THEMIS的实验效果。
实验步骤:
1)对于表2中的每个被测模型,分别运行AEQUITAS、SG和本发明的方法,其中
AEQUITAS和SG按照其相关文献提供的最佳运行参数运行,本发明方法设定奖励
r1=100,r2=-3,r3=-4。
2)根据步骤1的运行结果,统计实验评估指标。
3)根据步骤2的统计结果进行对比分析。
实验结果:
表3 AEQUITAS
数据集 | 模型 | #Tests | #DTests | Time | G<sub>ratio</sub> | G<sub>rate</sub> |
Census Income | MLP | 3609 | 608 | 66.3 | 16.8% | 9.17 |
Census Income | LR | 65539 | 3760 | 366 | 5% | 10.27 |
Bank Marketing | MLP | 4579 | 1893 | 380 | 41.3% | 4.98 |
Bank Marketing | LR | 36259 | 937 | 692 | 2.58% | 1.35 |
German Credit | MLP | 3864 | 667 | 158 | 17.3% | 4.22 |
German Credit | LR | 11738 | 545 | 117 | 4% | 4.65 |
表4 SG
数据集 | 模型 | #Tests | #DTests | Time | G<sub>ratio</sub> | G<sub>rate</sub> |
Census Income | MLP | 1000 | 200 | 613 | 20% | 0.32 |
Census Income | LR | 1000 | 82 | 1070 | 0.82% | 0.07 |
Bank Marketing | MLP | 1000 | 702.33 | 743 | 70.2% | 0.94 |
Bank Marketing | LR | 1000 | 92.33 | 1114 | 9.23% | 0.08 |
German Credit | MLP | 1000 | 703 | 757.6 | 70.3% | 0.93 |
German Credit | LR | 1000 | 74 | 1035 | 0.74% | 0.07 |
表5本发明的方法
数据集 | 模型 | #Tests | #DTests | Time | G<sub>ratio</sub> | G<sub>rate</sub> |
Census Income | MLP | 86176 | 39171 | 883 | 45.4%(2.27X) | 44.36(4.83X) |
Census Income | LR | 85029 | 37689 | 753 | 44.3%(8.87X) | 50.05(4.87X) |
Bank Marketing | MLP | 84241 | 48946 | 1029 | 58.1%(0.82X) | 47.56(9.55X) |
Bank Marketing | LR | 80250 | 12659 | 834 | 15.78%(1.70X) | 15.17(11.23X) |
German Credit | MLP | 79597 | 23978 | 871 | 30.12%(0.43X) | 27.52(6.52X) |
German Credit | LR | 84858 | 30801 | 761 | 36.29%(9.07X) | 40.47(8.70X) |
实验结果如表3、4、5所示。在表5的Gratio、Grate列中“(kX)”代表本发明方法的相应评估指标值是AEQUITAS和SG相应评估指标最大值的k倍。从结果可以看出,本发明方法在6个模型上单位时间内检测歧视实例的效率Grate均高于目前最好的黑盒方法AEQUITAS和SG。总的来说,本发明方法在相同时间内,可以比目前最好的黑盒公平性测试算法多发现4到10倍的歧视实例。并且在4个被测模型上,本发明方法生成的测试数据中歧视实例的比值也超过了目前最好的黑盒公平性测试算法。在数据集German Credit和Bank Marketing训练而来的MLP模型上,本发明方法的Gratio指标虽然低于SG,但在Grate指标上比SG高7到10倍,这里主要是因为SG采用符号执行技术指导歧视实例生成需要较大的时间开销。
综上所述,本发明提出的一种基于深度强化学习的黑盒公平性测试方法,可以更少的测试代价,发现更多的歧视实例,提高了机器学习模型黑盒公平性测试效率,且适用于各种机器学习模型。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本发明的其它实施方式:
本发明不限定对测试环境的输入动作类型,以及测试数据的构造方式(如组合动作,即对当前状态的多个非保护特征值进行同步或同时置换等)。
本发明不限定奖励计算子模块对动作或状态的奖励计算方式(如奖励值r1、r2、r3随测试的迭代进行而动态调整等)。
本发明不限定智能体采用的策略学习模型及更新方式(如其它强化学习模型和学习算法)。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于深度强化学习的机器学习模型黑盒公平性测试方法,其特征在于,包括以下步骤:
构建机器学习模型黑盒公平性测试环境;
强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略;
统计根据学习的最优歧视实例生成策略生成的歧视实例,得到机器学习模型黑盒公平性测试结果;
所述机器学习模型黑盒公平性测试环境,包括测试数据生成子模块、被测黑盒机器学习模型和奖励计算子模块;所述测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s0;当前环境状态s下,接收强化学习智能体输入的动作α,将动作α分解为维度index和偏移量b,将状态s对应的维度index的特征值加上偏移量b,生成下一个状态s′;状态s′作为测试数据输入所述被测黑盒机器学习模型,判断在状态s′下是否产生个体公平性歧视;将状态s′和个体公平性歧视的判断结果输入所述奖励计算子模块,将状态s′和奖励返回给强化学习智能体;
所述动作α是对状态s在维度index上的特定干扰,从而得到新的状态;所述维度index对应于非保护特征aindex∈A\P,其中A是被测黑盒机器学习模型的输入特征集合,为公平性测试指定的非空保护特征集合,“\”是集合差运算;
所述判断在状态s′下是否产生个体公平性歧视,包括:
所述强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略,包括:
强化学习智能体在观察到公平性测试环境的状态后,根据当前歧视实例生成策略选择最优动作输入公平性测试环境执行;
公平性测试环境反馈新的状态和相应的动作奖励给强化学习智能体;
强化学习智能体利用深度强化学习算法更新其歧视实例生成策略,并给出下一步动作,进入下一轮迭代直到测试终止。
2.根据权利要求1所述的方法,其特征在于,所述奖励计算子模块采用以下步骤计算奖励:
如果状态s′是歧视实例且不属于已生成的歧视实例集合d_set,则设定奖励为r1;
如果状态s′是歧视实例但属于歧视实例集合d_set,说明该状态为之前已生成的重复歧视实例,则设定奖励为r2;
如果状态s′不是歧视实例,则设定奖励为r3;
其中,r1、r2、r3为奖励常数,r1≥r2≥r3,r1≥0,r3≤0。
3.一种采用权利要求1或2所述方法的基于深度强化学习的机器学习模型黑盒公平性测试系统,其特征在于,包括:
机器学习模型黑盒公平性测试环境构建模块,用于构建机器学习模型黑盒公平性测试环境;
基于公平性测试环境的最优歧视实例生成策略学习模块,即强化学习智能体模块,用于与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略;
结果统计模块,用于统计根据学习的最优歧视实例生成策略生成的歧视实例,得到机器学习模型黑盒公平性测试结果。
4.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1或2所述方法的指令。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180076.7A CN112905465B (zh) | 2021-02-09 | 2021-02-09 | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180076.7A CN112905465B (zh) | 2021-02-09 | 2021-02-09 | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905465A CN112905465A (zh) | 2021-06-04 |
CN112905465B true CN112905465B (zh) | 2022-07-22 |
Family
ID=76123311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110180076.7A Active CN112905465B (zh) | 2021-02-09 | 2021-02-09 | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905465B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114077742B (zh) * | 2021-11-02 | 2022-12-02 | 清华大学 | 软件漏洞智能挖掘方法和装置 |
CN114154582B (zh) * | 2021-12-06 | 2024-04-19 | 天津大学 | 基于环境动态分解模型的深度强化学习方法 |
CN115329968B (zh) * | 2022-07-20 | 2024-05-03 | 北京中科弧光量子软件技术有限公司 | 确定量子机器学习算法公平性的方法、系统和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307778A (zh) * | 2020-11-17 | 2021-02-02 | 南京工业大学 | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320428A1 (en) * | 2019-04-08 | 2020-10-08 | International Business Machines Corporation | Fairness improvement through reinforcement learning |
-
2021
- 2021-02-09 CN CN202110180076.7A patent/CN112905465B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307778A (zh) * | 2020-11-17 | 2021-02-02 | 南京工业大学 | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 |
Non-Patent Citations (2)
Title |
---|
《多智能体深度强化学习研究综述》;孙彧等;《计算机工程与应用》;20201231;全文 * |
《机器学习及其在多Agent对策学习中的应用研究》;王泉德;《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》;20061231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112905465A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905465B (zh) | 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统 | |
O’Neill et al. | Evolutionary neural architecture search for high-dimensional skip-connection structures on densenet style networks | |
Yang et al. | Clustering analysis via deep generative models with mixture models | |
Wu et al. | Discovering nonlinear relations with minimum predictive information regularization | |
EP3333770A1 (en) | Matching graph entities in graph data | |
Alabdulmohsin et al. | A near-optimal algorithm for debiasing trained machine learning models | |
Little et al. | Sequence-sensitive exemplar and decision-bound accounts of speeded-classification performance in a modified Garner-tasks paradigm | |
CN115064266A (zh) | 基于不完整多组学数据的癌症诊断系统 | |
CN115496144A (zh) | 配电网运行场景确定方法、装置、计算机设备和存储介质 | |
Leeb et al. | Exploring the latent space of autoencoders with interventional assays | |
Xie et al. | Fairness testing of machine learning models using deep reinforcement learning | |
Hung et al. | Reward-biased maximum likelihood estimation for linear stochastic bandits | |
Leqi et al. | Supervised learning with general risk functionals | |
Dinkelberg et al. | Detecting opinion-based groups and polarization in survey-based attitude networks and estimating question relevance | |
Chattopadhyay et al. | Variational information pursuit for interpretable predictions | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
Al-Shboul et al. | Initializing genetic programming using fuzzy clustering and its application in churn prediction in the telecom industry | |
Hancer et al. | A differential evolution based feature selection approach using an improved filter criterion | |
Tao et al. | Multi-label feature selection method via maximizing correlation-based criterion with mutation binary bat algorithm | |
CN113516182B (zh) | 视觉问答模型训练、视觉问答方法和装置 | |
CN112906785B (zh) | 基于融合的零样本物体种类识别方法、装置及设备 | |
Villani et al. | Identifying emergent dynamical structures in network models | |
Tian et al. | Microbial Network Recovery by Compositional Graphical Lasso | |
Shafi et al. | Software quality prediction techniques: A comparative analysis | |
CN112988186A (zh) | 异常检测系统的更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |