CN116483733A - 多维度人工智能产品评测方法及装置 - Google Patents
多维度人工智能产品评测方法及装置 Download PDFInfo
- Publication number
- CN116483733A CN116483733A CN202310687517.1A CN202310687517A CN116483733A CN 116483733 A CN116483733 A CN 116483733A CN 202310687517 A CN202310687517 A CN 202310687517A CN 116483733 A CN116483733 A CN 116483733A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- data
- artificial intelligence
- result
- evaluating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 701
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 83
- 230000007613 environmental effect Effects 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000007123 defense Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000005265 energy consumption Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004451 qualitative analysis Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3692—Test management for test results analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Neurology (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多维度人工智能产品评测方法及装置,该方法包括:确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。本发明可以针对人工智能技术评测对象,实现人工智能的全周期评测。
Description
技术领域
本发明涉及评测技术领域,尤其涉及一种多维度人工智能产品评测方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
人工智能作为一项变革性的技术已经渗透到了各行各业,随着人工智能在各行各业的应用日益广泛,对人工智能系统测试的需求也与日俱增。以自动驾驶为例,如果自动驾驶的智能系统做出错误的决策或响应时间慢,则将大大增加车祸的风险。类似地,金融领域人工智能的错误决策可能导致不可估量的经济损失。人工智能技术的评测维度众多,功能是否符合要求、精度达到多少、推断耗时多久、计算资源消耗多大、是否有安全隐患,这些都需要测试到位。
现有的AI评测技术还比较片面,主要集中对AI模型的准确率、精度等部分功能性指标的评测,忽视了性能和安全性等其他方面的评测。
发明内容
本发明实施例提供一种多维度人工智能产品评测方法,用以针对人工智能技术评测对象,实现人工智能的全周期评测,该方法包括:
确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
本发明实施例还提供一种多维度人工智能产品评测装置,用以针对人工智能技术评测对象,实现人工智能的全周期评测,该装置包括:
评测对象确定模块,用于确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
评测项确定模块,用于确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
评测模块,用于采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多维度人工智能产品评测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。
本发明实施例中,确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测,忽视了性能和安全性等其他方面的评测的技术方案相比,能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测,且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法,从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测,可以更加清晰地发现人工智能产品的优势和劣势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中多维度人工智能产品评测方法的流程图;
图2为本发明实施例中多维度人工智能产品评测的结构图;
图3为本发明实施例中多维度人工智能产品评测装置的示意图;
图4为本发明实施例中多维度人工智能产品评测装置的另一示意图;
图5为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先对本发明涉及的术语进行解释。
功能指标:正确率,召回率,AUC,F-score、mAP等业内常用的衡量一项人工智能技术精度等的指标。
对抗攻击:采用对抗学习技术生成对抗性数据,然后对人工智能技术进行攻击从而得到欺骗的识别结果。
活体攻击:使用照片、视频等非活体数据来伪装真人欺骗人工智能技术。
成员推理攻击:作为一种隐私攻击方法,攻击目标是推理一条或一批数据是否作为目标模型的训练集,以此达到攻击的效果。基于目标模型的输出,攻击分类器获取成员和非成员数据的特征、损失差异,以此实现成员推理。
反演攻击:攻击者根据人工智能技术的输出结果逆向推理出原有训练集中的重要信息。
图1为本发明实施例中多维度人工智能产品评测方法的流程图,包括:
步骤101,确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
步骤102,确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
步骤103,采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
图2为本发明实施例中多维度人工智能产品评测的结构图,下面进行详细介绍。
一、功能评测
评测对象在功能评测的评测项为完备性及正确性评测。一项AI技术形成的人工智能产品从实验室进入实际应用时,会面临各种复杂的实际环境,为了全面客观地评价人工智能模型、算法、硬件的预测性能,而不仅仅是用传统方法计算一个整体的Precision、Accuracy、Recall、F-score、WER等指标结果,首先针对不同类型AI任务进行相应的环境条件定义,这些环境条件是最能刻画该类人工智能产品所面临的各种实际环境特征,然后使用针对性的数据集进行逐项评测。这样可以更加清晰地发现某人工智能产品的优势和劣势。
在一实施例中,基于环境条件集合的评测方法的步骤包括:
步骤201,确定评测对象的环境条件集合;
步骤202,从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据;
步骤203,基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果。
本发明实施例给出语音识别产品、人脸识别产品、OCR识别产品的环境条件集合。
(1)语音识别产品的环境条件集合定义如下:
说话语种:普通话、英语、日语、韩语、中英混杂等;
说话信道:电话信道、手机信道、麦克风信道;
拾音距离:近场(<50厘米)、远场(1米)、远场(3米)、远场(5米);
特殊年龄:儿童、成人、老人;
声学环境:安静环境、嘈杂环境;
(2)人脸识别产品的环境条件集合定义如下:
人脸朝向:不同人脸朝向(正面、侧面、仰视、俯视);
脸部遮挡:无遮挡、各种遮挡物类型;
特殊年龄:儿童、成人、老人;
真假人脸:真人、照片、面具;
不同光照:亮光、正常光、暗光;
(3)OCR识别产品的环境条件集合定义如下:
语种:中文、英文、日文、韩文、德文、法文等;
场景:自然场景、文档、手写体;
清晰度:字迹清晰、字迹模糊;
拍摄角度:正面、倾斜。
步骤202中,从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据,包括:
通过评测对象在功能评测的评测数据的标签与环境条件集合中环境条件的相似度,选择符合环境条件集合的评测数据。
步骤203中,基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果,包括:
步骤301,对选择的评测数据进行定量分析,计算所述评测对象的功能指标值;
其中每类人工智能产品的功能指标是预先定义好的,例如语音识别产品用WER(词错率),人脸识别产品用Accuracy(准确率)、Recall(召回率)、F-score(F1值)等。
步骤302,基于所述功能指标值和功能指标阈值,对所述评测对象进行定性分析,所述评测对象在环境条件集合中每种环境条件下的评测结果。例如,对每个环境条件值进行“优、中、差”的定性判断。例如某语音识别产品的定性判断如下:
说话语种:普通话(优)、其他语种(差);
说话信道:电话信道(差)、手机信道(优)、麦克风信道(优);
拾音距离:近场(优)、远场(中);
特殊年龄:儿童(差)、成人(优)、老人(中);
声学环境:安静环境(优)、嘈杂环境(差)。
二、性能评测
人工智能模型实现人工智能的基础,它是由数据训练而来,就像人的大脑可以不断的学习。随着人工智能的发展,模型参数越来越多,体积也越来越大,这样就导致了模型运行速度慢,占用内存多等一系列问题,因此模型的性能问题就越来越不可忽视。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括吞吐量评测;
所述吞吐量的评测方法的步骤包括:
根据评测对象的推断数据量的推断时间比值,计算吞吐量,作为评测结果。
其中,吞吐量=推断数据量/推断时间。
吞吐量越大,说明人工智能模型/算法在相同时间内预测的数据越多,性能就越好。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括资源消耗评测;
所述资源消耗评测的评测方法的步骤包括:
步骤401,根据评测对象的评测数据,计算评测对象的多个性能指标值,性能指标包括CPU占用率、内存占用率、能耗占用率、磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数中的其中一种或任意组合;
步骤402,根据多个性能指标值,确定评测结果。
其中,CPU占用率、内存占用率、能耗占用率等越小,说明所占资源越少,性能越好。磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数等越小,说明与外界交互越少,性能越好。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括环境兼容性评测;
所述环境兼容性评测的评测方法的步骤包括:
步骤501,分析评测对象能够正常运行的芯片,获得第一结果;不同芯片包括:CPU、GPU、NPU等;
步骤502,分析评测对象能够正常运行的操作系统,获得第二结果;不同操作系统包括:Windows 32位、Windows 64位、Linux等;
步骤503,根据第一结果和第二结果,确定评测结果。
在一实施例中,人工智能硬件在性能评测的评测项包括框架兼容性评测;
所述框架兼容性评测的评测方法的步骤包括:
步骤601,将预定的深度学习框架在人工智能硬件上进行运行测试;
预定的深度学习框架包括:Tensorflow、Pytorch、PaddlePaddle、MindSpore等。
步骤602,若运行测试结果为正常运行,确定评测结果为能够兼容该预定的深度学习框架。
在一实施例中,人工智能硬件在性能评测的评测项包括算力评测,所述算力评测包括训练性能评测和推断性能评测;
所述训练性能评测的评测方法的步骤包括:
步骤701,构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
步骤702,使用指定的人工智能基准数据集和人工智能基准模型,在人工智能硬件上进行训练,在达到预设的训练质量目标后,记录训练所用时长(单位:毫秒),作为评测结果;
所述推断性能评测的评测方法的步骤包括:
步骤801,构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
步骤802,使用指定的人工智能基准测试数据集和人工智能基准模型,在人工智能硬件上进行推断,记录推断时的吞吐量(推断数据量/推断时间),作为评测结果。
在一实施例中,评测对象在安全性评测的评测项包括外部攻击防御能力评测;外部攻击防御能力评测的子评测项包括对抗攻击评测;
对抗攻击评测的评测方法的步骤包括:
步骤901,采用对抗攻击样本生成算法,根据评测对象的评测数据,生成具有对抗能力的对抗样本;
步骤902,采用评测数据和对抗样本混编的数据集进行数据压力测试,获取评测数据推断准确率和对抗样本推断准确率;
步骤903,根据评测数据推断准确率和对抗样本推断准确率,计算平均准确率损失率,作为评测结果。
其中,其中,平均准确率损失率 =(评测数据推断准确率-对抗样本推断准确率)/评测数据推断准确率,该指标值越大,说明人工智能产品防御对抗攻击的能力越差;该指标值越小,说明防御对抗攻击的能力越强。
在一实施例中,外部攻击防御能力评测的子评测项包括伪造攻击评测;
伪造攻击评测的评测方法的步骤包括:
步骤1001,采用评测对象的伪造数据集,对评测对象进行数据压力测试,获取从伪造数据集中识别出的非活体数据,评测对象的伪造数据集包括评测对象对活体数据的伪造的非活体数据,例如,人脸为翻拍电脑、手机、纸质人脸等,人声为语音合成、声音重放、语音模拟等的输出;
步骤1002,根据伪造数据集和识别出的非活体数据,计算平均准确率,作为评测结果。
其中,平均准确率=识别出的非活体数据数量/伪造数据集总量,该指标值越大,说明人工智能产品对伪造攻击的防御力越差;该指标值越小,说明防御伪造攻击的能力越强。
在一实施例中,外部攻击防御能力评测的子评测项包括成员推理攻击评测;成员推理攻击是一种面向人工智能产品(主要是模型)的数据隐私窃取,攻击者以判断数据是否来源于人工智能产品的训练集为目标,本质上是对未知来源的数据进行二分类,给出成员数据或者非成员数据的判定。
成员推理攻击评测的评测方法的步骤包括:
步骤1101,采用评测数据,对评测对象进行数据压力测试,获取评测对象对评测数据的推断结果;
步骤1102,根据所述推断结果,计算置信度得分;
步骤1103,根据推断结果和置信度得分,计算推理攻击指标,作为评测结果。
其中,推理攻击指标=推断成功且置信度得分>阈值,该指标值越大,说明人工智能产品对成员推理攻击的防御力越差;该指标值越小,说明防御成员推理攻击的能力越强。
在一实施例中,外部攻击防御能力评测的子评测项包括反演攻击评测;神经网络模型中面临的反演攻击,包括原始数据保护、敏感数据泄露、模型训练隐私等关键问题。
反演攻击评测的评测方法的步骤包括:
步骤1201,通过评测对象对评测数据检测的推理输出信息进行检测,获得推理输出信息量和数据敏感信息量;
步骤1202,根据推理输出信息量和数据敏感信息量,计算冗余率,作为评测结果。
其中,冗余率=(推理输出信息量-数据敏感信息量)/ 数据敏感信息量,该指标值越小,说明人工智能产品的输出里未包含关键信息,则代表人工智能产品对反演攻击的防御力越强;该指标值越大,说明人工智能产品的输出里包含了关键信息,则代表防御反演攻击的能力越弱。
在一实施例中,评测对象在安全性评测的评测项包括内部可解释性评测;可解释性是指人类能够理解决策原因的程度。可解释性越高,人们就越容易理解为什么要做出某些决定或预测。可解释性指对产品内部机制的理解以及对产品结果的解释。其重要性体现在:建立阶段,辅助开发人员理解模型,进行产品的对比选择,必要时优化调整产品;在投入运行阶段,向业务方解释产品的内部机制,对产品结果进行解释。
内部可解释性评测的评测方法的步骤包括:
步骤1301,基于SHAP方法,对评测对象进行解释性分析,获得多个token;
步骤1302,计算每一个token对评测对象的分类的影响,得到影响分类的正向特征、负向特征和正常特征,作为评测结果。
在一实施例中,评测对象在安全性评测的评测项包括AI偏见评测;
AI偏见评测的评测方法的步骤包括:
步骤1401,采用评测数据,对评测对象进行数据压力测试,获取评测对象对评测数据的识别结果;
步骤1402,计算不同地区的评测数据识别的平均准确率;
步骤1403,根据不同地区的评测数据识别的平均准确率,确定评测对象的倾向检测区域,作为评测结果。
每个区域的评测数据识别的平均准确率=检测正确的评测数据的数量/当前区域的总评测数据的数量。
在一实施例中,评测对象在安全性评测的评测项包括代码安全性评测,代码安全性评测的子评测项包括代码漏洞评测;
代码漏洞评测的评测方法的步骤包括:
步骤1501,对评测对象的代码进行扫描(例如采用CWE规范),记录漏洞信息,所述漏洞信息包括漏洞所在的代码行、漏洞风险级别漏洞详细描述、漏洞规范中的其中一种或任意组合;
步骤1502,根据漏洞信息,生成代码漏洞风险评级,作为评测数据。
例如,若存在高风险漏洞则代码漏洞风险评级为A,若存在中风险漏洞且无高风险漏洞则代码漏洞风险评级为B,若只有低风险漏洞则代码漏洞风险评级为C,未检测到代码漏洞则代码漏洞风险评级为D。指标从A-D,代码漏洞风险程度从高到低。
在一实施例中,代码安全性评测的子评测项包括代码依赖性评测;
代码依赖性评测的评测方法的步骤包括:
对评测对象的代码依赖的代码进行安全性检查,获得检查结果,作为评测结果。
其中,代码的运行通常情况下需要依赖其他包或者代码的实现,通常依赖包是由第三方开发的代码,对代码依赖的安全性检查也是不可忽视的一部分。对代码依赖的安全检查可以更加完善的对代码安全进行检查,增加其安全性。
在一实施例中,代码安全性评测的子评测项包括代码规范性评测;
代码规范性评测的评测方法的步骤包括:
步骤1601,基于SQALE方法的质量模型,对评测对象的代码进行规范性检查,获得不规范代码行数和总代码行数;
步骤1602,根据不规范代码行数和总代码行数,计算技术负载率,作为评测结果。
其中,规范化的代码可以提高代码可读性,统一规范,方便他人维护,能够帮助发现代码缺陷,弥补人工代码评审的疏漏,节省代码评审的时间与成本,有助于提前发现问题,节约时间成本,降低缺陷修复成本。
技术负载率=不规范代码行数/总代码行数×100%。
例如,技术负载率的区间区分中,[0, 5%]是A,(5%, 10%]是B,(10%,20%]是C,(20%, 50%]是D,高于50%是E。
综上所述,本发明实施例提出的方法中,确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测,忽视了性能和安全性等其他方面的评测的技术方案相比,能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测,且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法,从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测,可以更加清晰地发现人工智能产品的优势和劣势。
本发明实施例中还提供了一种多维度人工智能产品评测装置,如下面的实施例所述。由于该装置解决问题的原理与多维度人工智能产品评测方法相似,因此该装置的实施可以参见多维度人工智能产品评测方法的实施,重复之处不再赘述。
图3为本发明实施例中多维度人工智能产品评测装置的示意图,包括:
评测对象确定模块301,用于确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
评测项确定模块302,用于确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
评测模块303,用于采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
在一实施例中,评测对象在功能评测的评测项为完备性及正确性评测;
基于环境条件集合的评测方法的步骤包括:
确定评测对象的环境条件集合;
从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据;
基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果。
在一实施例中,从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据,包括:
通过评测对象在功能评测的评测数据的标签与环境条件集合中环境条件的相似度,选择符合环境条件集合的评测数据。
在一实施例中,基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果,包括:
对选择的评测数据进行定量分析,计算所述评测对象的功能指标值;
基于所述功能指标值和功能指标阈值,对所述评测对象进行定性分析,所述评测对象在环境条件集合中每种环境条件下的评测结果。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括吞吐量评测;
所述吞吐量的评测方法的步骤包括:
根据评测对象的推断数据量的推断时间比值,计算吞吐量,作为评测结果。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括资源消耗评测;
所述资源消耗评测的评测方法的步骤包括:
根据评测对象的评测数据,计算评测对象的多个性能指标值,性能指标包括CPU占用率、内存占用率、能耗占用率、磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数中的其中一种或任意组合;
根据多个性能指标值,确定评测结果。
在一实施例中,人工智能模型和人工智能算法在性能评测的评测项均包括环境兼容性评测;
所述环境兼容性评测的评测方法的步骤包括:
分析评测对象能够正常运行的芯片,获得第一结果;
分析评测对象能够正常运行的操作系统,获得第二结果;
根据第一结果和第二结果,确定评测结果。
在一实施例中,人工智能硬件在性能评测的评测项包括框架兼容性评测;
所述框架兼容性评测的评测方法的步骤包括:
将预定的深度学习框架在人工智能硬件上进行运行测试;
若运行测试结果为正常运行,确定评测结果为能够兼容该预定的深度学习框架。
在一实施例中,人工智能硬件在性能评测的评测项包括算力评测,所述算力评测包括训练性能评测和推断性能评测;
所述训练性能评测的评测方法的步骤包括:
构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
使用指定的人工智能基准数据集和人工智能基准模型,在人工智能硬件上进行训练,在达到预设的训练质量目标后,记录训练所用时长,作为评测结果;
所述推断性能评测的评测方法的步骤包括:
构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
使用指定的人工智能基准测试数据集和人工智能基准模型,在人工智能硬件上进行推断,记录推断时的吞吐量,作为评测结果。
在一实施例中,评测对象在安全性评测的评测项包括外部攻击防御能力评测;外部攻击防御能力评测的子评测项包括对抗攻击评测;
对抗攻击评测的评测方法的步骤包括:
采用对抗攻击样本生成算法,根据评测对象的评测数据,生成具有对抗能力的对抗样本;
采用评测数据和对抗样本混编的数据集进行数据压力测试,获取评测数据推断准确率和对抗样本推断准确率;
根据评测数据推断准确率和对抗样本推断准确率,计算平均准确率损失率,作为评测结果。
在一实施例中,外部攻击防御能力评测的子评测项包括伪造攻击评测;
伪造攻击评测的评测方法的步骤包括:
采用评测对象的伪造数据集,对评测对象进行数据压力测试,获取从伪造数据集中识别出的非活体数据,评测对象的伪造数据集包括评测对象对活体数据的伪造的非活体数据;
根据伪造数据集和识别出的非活体数据,计算平均准确率,作为评测结果。
在一实施例中,外部攻击防御能力评测的子评测项包括成员推理攻击评测;
成员推理攻击评测的评测方法的步骤包括:
采用评测数据,对评测对象进行数据压力测试,获取评测对象对评测数据的推断结果;
根据所述推断结果,计算置信度得分;
根据推断结果和置信度得分,计算推理攻击指标,作为评测结果。
在一实施例中,外部攻击防御能力评测的子评测项包括反演攻击评测;
反演攻击评测的评测方法的步骤包括:
通过评测对象对评测数据检测的推理输出信息进行检测,获得推理输出信息量和数据敏感信息量;
根据推理输出信息量和数据敏感信息量,计算冗余率,作为评测结果。
在一实施例中,评测对象在安全性评测的评测项包括内部可解释性评测;
内部可解释性评测的评测方法的步骤包括:
基于SHAP方法,对评测对象进行解释性分析,获得多个token;
计算每一个token对评测对象的分类的影响,得到影响分类的正向特征、负向特征和正常特征,作为评测结果。
在一实施例中,评测对象在安全性评测的评测项包括代码安全性评测,代码安全性评测的子评测项包括代码漏洞评测;
代码漏洞评测的评测方法的步骤包括:
对评测对象的代码进行扫描,记录漏洞信息,所述漏洞信息包括漏洞所在的代码行、漏洞风险级别漏洞详细描述、漏洞规范中的其中一种或任意组合;
根据漏洞信息,生成代码漏洞风险评级,作为评测数据。
在一实施例中,代码安全性评测的子评测项包括代码依赖性评测;
代码依赖性评测的评测方法的步骤包括:
对评测对象的代码依赖的代码进行安全性检查,获得检查结果,作为评测结果。
在一实施例中,代码安全性评测的子评测项包括代码规范性评测;
代码规范性评测的评测方法的步骤包括:
基于SQALE方法的质量模型,对评测对象的代码进行规范性检查,获得不规范代码行数和总代码行数;
根据不规范代码行数和总代码行数,计算技术负载率,作为评测结果。
在一实施例中,参见图4,所述装置还包括测试报告生成模块401,用于:
根据评测对象在每个评测维度的每个评测项的评测结果,生成评测报告,所述评测报告用于指导评测对象调优。
综上所述,本发明实施例提出的装置中,确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测,忽视了性能和安全性等其他方面的评测的技术方案相比,能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测,且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法,从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测,可以更加清晰地发现人工智能产品的优势和劣势。
本发明实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现上述多维度人工智能产品评测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (23)
1.一种多维度人工智能产品评测方法,其特征在于,包括:
确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
2.如权利要求1所述的方法,其特征在于,评测对象在功能评测的评测项为完备性及正确性评测;
基于环境条件集合的评测方法的步骤包括:
确定评测对象的环境条件集合;
从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据;
基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果。
3.如权利要求2所述的方法,其特征在于,从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据,包括:
通过评测对象在功能评测的评测数据的标签与环境条件集合中环境条件的相似度,选择符合环境条件集合的评测数据。
4.如权利要求2所述的方法,其特征在于,基于选择的评测数据,评测所述评测对象在环境条件集合中每种环境条件下的评测结果,包括:
对选择的评测数据进行定量分析,计算所述评测对象的功能指标值;
基于所述功能指标值和功能指标阈值,对所述评测对象进行定性分析,所述评测对象在环境条件集合中每种环境条件下的评测结果。
5.如权利要求1所述的方法,其特征在于,人工智能模型和人工智能算法在性能评测的评测项均包括吞吐量评测;
所述吞吐量的评测方法的步骤包括:
根据评测对象的推断数据量的推断时间比值,计算吞吐量,作为评测结果。
6.如权利要求1所述的方法,其特征在于,人工智能模型和人工智能算法在性能评测的评测项均包括资源消耗评测;
所述资源消耗评测的评测方法的步骤包括:
根据评测对象的评测数据,计算评测对象的多个性能指标值,性能指标包括CPU占用率、内存占用率、能耗占用率、磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数中的其中一种或任意组合;
根据多个性能指标值,确定评测结果。
7.如权利要求1所述的方法,其特征在于,人工智能模型和人工智能算法在性能评测的评测项均包括环境兼容性评测;
所述环境兼容性评测的评测方法的步骤包括:
分析评测对象能够正常运行的芯片,获得第一结果;
分析评测对象能够正常运行的操作系统,获得第二结果;
根据第一结果和第二结果,确定评测结果。
8.如权利要求1所述的方法,其特征在于,人工智能硬件在性能评测的评测项包括框架兼容性评测;
所述框架兼容性评测的评测方法的步骤包括:
将预定的深度学习框架在人工智能硬件上进行运行测试;
若运行测试结果为正常运行,确定评测结果为能够兼容该预定的深度学习框架。
9.如权利要求1所述的方法,其特征在于,人工智能硬件在性能评测的评测项包括算力评测,所述算力评测包括训练性能评测和推断性能评测;
所述训练性能评测的评测方法的步骤包括:
构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
使用指定的人工智能基准数据集和人工智能基准模型,在人工智能硬件上进行训练,在达到预设的训练质量目标后,记录训练所用时长,作为评测结果;
所述推断性能评测的评测方法的步骤包括:
构建人工智能任务,所述人工智能任务为语音识别任务、图像识别任务或文本识别任务;
使用指定的人工智能基准测试数据集和人工智能基准模型,在人工智能硬件上进行推断,记录推断时的吞吐量,作为评测结果。
10.如权利要求1所述的方法,其特征在于,评测对象在安全性评测的评测项包括外部攻击防御能力评测;外部攻击防御能力评测的子评测项包括对抗攻击评测;
对抗攻击评测的评测方法的步骤包括:
采用对抗攻击样本生成算法,根据评测对象的评测数据,生成具有对抗能力的对抗样本;
采用评测数据和对抗样本混编的数据集进行数据压力测试,获取评测数据推断准确率和对抗样本推断准确率;
根据评测数据推断准确率和对抗样本推断准确率,计算平均准确率损失率,作为评测结果。
11.如权利要求10所述的方法,其特征在于,外部攻击防御能力评测的子评测项包括伪造攻击评测;
伪造攻击评测的评测方法的步骤包括:
采用评测对象的伪造数据集,对评测对象进行数据压力测试,获取从伪造数据集中识别出的非活体数据,评测对象的伪造数据集包括评测对象对活体数据的伪造的非活体数据;
根据伪造数据集和识别出的非活体数据,计算平均准确率,作为评测结果。
12.如权利要求10所述的方法,其特征在于,外部攻击防御能力评测的子评测项包括成员推理攻击评测;
成员推理攻击评测的评测方法的步骤包括:
采用评测数据,对评测对象进行数据压力测试,获取评测对象对评测数据的推断结果;
根据所述推断结果,计算置信度得分;
根据推断结果和置信度得分,计算推理攻击指标,作为评测结果。
13.如权利要求10所述的方法,其特征在于,外部攻击防御能力评测的子评测项包括反演攻击评测;
反演攻击评测的评测方法的步骤包括:
通过评测对象对评测数据检测的推理输出信息进行检测,获得推理输出信息量和数据敏感信息量;
根据推理输出信息量和数据敏感信息量,计算冗余率,作为评测结果。
14.如权利要求1所述的方法,其特征在于,评测对象在安全性评测的评测项包括内部可解释性评测;
内部可解释性评测的评测方法的步骤包括:
基于SHAP方法,对评测对象进行解释性分析,获得多个token;
计算每一个token对评测对象的分类的影响,得到影响分类的正向特征、负向特征和正常特征,作为评测结果。
15.如权利要求1所述的方法,其特征在于,评测对象在安全性评测的评测项包括AI偏见评测;
AI偏见评测的评测方法的步骤包括:
采用评测数据,对评测对象进行数据压力测试,获取评测对象对评测数据的识别结果;
计算不同地区的评测数据识别的平均准确率;
根据不同地区的评测数据识别的平均准确率,确定评测对象的倾向检测区域,作为评测结果。
16.如权利要求1所述的方法,其特征在于,评测对象在安全性评测的评测项包括代码安全性评测,代码安全性评测的子评测项包括代码漏洞评测;
代码漏洞评测的评测方法的步骤包括:
对评测对象的代码进行扫描,记录漏洞信息,所述漏洞信息包括漏洞所在的代码行、漏洞风险级别漏洞详细描述、漏洞规范中的其中一种或任意组合;
根据漏洞信息,生成代码漏洞风险评级,作为评测数据。
17.如权利要求16所述的方法,其特征在于,代码安全性评测的子评测项包括代码依赖性评测;
代码依赖性评测的评测方法的步骤包括:
对评测对象的代码依赖的代码进行安全性检查,获得检查结果,作为评测结果。
18.如权利要求16所述的方法,其特征在于,代码安全性评测的子评测项包括代码规范性评测;
代码规范性评测的评测方法的步骤包括:
基于SQALE方法的质量模型,对评测对象的代码进行规范性检查,获得不规范代码行数和总代码行数;
根据不规范代码行数和总代码行数,计算技术负载率,作为评测结果。
19.如权利要求1所述的方法,其特征在于,还包括:
根据评测对象在每个评测维度的每个评测项的评测结果,生成评测报告,所述评测报告用于指导评测对象调优。
20.一种多维度人工智能产品评测装置,其特征在于,包括:
评测对象确定模块,用于确定人工智能产品的评测对象,所述评测对象包括人工智能模型、人工智能算法和人工智能硬件;
评测项确定模块,用于确定每个评测对象在每个评测维度的评测项,所述评测维度包括功能评测、性能评测和安全性评测;
评测模块,用于采集每个评测对象在每个评测维度的评测项的评测数据,按照每个评测项的评测方法,对该评测对象进行评测,获得该评测对象在该评测维度的该评测项的评测结果;
其中,评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。
21.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至19任一所述方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至19任一所述方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至19任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310687517.1A CN116483733A (zh) | 2023-06-12 | 2023-06-12 | 多维度人工智能产品评测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310687517.1A CN116483733A (zh) | 2023-06-12 | 2023-06-12 | 多维度人工智能产品评测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116483733A true CN116483733A (zh) | 2023-07-25 |
Family
ID=87227141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310687517.1A Pending CN116483733A (zh) | 2023-06-12 | 2023-06-12 | 多维度人工智能产品评测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116483733A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009164A (zh) * | 2023-08-15 | 2023-11-07 | 江苏流枢阁科技有限公司 | 一种面向人工智能解决方案评测的方法及装置 |
CN117608997A (zh) * | 2024-01-15 | 2024-02-27 | 阿里云计算有限公司 | 评测方法、分类评测方法、排序评测方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977647A (zh) * | 2017-12-20 | 2018-05-01 | 上海依图网络科技有限公司 | 一种适合公安实战的人脸识别算法评测方法 |
CN109558833A (zh) * | 2018-11-28 | 2019-04-02 | 厦门市巨龙信息科技有限公司 | 一种人脸识别算法评测方法以及装置 |
US20200274898A1 (en) * | 2017-11-14 | 2020-08-27 | Huawei Technologies Co., Ltd. | Method And Device For Defending Against Denial Of Service Attacks |
CN112256272A (zh) * | 2020-10-19 | 2021-01-22 | 四川长虹电器股份有限公司 | 检测源代码质量的方法、系统、计算机设备及存储介质 |
CN112464245A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 一种面向深度学习图像分类模型的泛化的安全性评估方法 |
CN112905494A (zh) * | 2021-05-07 | 2021-06-04 | 北京银联金卡科技有限公司 | 一种融合多维信息的人工智能测评方法及系统 |
CN114241587A (zh) * | 2022-02-23 | 2022-03-25 | 中国科学院自动化研究所 | 人脸活体检测对抗鲁棒性的评估方法及装置 |
CN115329326A (zh) * | 2022-07-07 | 2022-11-11 | 广州大学 | 一种人工智能安全评测方法及系统 |
CN115511056A (zh) * | 2022-09-30 | 2022-12-23 | 中国人民解放军军事科学院战略评估咨询中心 | 一种深度学习处理器性能测试与评价方法 |
CN115600199A (zh) * | 2022-09-28 | 2023-01-13 | 北京天融信网络安全技术有限公司(Cn) | 安全评估的方法、装置、电子设备及计算机可读存储介质 |
CN115830419A (zh) * | 2023-02-09 | 2023-03-21 | 数据堂(北京)科技股份有限公司 | 一种数据驱动式人工智能技术评测系统及方法 |
-
2023
- 2023-06-12 CN CN202310687517.1A patent/CN116483733A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200274898A1 (en) * | 2017-11-14 | 2020-08-27 | Huawei Technologies Co., Ltd. | Method And Device For Defending Against Denial Of Service Attacks |
CN107977647A (zh) * | 2017-12-20 | 2018-05-01 | 上海依图网络科技有限公司 | 一种适合公安实战的人脸识别算法评测方法 |
CN109558833A (zh) * | 2018-11-28 | 2019-04-02 | 厦门市巨龙信息科技有限公司 | 一种人脸识别算法评测方法以及装置 |
CN112256272A (zh) * | 2020-10-19 | 2021-01-22 | 四川长虹电器股份有限公司 | 检测源代码质量的方法、系统、计算机设备及存储介质 |
CN112464245A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 一种面向深度学习图像分类模型的泛化的安全性评估方法 |
CN112905494A (zh) * | 2021-05-07 | 2021-06-04 | 北京银联金卡科技有限公司 | 一种融合多维信息的人工智能测评方法及系统 |
CN114241587A (zh) * | 2022-02-23 | 2022-03-25 | 中国科学院自动化研究所 | 人脸活体检测对抗鲁棒性的评估方法及装置 |
CN115329326A (zh) * | 2022-07-07 | 2022-11-11 | 广州大学 | 一种人工智能安全评测方法及系统 |
CN115600199A (zh) * | 2022-09-28 | 2023-01-13 | 北京天融信网络安全技术有限公司(Cn) | 安全评估的方法、装置、电子设备及计算机可读存储介质 |
CN115511056A (zh) * | 2022-09-30 | 2022-12-23 | 中国人民解放军军事科学院战略评估咨询中心 | 一种深度学习处理器性能测试与评价方法 |
CN115830419A (zh) * | 2023-02-09 | 2023-03-21 | 数据堂(北京)科技股份有限公司 | 一种数据驱动式人工智能技术评测系统及方法 |
Non-Patent Citations (2)
Title |
---|
任延珍,刘晨雨,刘武洋,王丽娜;: "语音伪造及检测技术研究综述", 信号处理, vol. 37, no. 12, pages 2412 - 2439 * |
谭毓安;: "高度重视人工智能安全问题", 信息安全研究, vol. 8, no. 3, pages 311 - 313 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009164A (zh) * | 2023-08-15 | 2023-11-07 | 江苏流枢阁科技有限公司 | 一种面向人工智能解决方案评测的方法及装置 |
CN117608997A (zh) * | 2024-01-15 | 2024-02-27 | 阿里云计算有限公司 | 评测方法、分类评测方法、排序评测方法及装置 |
CN117608997B (zh) * | 2024-01-15 | 2024-04-30 | 阿里云计算有限公司 | 评测方法、分类评测方法、排序评测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113554089B (zh) | 一种图像分类对抗样本防御方法、系统及数据处理终端 | |
CN116483733A (zh) | 多维度人工智能产品评测方法及装置 | |
CN110851835A (zh) | 图像模型检测方法、装置、电子设备及存储介质 | |
CN111652290B (zh) | 一种对抗样本的检测方法及装置 | |
CN111626367A (zh) | 对抗样本检测方法、装置、设备及计算机可读存储介质 | |
US20220269796A1 (en) | Method and system for securely deploying an artificial intelligence model | |
CN111783853B (zh) | 一种基于可解释性的检测并恢复神经网络对抗样本方法 | |
CN111899251A (zh) | 一种区分伪造来源和目标区域的copy-move型伪造图像检测方法 | |
Saito et al. | Improving lime robustness with smarter locality sampling | |
CN113343247A (zh) | 生物特征识别对抗样本攻击安全测评方法、系统、装置、处理器及其计算机可读存储介质 | |
CN116311214A (zh) | 车牌识别方法和装置 | |
CN116823428A (zh) | 一种反欺诈检测方法、装置、设备及存储介质 | |
CN114419346B (zh) | 一种模型的鲁棒性检测方法、装置、设备及介质 | |
CN114241587A (zh) | 人脸活体检测对抗鲁棒性的评估方法及装置 | |
CN112818774A (zh) | 一种活体检测方法及装置 | |
CN116884149A (zh) | 多模态信息分析的方法、装置、电子设备和介质 | |
CN114510720A (zh) | 一种基于特征融合和NLP技术的Android恶意软件分类方法 | |
CN115578768A (zh) | 图像检测网络的训练方法、图像检测方法和系统 | |
CN114021136A (zh) | 针对人工智能模型的后门攻击防御系统 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN113255757B (zh) | 基于激活值分布差异的对抗样本检测方法及系统 | |
CN113506272B (zh) | 一种虚假视频的检测方法及系统 | |
CN114092743B (zh) | 敏感图片的合规性检测方法、装置、存储介质及设备 | |
KR102451552B1 (ko) | 딥 러닝 기반의 콘텐츠의 진위를 판단하기 위한 콘텐츠 분석 시스템 | |
CN116958673A (zh) | 对抗样本检测方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230725 |
|
RJ01 | Rejection of invention patent application after publication |