CN110163376A - 样本检测方法、媒体对象的识别方法、装置、终端及介质 - Google Patents

样本检测方法、媒体对象的识别方法、装置、终端及介质 Download PDF

Info

Publication number
CN110163376A
CN110163376A CN201810562934.2A CN201810562934A CN110163376A CN 110163376 A CN110163376 A CN 110163376A CN 201810562934 A CN201810562934 A CN 201810562934A CN 110163376 A CN110163376 A CN 110163376A
Authority
CN
China
Prior art keywords
sample
label
initial data
prediction label
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810562934.2A
Other languages
English (en)
Other versions
CN110163376B (zh
Inventor
王兴光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810562934.2A priority Critical patent/CN110163376B/zh
Publication of CN110163376A publication Critical patent/CN110163376A/zh
Application granted granted Critical
Publication of CN110163376B publication Critical patent/CN110163376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种样本检测方法、媒体对象的识别方法、装置、终端及介质,其中样本检测方法包括:获取目标测试样本的原始数据、所述原始数据的标注标签及预测标签;对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据;对所述扰动数据进行标签预测处理得到预测标签集合;根据所述原始数据的标注标签和预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型,可提高样本类型检测的准确率。

Description

样本检测方法、媒体对象的识别方法、装置、终端及介质
技术领域
本发明涉及互联网技术领域,具体涉及人工智能技术领域,尤其涉及一种样本检测方法、一种样本检测装置、一种媒体对象的识别方法、一种媒体对象的识别装置、一种终端及一种计算机存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,人工智能算法是指一种模仿和学习人类行为的算法,应用于机器学习(Machine Learning,ML)中。所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,可以研究计算机如何模拟或实现人类的学习行为以获取新的知识或技能,重新组织已有的知识结构以不断改善自身的性能。机器学习可以基于样本进行学习,并根据学习结果对人工智能算法进行更新,以得到性能完善的人工智能算法。
在机器学习的过程中,如果能检测出测试样本中的错误样本,并对错误样本进行重新标注,对于提升机器学习的效果有着极为重要的作用。实践表明,目前的机器学习进行样本类型检测的准确性较低,容易忽略潜在错误样本,导致人工智能算法的性能不能得到有效的提升。
发明内容
本发明实施例提供了一种样本检测方法、媒体对象的识别方法、装置、终端及介质,可提高样本类型检测的准确率,有助于提升人工智能算法的性能。
一方面,本发明实施例提供了一种样本检测方法,包括:
获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
另一方面,本发明实施例提供了一种媒体对象的识别方法,包括:
获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用上述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
再一方面,本发明实施例提供了一种样本检测装置,包括:
获取单元,用于获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
处理单元,用于对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
预测单元,用于对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
检测单元,用于根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
再一方面,本发明实施例提供了一种媒体对象的识别装置,包括:
获取单元,用于获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
标注单元,用于采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用上述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
查询单元,用于根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
再一方面,本发明实施例提供了一种终端,该终端包括输入设备和输出设备,所述终端还包括:
处理器,适于实现一条或一条以上指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由所述处理器加载并执行如下步骤:
获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由所述处理器加载并执行如下步骤:
获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用上述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由处理器加载并执行如下步骤:
获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如下步骤:
获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用上述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
本发明实施例可以获取目标测试样本的原始数据的标注标签和预测标签,以及获取预测标签集合,该预测标签集合包含对原始数据进行扰动处理得到的扰动数据的预测标签,通过所获得的目标测试样本的原始数据的标注标签、原始数据的预测标签及预测标签集合来检测目标测试样本的样本类型;这个样本检测过程从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率,有助于提升人工智能算法的性能。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种样本检测方法的流程示意图;
图2为本发明另一实施例提供的一种样本检测方法的流程示意图;
图3为本发明实施例提供的一种媒体对象的识别方法的流程示意图;
图4是本发明实施例提供的一种媒体对象的识别方法的应用场景图;
图5是本发明实施例提供的一种样本检测装置的结构示意图;
图6是本发明实施例提供的一种媒体对象的识别装置的结构示意图;
图7是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
标签是用来描述样本的某个或某些属性的关键字词,此处的属性可包括类别属性,例如:某歌曲样本包括“流行”标签,表明这首歌曲属于流行音乐类别的歌曲;又如:某图像样本包括“动漫”标签,表明这幅图像属于动漫类别的图像,等等。属性还可包括情感属性,例如:某歌曲样本包括“伤感”标签,表明这首歌曲表达的情感较为伤感;或某文字样本包括“兴奋”标签,表明该文字样本表达的情感为兴奋。样本获得标签的方式可以包括以下两种:一种方式为人工标注,即由标注人员手动为样本标注一个或多个标签,这种方式所获得的标签称为标注标签;另一种方式为自动标注,即采用人工智能算法基于机器学习自动为样本预测一个或多个标签,这种方式获得的标签称为预测标签。标注标签和预测标签可以一致,也可以不一致,例如:标注人员为某歌曲样本人工标注了“高兴”标签,那么该歌曲样本的标注标签为“高兴”;采用人工智能算法为该歌曲样本预测得到“高兴”标签,那么该歌曲样本的预测标签也为“高兴”,此时标注标签和预测标签一致;然而,如果采用人工智能算法为该歌曲样本预测得到“兴奋”标签,则该歌曲样本的预测标签为“兴奋”,此时标注标签和预测标签不一致。
本发明实施例中,样本的标注标签和预测标签相等是指:样本的标注标签与预测标签的数量相等,并且该样本的所有标注标签与所有预测标签均一致;例如,某歌曲样本的标注标签为“欢快”、“流行”、“说唱”,该歌曲样本的预测标签也为“欢快”、“流行”、“说唱”,此时该歌曲样本的标注标签和预测标签相等。反之,样本的标注标签和预测标签不相等是指:样本的标注标签与预测标签的数量不相等,或者虽然样本的标注标签与预测标签的数量相等,但该样本存在不一致的标注标签和预测标签;例如:某歌曲样本的标注标签为“欢快”、“流行”、“说唱”,该歌曲样本的预测标签为“欢快”、“流行”,此时该歌曲样本的标注标签与预测标签的数量不等,所以该歌曲样本的标注标签与预测标签不相等;或者又如在上述例子中:设该歌曲样本的预测标签为“兴奋”、“流行”、“说唱”,此时虽然该歌曲样本的标注标签与预测标签的数量相等,但是标注标签中存在“欢快”这个标注标签与预测标签中的“兴奋”不一致,则此时该歌曲样本的标注标签与预测标签不相等。
样本是机器学习的基础,在人工智能领域中,基于样本集中的大量样本进行机器学习从而可实现人工智能算法的更新及性能完善。在诸多人工智能算法中,基于神经网络的深度学习方法应用较为广泛;深度学习方法有着极强的数据拟合能力;这是深度学习方法相对于传统的机器学习方法的一个优势,但这使得深度学习方式更加依赖样本数据的质量,换句话说,深度学习方式对错误样本更加敏感,若某样本为错误样本,并且如果在深度学习过程时没有检测出该错误样本,那么会导致基于该错误样本进行学习后得到的学习结果出现错误;在根据该错误的学习结果对人工智能算法进行更新后,会导致更新后的人工智能算法的稳定性较差。基于此,在机器学习过程中,尤其是基于神经网络的深度学习过程中,通常会采用主动学习(Active Learning)来提升机器学习的效果,使得更新后的人工智能算法的性能更完善,稳定性更强。此处的主动学习是指在机器学习过程中自动发现错误样本,并重新标注错误样本的过程。
产生错误样本的问题类型具体可参见如下表1:
表1
针对任一样本,上述表1解读如下:
(1)在标注标签正确的前提下,如果标注标签与预测标签相等,则认为无错误,该样本属于正确样本;如果标注标签与预测标签不相等,该样本属于错误样本,并且错误样本的出现是由于第一类错误问题而导致的。第一类错误问题是指由于人工智能算法本身的误差导致预测标签出现错误,从而导致标注标签与预测标签不相等。
(2)在标注标签错误的前提下,如果标注标签与预测标签相等,该样本属于错误样本,并且错误样本的出现是由于第二类错误问题导致的。此第二类错误问题是指多点标注错误。多点标注错误是指存在多个样本,这多个样本中各样本均包含错误的标注标签,且这多个样本包含的错误的标注标签极为相似;这多个样本均匀分布在了训练样本集和测试样本集中。由于人工智能算法具有较强的数据拟合能力,因此人工智能算法基于训练样本集进行学习的过程中会自动将训练样本集中的这些样本的错误的标注标签拟合成正确的标注标签,这就无法发现此类包含错误的标注标签的样本;后续在采用基于训练样本集学习后的人工智能算法对测试样本集中具备相似的错误的标注标签的样本进行预测时,会拟合得到与错误的标注标签相等的预测标签。
(3)在标注标签错误的前提下,如果标注标签与预测标签不相等,该样本属于错误样本,并且错误样本的出现是由于第三类错误问题导致的。此第三类错误问题是指单点标注错误。单点标注错误是指包含错误的标注标签的样本存在训练样本集中或者测试样本集中。在此情况下,由于包含错误的标注标签的样本只存在一个样本集中,因此,人工智能算法在对样本进行预测时,很容易发现预测标签和标注标签不相等。
目前,在主动学习的过程中,在进行样本检测时,通常采用判断预测标签和标注标签是否相等的方式来检测测试样本的样本类型,从而自动发现错误样本。若测试样本的预测标签与标注标签相等,则认为该测试样本为正确样本。若测试样本的预测标签与标注标签不相等,则认为该测试样本为错误样本。在检测到错误样本之后,直接将此错误样本发送至标注人员以使得标注人员对错误样本的标注标签进行重新标注。通过上述表1可知,错误样本出现可能是由于多种问题所导致的,上述现有的样本检测方法仅能够较为粗略地划分出正确样本或错误样本,并不能定位到产生错误样本的问题类型,也可能会忽略到潜在错误样本,更无法依据不同的问题类型而出现的错误样本进行针对性的标注处理,这样降低了样本检测的准确率,同时也可能增加对错误样本的标注成本。
基于此,本发明实施例提出了一种样本检测方案:首先,可以获取目标测试样本的原始数据、该原始数据的标注标签以及该原始数据的预测标签;此处的目标测试样本可以包括但不限于:文本样本、图像样本、音视频样本等等。原始数据是指未对目标测试样本的数据特征进行改变的样本数据,即是从样本集中直接读取到的目标测试样本的数据。可以理解的是,本发明实施例所述的样本的标注标签是指样本的原始数据的标注标签;样本的预测标签是指样本的原始数据的预测标签。其次,可以对原始数据进行扰动处理得到目标测试样本的扰动数据,此处的扰动处理是指改变原始数据的数据特征的处理,扰动数据的数据特征与原始数据的数据特征不同,扰动数据的数量可以为一个或者多个;对扰动数据进行标签预测处理可以得到扰动数据的预测标签,并将包括扰动数据的预测标签的集合作为预测标签集合;最后,可以根据原始数据的标注标签、原始数据的预测标签、以及预测标签集合确定目标测试样本的样本类型;此处的样本类型可包括正确样本和错误样本,由上述表1可知,当标注标签正确且标注标签与预测标签相等时确定样本类型为正确样本,此时样本的标签(标注标签或预测标签)能够准确地反映该样本的属性,因此正确样本是指标签不存在描述错误且能准确反映属性的样本。当标注标签有误时,和/或当标注标签正确但标注标签与预测标签不相等时确定样本类型为错误样本,此时标签(标注标签或预测标签)无法准确地反映样本的属性,因此错误样本是指标签存在描述错误而无法准确反映属性的样本。进一步的,依据错误样本产生的问题类型可将错误样本分为对抗样本、边界样本和伪对抗样本。进一步,在本发明实施例中,在检测到目标测试样本为错误样本之后,还可根据目标测试样本的所属的具体的错误样本类型确定对应的目标标注人员(普通标注人员、标注专家等),并将此目标测试样本发送至该对应的目标标注人员进行标注标签的重新标注。
本发明实施例所提出的样本检测方案至少具有如下优点:①从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率;②可以根据错误样本出现的不同问题类型细分错误样本的类型,并且有针对性的对不同类型的错误样本区别性地进行标注标签的重新标注处理,可有效节省标注成本。
基于上述描述,本发明实施例提出一种样本检测方法,请参见图1,该样本检测方法可由终端来执行,所述终端可以是智能手机、膝上型计算机或平板计算机等便携式设备,以及台式计算机等等;该样本检测方法还可以由人工智能产品来执行,所述人工智能产品可以是智能音响、智能机器人、智能手表等需要对媒体对象进行识别的产品;该样本检测方法也可以由服务器来执行,服务器可通过此样本检测方法查找出海量训练样本中的错误样本,所述服务器可以是用于检测样本类型的服务器,也可以是数据处理服务器、web服务器等等;服务器可以是一个独立的服务设备,也可以是由多个服务设备共同构成的集群设备。本发明实施例以终端执行该样本检测方法为例,该样本检测方法可包括以下步骤S101-S104:
S101,获取目标测试样本的原始数据、原始数据的标注标签及原始数据的预测标签。
在进行机器学习时,可以采用样本集对机器学习过程中涉及到的人工智能算法进行训练和测试。该样本集可包括训练样本集和测试样本集,其中,训练样本集中的训练样本用于训练人工智能算法,测试样本集中的测试样本用于对训练后的人工智能算法进行性能测试。在采用训练样本集对人工智能算法进行训练后,可以得到训练后的人工智能算法。在得到训练后的人工智能算法之后,通常会采用测试样本集对其进行性能测试,以判断该训练后的人工智能算法是否具有完善的性能,此处的完善的性能可以包括准确预测出测试样本的预测标签的能力。
本发明实施例中的目标测试样本是指测试样本集中的任意一个测试样本,在获取到测试样本集之后,可以从测试样本集中选取任意一个测试样本作为目标测试样本。并从测试样本集中直接获取该目标测试样本的原始数据,此处的原始数据是指未对目标测试样本的数据特征进行改变的样本数据,即是从样本集中直接读取到的目标测试样本的数据;可以采用人工标注的方式为原始数据进行标签标注,得到原始数据的标注标签;并可以采用自动标注的方式为原始数据进行标签预测,得到原始数据的预测标签。原始数据的标注标签和预测标签均可以是一个或者多个。
S102,对原始数据进行扰动处理得到目标测试样本的扰动数据,扰动数据的数量为一个或者多个。
由上述表1可知,导致标签标注错误的问题大致分为了三类错误问题,其中第一类错误问题和第三类错误问题很容易被检测出,而第二类错误问题常常容易被忽略掉。而第二类错误问题是由多点标注错误引起的,即存在多个样本,这多个样本中各样本均包含错误的标注标签,且这多个样本包含的错误的标注标签极为相似;这多个样本均匀分布在了训练样本集和测试样本集中。若目标测试样本是这多个样本中的一个,那么在采用基于此训练样本集学习后的人工智能算法对其进行预测时,会拟合得到与该错误的标注标签相等的预测标签,此时的目标测试样本的标注标签与预测标签相等,容易将此目标测试样本认为是正确样本,但该目标测试样本实际上是错误样本。因此,本发明实施例提出了数据扰动机制,通过对原始数据进行扰动处理,可以使得原始数据的数据特征发生变化,使得跟训练样本集中的训练样本的数据特征不一样,从而使得引起第二类错误问题的前提(多点标注错误)不成立,进而可以提高第二类错误问题的发现概率。尤其当目标测试样本为数据长度较短的训练样本时,对此目标测试样本的原始数据进行扰动处理,可以使得原始数据的数据特征发生较大的变化,此处的数据长度较短的训练样本可以是简短的语音,内容简单的小图片等等。
对原始数据进行扰动处理可以得到一个或多个扰动数据,例如:目标测试样本为一段音乐,该音乐的数据特征包括音调、音色两个数据特征。在对该音乐进行数据扰动时,可以降低该音乐的音调,得到一个扰动数据;也可以升高该音乐的音调,得到另一个扰动数据;还可以改变该音乐的音色,得到另一个扰动数据;还可以在该音乐的音色的基础上,增加一个音色,得到另一个扰动数据,等等。本发明实施例通过在样本检测过程中加入数据扰动机制,可以以更高的概率发现预测标签和标注标签相等的潜在错误样本,提高了样本类型检测的准确性。
S103,对扰动数据进行标签预测处理得到预测标签集合,预测标签集合中包含扰动数据的预测标签。
S104,根据原始数据的标注标签、原始数据的预测标签、以及预测标签集合检测目标测试样本的样本类型。
在主动学习过程中,检测到错误样本后,需要将错误样本发送给标注对象,以使得标注对象对该错误样本进行标注标签的重新标注,此处的标注对象可以是普通标注人员、标注专家,等等。对于错误样本来说,有的错误样本只需要浅层的标注知识即可对此类错误样本进行标注,此类错误样本可根据实际情况分为对抗样本或者伪对抗样本。而有的错误样本的边界比较模糊,很难确定其样本类型,此类错误样本则需要深层的、更专业的标注知识对其进行标注,此类错误样本可称为边界样本。
在一种实施方式中,本发明实施例将样本类型分为了正确样本和错误样本。在一种实施方式中,本发明实施例可以根据错误样本的预测标签受数据扰动的影响程度进一步将错误样本分为对抗样本、边界样本和伪对抗样本。其中,对抗样本属于标注标签错误的样本,对其进行数据扰动,不会改变其预测标签;边界样本属于模糊样本,轻微的数据扰动可能会改变其预测标签;伪对抗样本属于对抗样本和边界样本的结合,其预测标签与标注标签无关联。发现对抗样本并准确标注,可以提升人工智能算法的稳定性,降低错误样本对寻找分类边界轮廓的干扰;发现边界样本和伪对抗样本并准确标注,可以进一步提高人工智能算法的分类效果,帮助人工智能算法更加准确地发现不同分类类别间的更细粒度的分类边界。
再一种实施方式中,还可以根据错误样本所需的标注知识的知识领域的数量,将错误样本分为多个等级的错误样本。错误样本所需的标注知识的知识领域的数量越多,其等级越高。例如,如表2所示,可以将错误样本分为A级、B级和C级,且等级从低到高依次为:A级<B级<C级。
表2
错误样本的等级 所需标注知识的知识领域的数量
A级 1个
B级 2个
C级 3个
本发明实施例可以获取目标测试样本的原始数据的标注标签和预测标签,以及获取预测标签集合,该预测标签集合包含对原始数据进行扰动处理得到的扰动数据的预测标签,通过所获得的目标测试样本的原始数据的标注标签、原始数据的预测标签及预测标签集合来检测目标测试样本的样本类型;这个样本检测过程从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率,有助于提升人工智能算法的性能。
基于上述描述,本发明实施例还提出一种样本检测方法,请参见图2。该样本检测方法可以应用于任何模型(如基于神经网络的深度学习模型、基于神经网络的浅度学习模型、传统的学习模型,等等)中,这些模型可被上述实施例所提及的终端调用以执行该样本检测方法,也可被上述实施例所提及的人工智能产品调用以执行该样本检测方法;该样本检测方法可以应用于人工智能算法的训练样本的数据清洗任务,通过此样本检测方法可以准确检测出对抗样本、伪对抗样本以及边界样本等错误样本,由标注对象对错误样本进行数据清洗,此处的数据清洗是指:对错误样本的标注标签进行重新标注。该样本检测方法可包括以下步骤S201-S206:
S201,获取目标测试样本的原始数据、原始数据的标注标签及原始数据的预测标签。
在一种实施方式中,获取目标测试样本的原始数据、原始数据的标注标签及原始数据的预测标签的具体步骤可以包括s11-s14:
s11,获取人工智能算法的样本集,样本集包括训练样本集和测试样本集。
s12,从测试样本集中选取任意一个测试样本作为目标测试样本,并获取目标测试样本的原始数据及原始数据的标注标签。
s13,采用测试样本集和训练样本集对人工智能算法进行训练。
s14基于训练后的人工智能算法对目标测试样本的原始数据进行标签预测处理得到原始数据的预测标签。
其中,s11在获取人工智能算法的样本集之后,可以将此样本集随机划分为N个样本子集{d1,d2,d3,…,dN},采用K-折交叉查找算法从N个样本子集中确定测试样本集和训练样本集,N为正整数。具体的,可以获取K-折交叉查找算法的预设比例,根据此预设比例从N个样本子集中确定测试样本集和训练样本集。例如,获取到的样本集为Dsample,N等于10,则可以将Dsample随机划分为10个样本子集{d1,d2,d3,d4,d5,d6,d7,d8,d9,d10}。获取到K-折交叉查找算法的预设比例为9:1,则可以从10个样本子集中选取第n个子集作为测试样本集,将其余的样本子集作为训练样本集,n∈N。例如,n等于3,则将d3作为测试样本集,将这10个样本子集中除了d3以外的样本子集作为训练样本集。
在一种实施方式中,s11在获取到人工智能算法的样本集之后,还可以采用自测方法从样本集中确定测试样本集和训练样本集,所谓的自测方法为:将样本集全部作为训练样本集,并将样本集全部作为测试样本集。
S202,对原始数据进行扰动处理得到目标测试样本的扰动数据,扰动数据的数量为一个或者多个。
由前述可知,扰动处理可以是指改变原始数据的数据特征的处理。因此,对原始数据进行扰动处理,可以改变原始数据的数据特征。在一种实施方式中,扰动处理可以是指对原始数据的数据特征进行删除处理、修改处理或者增加处理。本发明实施例可以对原始数据进行一次或多次扰动处理,每次可以对原始数据的数据特征进行删除处理、修改处理或者增加处理中的一种或多种处理。在一种实施方式中,每次对原始数据进行扰动处理时,可以对原始数据的数据特征进行删除处理、修改处理或者增加处理中的任意一种处理,只改变原始数据的一个数据特征,得到扰动数据。在对原始数据进行多次扰动处理后,可以得到多个扰动数据。在一种实施方式中,这些扰动数据相互之间不重复。再一种实施方式中,每次对原始数据进行扰动处理时,也可以对原始数据的数据特征进行删除处理、修改处理或者增加处理中的至少两种处理,可以每次改变原始数据的多个数据特征。
S203,对扰动数据进行标签预测处理得到预测标签集合,预测标签集合中包含扰动数据的预测标签。
S204,判断原始数据的标注标签与原始数据的预测标签是否相等。
S205,若相等,则检测原始数据的预测标签与预测标签集合之间的匹配关系,根据匹配关系确定目标测试样本的样本类型。
由上述表1可知,若原始数据的标注标签等于原始数据的预测标签,则该目标测试样本可能是正确样本,也可能是错误样本,因此需要获取原始数据的预测标签和预测标签集合之间的匹配关系,根据匹配关系来进一步确定目标测试样本的样本类型。
在一种实施方式中,该匹配关系可以包括第一匹配关系或第二匹配关系。其中,第一匹配关系为:预测标签集合中包含的扰动数据的预测标签与原始数据的预测标签全部相等;第二匹配关系为:预测标签集合中存在预设数量的扰动数据的预测标签与原始数据的预测标签不相等。在一种实施方式中,在判断预测标签集合中是否存在预设数量的扰动数据的预测标签和原始数据的预测标签不相等时,可以获取与原始数据的预测标签不相等的扰动数据的预测标签在预测标签集合中出现的预测次数,若出现的预测次数大于预设次数,则认为存在预设数量的扰动数据的预测标签与原始数据的预测标签不相等。
再一种实施方式中,在判断预测标签集合中是否存在预设数量的扰动数据的预测标签和原始数据的预测标签不相等时,可以获取与原始数据的预测标签不相等的扰动数据的预测标签的预测比率,若所述预测比率大于预设阈值,则认为存在预设数量的扰动数据的预测标签与原始数据的预测标签不相等。此处的预测比率等于与原始数据的预测标签不相等的扰动数据的预测标签在预测标签集合中出现的预测次数与预测标签集合中的标签总数的比值;此处的预设阈值可以是根据经验值确定的,也可以是通过扰动次数确定的,具体关系可以是:预设阈值大于或等于扰动次数的一半。
由上述可知,对边界样本进行轻微的扰动处理,则可能会改变其预测标签,使得扰动数据的预测标签不等于原始数据的预测标签。因此,若目标测试样本为边界样本,则预测标签集合中存在预设数量的扰动数据的预测标签与原始数据的预测标签不相等。基于此,根据匹配关系确定目标测试样本的样本类型的具体实施方式可以是:若匹配关系为第一匹配关系,则确定目标测试样本的样本类型为正确样本;若匹配关系为第二匹配关系,则确定目标测试样本的样本类型为边界样本。
S206,若不相等,则检测原始数据的标注标签、原始数据的预测标签以及预测标签集合之间的对应关系,根据对应关系确定目标测试样本的样本类型。
由上述表1可知,若原始数据的标注标签不等于原始数据的预测标签,则该目标测试样本为错误样本,错误样本可分为对抗样本、伪对抗样本以及边界样本。因此需要获取原始数据的标注标签、原始数据的预测标签以及预测标签集合之间的对应关系,根据对应关系来进一步确定目标测试样本的样本类型。
由于人工智能算法的本身存在随机性,所以当预测标签集合中存在少量的标注标签时,结果可能不可靠,因此需要判断预测标签集合中是否存在预设数量的扰动数据与原始数据的标注标签相等。在一种实施方式中,在判断预测标签集合中是否存在预设数量的扰动数据的预测标签和原始数据的标注标签相等时,可以根据与原始数据的标注标签相等的扰动数据的预测标签在预测标签集合中出现的预测次数或者预测比率来判断。
基于此,该对应关系可以包括第一对应关系、第二对应关系或者第三对应关系。其中,第一对应关系为:预测标签集合中包含的扰动数据的预测标签与原始数据的预测标签全部相等;第二对应关系为:预测标签集合中存在扰动数据的预测标签与原始数据的预测标签相等,且预测标签集合中包含的扰动数据的预测标签与原始数据的标注标签不相等;第三对应关系为:预测标签集合中存在扰动数据的预测标签与原始数据的预测标签相等,且预测标签集合中存在预设数量的扰动数据的预测标签与原始数据的标注标签相等。
由上述可知,对对抗样本进行扰动处理,不会改变其预测标签,因此,若目标测试样本为对抗样本,则预测标签集合中包含的扰动数据的预测标签应该与原始数据的预测标签全部相等。而对边界样本进行轻微的扰动处理,则可能会改变其预测标签,使得扰动数据的预测标签与标注标签相同;也可能不会改变其预测标签,即扰动数据的预测标签仍与原始数据的预测标签相等。因此,若目标测试样本为边界样本,则预测标签集合中应该存在扰动数据的预测标签与原始数据的预测标签相等,且预测标签集合中存在预设数量的扰动数据的预测标签与原始数据的标注标签相等。而对于伪对抗样本来说,伪对抗样本属于对抗样本和边界样本的结合,其预测标签与标注标签无关联。对伪对抗样本进行扰动处理,则可能不会改变其预测标签,即扰动数据的预测标签仍与原始数据的预测标签相等;也可能会改变其预测标签,但扰动数据的预测标签与标注标签无关联,即扰动数据的预测标签与标注标签不相同。因此,若目标测试样本为伪对抗样本,则预测标签集合中存在扰动数据的预测标签与原始数据的预测标签相等,且预测标签集合中包含的扰动数据的预测标签与原始数据的标注标签不相等。
基于此,根据对应关系确定目标测试样本的样本类型的具体实施方式可以是:若对应关系为第一对应关系,则确定目标测试样本的样本类型为对抗样本;若对应关系为第二对应关系,则确定目标测试样本的样本类型为伪对抗样本;若对应关系为第三对应关系,则确定目标测试样本的样本类型为边界样本。
在一种实施方式中,若目标测试样本为伪对抗样本,则说明目标测试样本的原始数据的预测标签和标注标签不相等。经实践表明,导致此问题的原因有两种:①训练样本集中不存在与目标测试样本相同类别的训练样本,导致训练后的人工智能算法无法对目标测试样本进行标签预测处理,从而导致预测得到的预测标签可能与标注标签不相等;②目标测试样本的标注标签是错误的,采用训练后的人工智能算法对目标测试样本进行标签预测处理得到的预测标签是正确的,从而导致标注标签与预测标签不相等。若是因为不存在相同类别的训练样本导致的,则可以输出提示信息,以提示在训练样本集中添加与目标测试样本相同类别的训练样本;若是因为标注标签错误导致的,则该目标测试样本的标注标签更需要被重新标注,因为错误的标注标签不仅会影响标注标签的类别,还会对预测标签集合中的某些预测标注的类别造成影响。
基于此,在一种实施方式中,可以设置错误样本包括的三种错误样本类型的优先级,这三种错误样本类型的优先级从高到低可以是:伪对抗样本>边界样本>对抗样本。本发明实施例的实践表明,当样本集中的样本数量足够多时,删除一定数量的对抗样本并不会对分类边界造成明显变动。而由于伪对抗样本和边界样本对定义分类边界的细节具有非常大的作用,因此,伪对抗样本和边界样本需要标注。因此,在一种实施方式中,当标注对象的数量有限时,可以采用将对抗样本直接删除的策略。再一种实施方式中,这三种错误样本类型的优先级从高到低还可以是:边界样本>伪对抗样本>对抗样本。
在一种实施方式中,在确定了目标测试样本的样本类型之后,可以判断该目标测试样本的样本类型是否为错误样本。若目标测试样本的样本类型为错误样本,则根据目标测试样本的样本类型确定目标标注对象,此处的目标标注对象可以是标注人员。在确定目标标注对象之后,可以将目标测试样本的原始数据发送至该目标标注对象,以使该目标标注对象修改原始数据的标注标签;根据原始数据的标注标签的修改,更新人工智能算法的样本集;基于更新的样本集对人工智能算法进行更新。在一种实施方式中,对原始数据的标注标签进行修改后,将修改后的原始数据的标注标签替换原样本集中的目标测试样本的原始数据的标注标签,以更新人工智能算法的样本集。在一种实施方式中,可重复执行S201-S206的步骤和修改原始数据的标注标签的步骤,以不断更新人工智能算法的样本集,并基于更新后的样本集对人工智能算法进行更新,得到性能完善,可以准确预测得到预测标签的人工智能算法。
由于在修改错误样本的标注标签时,需要的标注知识越多或者越专业,则标注费用就会越高。本发明实施例通过将错误样本进一步分为对抗样本、伪对抗样本以及边界样本,并根据目标测试样本的样本类型确定目标标注对象。可以将不同样本类型的错误样本发送至不同标注费用的标注对象进行标注标签的重新标注(即修改),可以进一步降低标注成本。
本发明实施例可以获取目标测试样本的原始数据的标注标签和预测标签,以及获取预测标签集合,该预测标签集合包含对原始数据进行扰动处理得到的扰动数据的预测标签,通过所获得的目标测试样本的原始数据的标注标签、原始数据的预测标签及预测标签集合来检测目标测试样本的样本类型;这个样本检测过程从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率,有助于提升人工智能算法的性能。
基于上述实施例的描述,本发明实施例提出了一种媒体对象的识别方法,请参见图3。该媒体对象的识别方法可由上述方法实施例所提及的终端、人工智能产品或者服务器执行。如图3所示,该媒体对象的识别方法可包括以下步骤S301-S303:
S301,获取待识别的媒体对象。
在一种实施方式中,媒体对象可以包括以下任一种:文本、图像、音视频。其中,音视频可以包括音乐、语音、视频等等。
S302,采用人工智能算法为媒体对象标注标签,此人工智能算法的样本集采用图1或图2所示的样本检测方法的实施例进行样本检测处理,此人工智能算法基于处理后的样本集进行更新。
在一种实施方式中,该人工智能算法可以是应用于文本识别的人工智能算法,也可以是应用于图像识别的人工智能算法,还可以是应用于音视频识别的人工智能算法,等等。
在采用人工智能算法为媒体对象标注标签之前,可以采用样本集对人工智能算法进行训练,不断更新人工智能算法的性能。由于样本集中可能存在错误样本,该错误样本可能导致训练得到的人工智能算法的性能较差,因此本发明实施例可以采用如图1或图2所示的样本检测方法的实施例进行样本检测处理。通过如图1或图2所示的样本检测方法的实施例,可以准确检测出错误样本,并将检测出的错误样本发送至标注对象,以使得标注对象对错误样本的标注标签进行重新标注。并用重新标注后的标注标签更新样本集,使得更新后的样本集不再存在错误样本。并可以采用更新后的样本集对人工智能算法进行更新,使得人工智能算法不断改善自身性能,得到性能完善的人工智能算法。采用性能完善的人工智能算法为媒体对象标注标签,可以得到媒体对象的准确的标签。
S303,根据媒体对象的标签从媒体数据库中查询该媒体对象的识别信息。
由于媒体数据库可以预先存储大量的媒体,且这些媒体均具有标注标签,因此在得到媒体对象的标签之后,可以将媒体对象的标签与媒体数据库中的媒体的标注标签进行匹配,以查询得到该媒体对象的识别信息。在一种实施方式中,该媒体对象的识别信息可以包括但不限于:媒体对象的名称、媒体对象的类别等等;例如,媒体对象为歌曲,则识别信息可以包括该歌曲的歌名、歌曲发行时间、歌曲的类别属性以及歌曲的情感属性,等等。又例如,媒体对象为图像,则识别信息可以包括该图像的名称、图像的来源、图像的类别属性以及图像的作者,等等。在一种实施方式中,在查询到该媒体对象的识别信息之后,还可以输出此媒体对象的识别信息。在一种实施方式中,输出此媒体对象的识别信息的具体方式可以是:在终端的用户界面显示媒体对象的识别信息;和/或以语音的方式输出媒体对象的识别信息。
如图4所示,以智能音响为例。用户听到一段歌曲之后,若想要知道这段歌曲的名称等信息,则可以向智能音响输入这段歌曲。例如,用户可以在手机终端播放这一段歌曲,智能音响可以接收到此段歌曲。智能音响在接收到这段歌曲之后,可以采用人工智能算法为这段歌曲标注标签。并可以将这段歌曲的标签与媒体数据库中的媒体的标注标签进行匹配,确定出该歌曲的名称等识别信息,并输出该识别信息以告知用户歌曲的名称。智能音响在输出该识别信息以告知用户歌曲的名称时,还可以为用户播放该歌曲的完整版本。智能音响在为这段歌曲标注标签之后,确定这段歌曲的标签为“快乐”,还可以将媒体数据库中标签为“快乐”的歌曲推送给用户。
在一种实施方式中,在获取到媒体对象的标签后,还可以根据媒体对象的标签在媒体数据库中查询与该媒体对象相同或相似类别的目标媒体对象,并输出该目标媒体对象,以向用户推送此目标媒体对象。例如,待识别的媒体对象是一首歌曲,获取到的该媒体对象的标签为“高兴”,那么终端还可以在媒体数据库中查找到标签为“高兴”的目标歌曲,并将输出该目标歌曲以向用户推送该目标歌曲。输出的方式可以是在用户界面显示该目标歌曲的相关信息,如名称;也可以是在用户播放歌曲的时候,自动播放该目标歌曲,等等。
本发明实施例在获取到待识别的媒体对象之后,可以采用人工智能算法为此媒体对象标注标签,并根据媒体对象的标签从媒体数据库中查找到媒体对象的识别信息。由于该人工智能算法的样本集是基于图1或图2所示的样本检测方法进行样本检测处理,该人工智能算法基于处理后的样本集进行更新的,因此该人工智能算法的性能完善,可以较准确地得到媒体对象的标签,从而准确地确定出媒体对象的识别信息,可提高用户体验。
基于上述样本检测方法实施例的描述,本发明实施例还公开了一种样本检测装置,该样本检测装置可以是运行于终端中的一个计算机程序(包括程序代码),也可以是包含在终端中的一个实体装置。该样本检测装置可以执行图1和图2所示的方法。请参见图5,该样本检测装置运行如下单元:
获取单元101,用于获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
处理单元102,用于对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
预测单元103,用于对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
检测单元104,用于根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
在一种实施方式中,所述样本类型包括正确样本或错误样本;所述错误样本包括以下任一种:对抗样本、边界样本和伪对抗样本。
在一种实施方式中,检测单元104可具体用于:
判断所述原始数据的标注标签与所述原始数据的预测标签是否相等;
若相等,则检测所述原始数据的预测标签与所述预测标签集合之间的匹配关系,根据所述匹配关系确定所述目标测试样本的样本类型;
若不相等,则检测所述原始数据的标注标签、所述原始数据的预测标签以及所述预测标签集合之间的对应关系,根据所述对应关系确定所述目标测试样本的样本类型。
在一种实施方式中,所述匹配关系包括:第一匹配关系或第二匹配关系;
所述第一匹配关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二匹配关系为:所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的预测标签不相等。
在一种实施方式中,检测单元104可具体用于:
若所述匹配关系为所述第一匹配关系,则确定所述目标测试样本的样本类型为正确样本;
若所述匹配关系为所述第二匹配关系,则确定所述目标测试样本的样本类型为边界样本。
在一种实施方式中,所述对应关系包括:第一对应关系、第二对应关系或第三对应关系;
所述第一对应关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的标注标签不相等;所述第三对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的标注标签相等。
在一种实施方式中,检测单元104可具体用于:
若所述对应关系为所述第一对应关系,则确定所述目标测试样本的样本类型为对抗样本;
若所述对应关系为所述第二对应关系,则确定所述目标测试样本的样本类型为伪对抗样本;
若所述对应关系为所述第三对应关系,则确定所述目标测试样本的样本类型为边界样本。
在一种实施方式中,获取单元101可具体用于:
获取人工智能算法的样本集,所述样本集包括测试样本集和训练样本集;
从所述测试样本集中选取任意一个测试样本作为目标测试样本,并获取所述目标测试样本的原始数据及所述原始数据的标注标签;
采用所述测试样本集和所述训练样本集对所述人工智能算法进行训练;
基于所述训练后的人工智能算法对所述目标测试样本的原始数据进行标签预测处理得到所述原始数据的预测标签。
在一种实施方式中,处理单元102还可用于:
若所述目标测试样本的样本类型为错误样本,根据所述目标测试样本的样本类型确定目标标注对象;
将所述目标测试样本的原始数据发送至所述目标标注对象,以使所述目标标注对象修改所述原始数据的标注标签;
根据所述原始数据的标注标签的修改,更新所述人工智能算法的样本集;
基于更新的样本集对所述人工智能算法进行更新。
根据本发明的一个实施例,图1和图2所示的方法所涉及的各个步骤均可以是由图5所示的样本检测装置中的各个单元来执行的。例如,图1中所示的步骤S101、S102、S103、S104可以分别由图5中所示的获取单元101、处理单元102、预测单元103和检测单元104来执行;又如图2中所示的S201、S202、S203可以分别由图5中所示的获取单元101、处理单元102和预测单元103来执行,S204、S205和S206可由检测单元104来执行。
根据本发明的另一个实施例,图5所示的样本检测装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,样本检测装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1中和图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的样本检测装置设备,以及来实现本发明实施例的样本检测方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本发明实施例可以获取目标测试样本的原始数据的标注标签和预测标签,以及获取预测标签集合,该预测标签集合包含对原始数据进行扰动处理得到的扰动数据的预测标签,通过所获得的目标测试样本的原始数据的标注标签、原始数据的预测标签及预测标签集合来检测目标测试样本的样本类型;这个样本检测过程从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率,有助于提升人工智能算法的性能。
基于上述媒体对象的识别方法实施例的描述,本发明实施例还公开了一种媒体对象的识别装置,该媒体对象的识别装置可以是运行于终端中的一个计算机程序(包括程序代码),也可以是包含在终端中的一个实体装置。该媒体对象的识别装置可以执行图3所示的方法。请参见图6,该媒体对象的识别装置运行如下单元:
获取单元201,用于获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频。
标注单元202,用于采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用图1或图2的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新。
查询单元203,用于根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
本发明实施例在获取到待识别的媒体对象之后,可以采用人工智能算法为此媒体对象标注标签,并根据媒体对象的标签从媒体数据库中查找到媒体对象的识别信息。由于该人工智能算法的样本集是基于图1或图2所示的样本检测方法进行样本检测处理,该人工智能算法基于处理后的样本集进行更新的,因此该人工智能算法的性能完善,可以较准确地得到媒体对象的标签,从而准确地确定出媒体对象的识别信息,可提高用户体验。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种终端。请参见图7,所述终端内部结构至少包括处理器301、输入设备302、输出设备303以及计算机存储介质304。其中,终端内的处理器301、输入设备302、输出设备303以及计算机存储介质304可通过总线或其他方式连接,在本发明实施例所示图7中以通过总线305连接为例。所述计算机存储介质304用于存储计算机程序,所述计算机程序包括程序指令,所述处理器301用于执行所述计算机存储介质304存储的程序指令。处理器301(或称CPU(CentralProcessing Unit,中央处理器))是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器301可以用于根据获取到的目标测试样本的原始数据进行一系列的样本检测处理,包括:获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据;对所述扰动数据进行标签预测处理得到预测标签集合;根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型,等等。
再一个实施例中,本发明实施例所述的处理器301还可以用于根据获取到的待识别的媒体对象进行一系列的媒体对象的识别操作,包括:获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用图1或图2的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器301加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器301加载并执行计算机存储介质中存放的一条或一条以上第一指令,以实现上述有关样本检测实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或一条以上第一指令由处理器301加载并执行如下步骤:
获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
在一种实施方式中,所述样本类型包括正确样本或错误样本;所述错误样本包括以下任一种:对抗样本、边界样本和伪对抗样本。
在一种实施方式中,在根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型时,该一条或一条以上第一指令由该处理器301加载,还用于执行:
判断所述原始数据的标注标签与所述原始数据的预测标签是否相等;
若相等,则检测所述原始数据的预测标签与所述预测标签集合之间的匹配关系,根据所述匹配关系确定所述目标测试样本的样本类型;
若不相等,则检测所述原始数据的标注标签、所述原始数据的预测标签以及所述预测标签集合之间的对应关系,根据所述对应关系确定所述目标测试样本的样本类型。
在一种实施方式中,所述匹配关系包括:第一匹配关系或第二匹配关系;
所述第一匹配关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二匹配关系为:所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的预测标签不相等。
在一种实施方式中,在根据所述匹配关系确定所述目标测试样本的样本类型时,该一条或一条以上第一指令由该处理器301加载,还用于执行:
若所述匹配关系为所述第一匹配关系,则确定所述目标测试样本的样本类型为正确样本;
若所述匹配关系为所述第二匹配关系,则确定所述目标测试样本的样本类型为边界样本。
在一种实施方式中,所述对应关系包括:第一对应关系、第二对应关系或第三对应关系;
所述第一对应关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的标注标签不相等;所述第三对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的标注标签相等。
在一种实施方式中,在根据所述对应关系确定所述目标测试样本的样本类型时,该一条或一条以上第一指令由该处理器301加载,还用于执行:
若所述对应关系为所述第一对应关系,则确定所述目标测试样本的样本类型为对抗样本;
若所述对应关系为所述第二对应关系,则确定所述目标测试样本的样本类型为伪对抗样本;
若所述对应关系为所述第三对应关系,则确定所述目标测试样本的样本类型为边界样本。
在一种实施方式中,在获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签时,该一条或一条以上第一指令由该处理器301加载,还用于执行:
获取人工智能算法的样本集,所述样本集包括测试样本集和训练样本集;
从所述测试样本集中选取任意一个测试样本作为目标测试样本,并获取所述目标测试样本的原始数据及所述原始数据的标注标签;
采用所述测试样本集和所述训练样本集对所述人工智能算法进行训练;
基于所述训练后的人工智能算法对所述目标测试样本的原始数据进行标签预测处理得到所述原始数据的预测标签。
在一种实施方式中,该一条或一条以上第一指令由该处理器301加载,还用于执行:
若所述目标测试样本的样本类型为错误样本,根据所述目标测试样本的样本类型确定目标标注对象;
将所述目标测试样本的原始数据发送至所述目标标注对象,以使所述目标标注对象修改所述原始数据的标注标签;
根据所述原始数据的标注标签的修改,更新所述人工智能算法的样本集;
基于更新的样本集对所述人工智能算法进行更新。
本发明实施例可以获取目标测试样本的原始数据的标注标签和预测标签,以及获取预测标签集合,该预测标签集合包含对原始数据进行扰动处理得到的扰动数据的预测标签,通过所获得的目标测试样本的原始数据的标注标签、原始数据的预测标签及预测标签集合来检测目标测试样本的样本类型;这个样本检测过程从目标测试样本的数据角度出发,既考虑了原始数据对目标测试样本的类型的影响,同时考虑了原始数据发生扰动的情况下对目标测试样本的类型的影响,这使得对目标测试样本的类型检测的依据更为全面,从而有效提升样本类型检测的准确率,有助于提升人工智能算法的性能。
再一个实施例中,可由处理器301加载并执行计算机存储介质中存放的一条或一条以上第二指令,以实现上述有关媒体对象的识别实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或一条以上第二指令由处理器301加载并执行如下步骤:
获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用图1或图2的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
本发明实施例在获取到待识别的媒体对象之后,可以采用人工智能算法为此媒体对象标注标签,并根据媒体对象的标签从媒体数据库中查找到媒体对象的识别信息。由于该人工智能算法的样本集是基于图1或图2所示的样本检测方法进行样本检测处理,该人工智能算法基于处理后的样本集进行更新的,因此该人工智能算法的性能完善,可以较准确地得到媒体对象的标签,从而准确地确定出媒体对象的识别信息,可提高用户体验。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种样本检测方法,其特征在于,包括:
获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
2.如权利要求1所述的方法,其特征在于,所述样本类型包括正确样本或错误样本;所述错误样本包括以下任一种:对抗样本、边界样本和伪对抗样本。
3.如权利要求2所述的方法,其特征在于,所述根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型,包括:
判断所述原始数据的标注标签与所述原始数据的预测标签是否相等;
若相等,则检测所述原始数据的预测标签与所述预测标签集合之间的匹配关系,根据所述匹配关系确定所述目标测试样本的样本类型;
若不相等,则检测所述原始数据的标注标签、所述原始数据的预测标签以及所述预测标签集合之间的对应关系,根据所述对应关系确定所述目标测试样本的样本类型。
4.如权利要求3所述的方法,其特征在于,所述匹配关系包括:第一匹配关系或第二匹配关系;
所述第一匹配关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二匹配关系为:所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的预测标签不相等。
5.如权利要求4所述的方法,其特征在于,所述根据所述匹配关系确定所述目标测试样本的样本类型包括:
若所述匹配关系为所述第一匹配关系,则确定所述目标测试样本的样本类型为正确样本;
若所述匹配关系为所述第二匹配关系,则确定所述目标测试样本的样本类型为边界样本。
6.如权利要求3所述的方法,其特征在于,所述对应关系包括:第一对应关系、第二对应关系或第三对应关系;
所述第一对应关系为:所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的预测标签全部相等;所述第二对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中包含的所述扰动数据的预测标签与所述原始数据的标注标签不相等;所述第三对应关系为:所述预测标签集合中存在所述扰动数据的预测标签与所述原始数据的预测标签相等,且所述预测标签集合中存在预设数量的所述扰动数据的预测标签与所述原始数据的标注标签相等。
7.如权利要求6所述的方法,其特征在于,所述根据所述对应关系确定所述目标测试样本的样本类型,包括:
若所述对应关系为所述第一对应关系,则确定所述目标测试样本的样本类型为对抗样本;
若所述对应关系为所述第二对应关系,则确定所述目标测试样本的样本类型为伪对抗样本;
若所述对应关系为所述第三对应关系,则确定所述目标测试样本的样本类型为边界样本。
8.如权利要求2-7任一项所述的方法,其特征在于,所述获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签,包括:
获取人工智能算法的样本集,所述样本集包括测试样本集和训练样本集;
从所述测试样本集中选取任意一个测试样本作为目标测试样本,并获取所述目标测试样本的原始数据及所述原始数据的标注标签;
采用所述测试样本集和所述训练样本集对所述人工智能算法进行训练;
基于所述训练后的人工智能算法对所述目标测试样本的原始数据进行标签预测处理得到所述原始数据的预测标签。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
若所述目标测试样本的样本类型为错误样本,根据所述目标测试样本的样本类型确定目标标注对象;
将所述目标测试样本的原始数据发送至所述目标标注对象,以使所述目标标注对象修改所述原始数据的标注标签;
根据所述原始数据的标注标签的修改,更新所述人工智能算法的样本集;
基于更新的样本集对所述人工智能算法进行更新。
10.一种媒体对象的识别方法,其特征在于,包括:
获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用如权利要求1-9任一项所述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
11.一种样本检测装置,其特征在于,包括:
获取单元,用于获取目标测试样本的原始数据、所述原始数据的标注标签及所述原始数据的预测标签;
处理单元,用于对所述原始数据进行扰动处理得到所述目标测试样本的扰动数据,所述扰动数据的数量为一个或者多个;
预测单元,用于对所述扰动数据进行标签预测处理得到预测标签集合,所述预测标签集合中包含所述扰动数据的预测标签;
检测单元,用于根据所述原始数据的标注标签、所述原始数据的预测标签、以及所述预测标签集合检测所述目标测试样本的样本类型。
12.一种媒体对象的识别装置,其特征在于,包括:
获取单元,用于获取待识别的媒体对象,所述媒体对象包括以下任一种:文本、图像、音视频;
标注单元,用于采用人工智能算法为所述媒体对象标注标签,所述人工智能算法的样本集采用如权利要求1-9任一项所述的样本检测方法进行样本检测处理,所述人工智能算法基于处理后的样本集进行更新;
查询单元,用于根据所述媒体对象的标签从媒体数据库中查询所述媒体对象的识别信息。
13.一种终端,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或一条以上指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由所述处理器加载并执行如权利要求1-9任一项所述的样本检测方法;或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由所述处理器加载并执行如权利要求10所述的媒体对象的识别方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由处理器加载并执行如权利要求1-9任一项所述的样本检测方法;或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如权利要求10所述的媒体对象的识别方法。
CN201810562934.2A 2018-06-04 2018-06-04 样本检测方法、媒体对象的识别方法、装置、终端及介质 Active CN110163376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810562934.2A CN110163376B (zh) 2018-06-04 2018-06-04 样本检测方法、媒体对象的识别方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810562934.2A CN110163376B (zh) 2018-06-04 2018-06-04 样本检测方法、媒体对象的识别方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN110163376A true CN110163376A (zh) 2019-08-23
CN110163376B CN110163376B (zh) 2023-11-03

Family

ID=67644986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810562934.2A Active CN110163376B (zh) 2018-06-04 2018-06-04 样本检测方法、媒体对象的识别方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN110163376B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705596A (zh) * 2019-09-04 2020-01-17 北京三快在线科技有限公司 白屏检测方法、装置、电子设备及存储介质
CN111159150A (zh) * 2019-12-19 2020-05-15 北京文安智能技术股份有限公司 一种数据扩充方法及装置
CN111639698A (zh) * 2020-05-27 2020-09-08 东软睿驰汽车技术(沈阳)有限公司 样本融合方法和装置
CN112000578A (zh) * 2020-08-26 2020-11-27 支付宝(杭州)信息技术有限公司 人工智能系统的测试方法和装置
CN112466324A (zh) * 2020-11-13 2021-03-09 上海听见信息科技有限公司 一种情绪分析方法、系统、设备及可读存储介质
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN115065504A (zh) * 2022-05-16 2022-09-16 国家广播电视总局广播电视科学研究院 面向目标检测模型的安全评估方法和系统、电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103996A1 (en) * 2006-10-31 2008-05-01 George Forman Retraining a machine-learning classifier using re-labeled training samples
US20110314367A1 (en) * 2008-12-22 2011-12-22 The Trustees Of Columbia University In The City Of New York System And Method For Annotating And Searching Media
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108009570A (zh) * 2017-11-16 2018-05-08 苏州大学 一种基于核正负标签传播的数据分类方法及系统
US20180150728A1 (en) * 2016-11-28 2018-05-31 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
CN114037011A (zh) * 2021-11-08 2022-02-11 北京工业大学 一种中医舌色噪声标注样本的自动识别与清洗方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103996A1 (en) * 2006-10-31 2008-05-01 George Forman Retraining a machine-learning classifier using re-labeled training samples
US20110314367A1 (en) * 2008-12-22 2011-12-22 The Trustees Of Columbia University In The City Of New York System And Method For Annotating And Searching Media
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
US20180150728A1 (en) * 2016-11-28 2018-05-31 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107256428A (zh) * 2017-05-25 2017-10-17 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN108009570A (zh) * 2017-11-16 2018-05-08 苏州大学 一种基于核正负标签传播的数据分类方法及系统
CN114037011A (zh) * 2021-11-08 2022-02-11 北京工业大学 一种中医舌色噪声标注样本的自动识别与清洗方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUAN D ET AL.: "《Detecting potential labeling errors for bioinformatics by multiple voting》", 《KNOWLEDGEBASED SYSTEM》 *
吴敬生 等: "《基于稀疏重构权的错误标注数据检测方法》", 《计算机工程与科学》, vol. 39, no. 11 *
张子祥 等: "《基于样本噪声检测的AdaBoost 算法改进》", 《计算机系统应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705596A (zh) * 2019-09-04 2020-01-17 北京三快在线科技有限公司 白屏检测方法、装置、电子设备及存储介质
CN111159150A (zh) * 2019-12-19 2020-05-15 北京文安智能技术股份有限公司 一种数据扩充方法及装置
CN111639698A (zh) * 2020-05-27 2020-09-08 东软睿驰汽车技术(沈阳)有限公司 样本融合方法和装置
CN112000578A (zh) * 2020-08-26 2020-11-27 支付宝(杭州)信息技术有限公司 人工智能系统的测试方法和装置
CN112466324A (zh) * 2020-11-13 2021-03-09 上海听见信息科技有限公司 一种情绪分析方法、系统、设备及可读存储介质
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN113537555B (zh) * 2021-06-03 2023-04-11 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN115065504A (zh) * 2022-05-16 2022-09-16 国家广播电视总局广播电视科学研究院 面向目标检测模型的安全评估方法和系统、电子设备
CN115065504B (zh) * 2022-05-16 2024-04-09 国家广播电视总局广播电视科学研究院 面向目标检测模型的安全评估方法和系统、电子设备

Also Published As

Publication number Publication date
CN110163376B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110163376A (zh) 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN110309514A (zh) 一种语义识别方法及装置
CN103678418B (zh) 信息处理方法和信息处理设备
US9158846B2 (en) Entity detection and extraction for entity cards
CN109933660B (zh) 面向自然语言形式基于讲义和网站的api信息检索方法
CN109074642A (zh) 机器学习装置
CN106600052A (zh) 一种基于时空轨迹的用户属性与社会网络检测系统
CN111666766B (zh) 数据处理方法、装置和设备
CN103870528B (zh) 深度问题回答系统中的问题分类和特征映射的方法和系统
CN107403398A (zh) 一种英语教育互联网平台及其使用方法
CN110196982A (zh) 上下位关系抽取方法、装置及计算机设备
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN110489649B (zh) 标签关联内容的方法及装置
US20220107980A1 (en) Providing an object-based response to a natural language query
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
Ünal et al. A hierarchical approach to makam classification of Turkish makam music, using symbolic data
CN116910335A (zh) 一种基于网页标签分析的数据采集方法及系统
CN117473076B (zh) 基于大数据挖掘的知识点生成方法及系统
Zhu et al. Learning from interpretable analysis: Attention-based knowledge tracing
CN117252739B (zh) 一种评卷方法、系统、电子设备及存储介质
Font et al. Class-based tag recommendation and user-based evaluation in online audio clip sharing
CN110489730A (zh) 文本处理方法、装置、终端及存储介质
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN110968757B (zh) 政策文件处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant