CN115237856A - 文件标注的方法、设备和计算机程序产品 - Google Patents

文件标注的方法、设备和计算机程序产品 Download PDF

Info

Publication number
CN115237856A
CN115237856A CN202110440639.1A CN202110440639A CN115237856A CN 115237856 A CN115237856 A CN 115237856A CN 202110440639 A CN202110440639 A CN 202110440639A CN 115237856 A CN115237856 A CN 115237856A
Authority
CN
China
Prior art keywords
annotation
files
model
target
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110440639.1A
Other languages
English (en)
Inventor
龚旻
邱琦承
倪嘉呈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202110440639.1A priority Critical patent/CN115237856A/zh
Priority to US17/364,814 priority patent/US11853305B2/en
Publication of CN115237856A publication Critical patent/CN115237856A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开的实施例涉及文件标注的方法、设备和计算机程序产品。该方法包括:利用标注模型处理待标注的多个文件,以确定标注模型的第一性能,第一性能与由标注模型所生成的模型标注结果的置信度相关;如果第一性能低于预定阈值,至少基于模型标注结果的置信度,从多个文件中确定一组目标文件;获取一组目标文件的真值标注信息,以用于重新训练标注模型;以及如果经重新训练的标注模型的第二性能高于或等于预定阈值,则利用经重新训练的标注模型,来确定针对多个文件中的至少部分文件的标注信息。基于这样的方式,可以利用更少的真值标注信息来实现文件的自动标注,从而降低标注成本。

Description

文件标注的方法、设备和计算机程序产品
技术领域
本公开的实施例涉及计算机领域,并且更具体地,涉及文件标注的方法、设备和计算机程序产品。
背景技术
在大型文件系统的文件管理中,通常需要对文件进行标注,以提高管理的效率。这样的标注信息能够帮助更快地检索或者分类文件。例如,可以对文本类的文件进行标注,以指示该文件中的文本内容所涉及的主题,例如,经济、教育、娱乐等。
目前,文件的人工标注需要耗费较高的成本。一些方案尝试利用基于机器学习的标注模型来执行文件的自动标注,这样标注模型仍然需要依赖于人工标注所获得的真值标注信息。因此,人们期望能够利用更少的真值标注信息来获取足够准确的标注模型。
发明内容
本公开的实施例提供一种用于文件标注的方案。
根据本公开的第一方面,提出了一种文件标注的方法。该方法包括:利用标注模型处理待标注的多个文件,以确定标注模型的第一性能,第一性能与由标注模型所生成的模型标注结果的置信度相关;如果第一性能低于预定阈值,至少基于模型标注结果的置信度,从多个文件中确定一组目标文件;获取一组目标文件的真值标注信息,以用于重新训练标注模型;以及如果经重新训练的标注模型的第二性能高于或等于预定阈值,则利用经重新训练的标注模型,来确定针对多个文件中的至少部分文件的标注信息。
根据本公开的第二方面,提出了一种电子设备。该设备包括:至少一个处理单元;至少一个存储器,该至少一个存储器被耦合到该至少一个处理单元并且存储用于由该至少一个处理单元执行的指令,该指令当由该至少一个处理单元执行时,使得该设备执行动作,该动作包括:利用标注模型处理待标注的多个文件,以确定标注模型的第一性能,第一性能与由标注模型所生成的模型标注结果的置信度相关;如果第一性能低于预定阈值,至少基于模型标注结果的置信度,从多个文件中确定一组目标文件;获取一组目标文件的真值标注信息,以用于重新训练标注模型;以及如果经重新训练的标注模型的第二性能高于或等于预定阈值,则利用经重新训练的标注模型,来确定针对多个文件中的至少部分文件的标注信息。
在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被存储在非瞬态计算机存储介质中并且包括机器可执行指令,该机器可执行指令在设备中运行时使该设备执行根据本公开的第一方面所描述的方法的任意步骤。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1图示了本公开的实施例可以在其中被实现的示例性环境的示意图;
图2图示了根据本公开一些实施例的文件标注的过程的示意图;
图3图示了根据本公开一些实施例的筛选目标文件的过程的示意图;以及
图4图示了可以用来实施本公开内容的实施例的示例设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上文所讨论的,当需要对大量的文件进行标注时,一些方案通过对部分文件进行人工标注来训练机器学习模型,从而文件标注的整体成本。因此,人们越来越关注如何在保证机器学习模型标注准确性的前提下进一步降低人工标注的成本。
根据本公开的实施例,提供了一种文件标注的方案。在该方案中,利用标注模型处理待标注的多个文件,以确定标注模型的第一性能,其中第一性能与由标注模型所生成的模型标注结果的置信度相关。如果第一性能低于预定阈值,至少基于模型标注结果的置信度,从多个文件中确定一组目标文件。随后,获取一组目标文件的真值标注信息,以用于重新训练标注模型。如果经重新训练的标注模型的第二性能高于或等于预定阈值,则利用经重新训练的标注模型,来确定针对多个文件中的至少部分文件的标注信息。基于这样的方式,本公开的实施例可以利用更少的真值标注信息来获得性能满足要求的标注模型,从而进一步降低了文件标注的成本。
以下将参考附图来描述本公开的方案。
图1示出了本公开实施例可以在其中执行的示例环境100。如图1所示,该环境100中包括标注设备120,该标注设备120可以接收待标注的多个文件110。
如图1所示,标注设备120可以获取基于机器学习的标注模型130。这样的标注模型130的示例包括但不限于各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。
在一些实施例中,标注模型130可以是针对特定的训练数据集而被的模型。在一些示例中,该训练数据集例如可以是用户期望标注的文件集中的一部分。例如,用户可能期望对十万个文件进行标注,标注设备120可以从该十万个文件中选择一定数量的文件(例如,一万个文件),并将其发送至标注服务提供方140,以获得该一万个文件的真值标注信息。
这样的真值标注信息可以用于初始地训练标注模型130。具体地,用于训练该标注模型130的输入可以包括这些文件的特征表示,标注模型130的训练目标可以是减小标注模型130确定的模型标注结果与对应的真值标注信息之间的差异。
文件的特征表示可以利用任何适当的方式来确定。例如,可以利用经训练的编码器来将基于文件的属性信息来生成文件的特征表示。本公开不旨在对文件的特征表示的生成方式进行限定。
标注设备120可以进一步利用标注模型130来处理多个文件110,从而确定由标注模型130确定的模型标注结果的置信度。进一步地,标注设备120可以基于这些置信度来确定标注模型130的性能。
如果性能达到预定阈值,则标注设备120例如可以直接将标注模型130所确定的模型标注结果确定作为多个文件110的标注信息。
相反,如果性能未达到阈值,则标注设备120可以进一步从多个文件110中筛选出一组目标文件,并获取该组目标文件的真值标注信息,以重新训练标注模型130。例如,标注设备120可以将该组目标文件发送至标注服务提供方140,以获得对应的真值标注信息。
标注设备120可以进一步确定经重新训练的标注模型130的性能,并在性能达到预定阈值的情况下,利用经重新训练的标注模型130来确定多个文件110中的至少部分文件的标注信息150-1、150-2、…150-N(单独或统一称为标注信息150)。关于生成标注信息150的详细过程将参考图2进行描述。
图2示出了根据本公开的一些实施例的文件标注的过程200的流程图。过程200例如可以由图1中所示的标注设备120来实现。
如图2所示,标注设备120利用标注模型130处理待标注的多个文件110,以确定标注模型130的第一性能,其中第一性能与由标注模型130所生成的模型标注结果的置信度相关。
在一些实施例中,如上文所讨论的,多个文件110可以是用户待标注文件集合中的第一子集,并且标注模型130是利用待标注文件集合中第二子集的真值标注信息而被初始训练的。
例如,用户待标注的文件集合可以包括十万个文件,其中例如可以随机选择其中的一万个文件以作为第二子集。在一些实施例中,第二子集的真值标注信息例如可以是由标注服务提供方140所确定的。这样的标注服务提供方140例如可以包括任何适当的个人或组织。
此外,应当理解的是,本文中的“真值标注信息”是指这样的标注信息的置信度较高,并且被直接用于标注模型130的训练,而并不一定要求这个的“真值标注信息”一定是客观上准确的。例如,一些专家在进行文件人工标注时,仍然可能会出现一些错误的标注,但这样的标注信息仍然被视作为“真值标注信息”。
在一些实施例中,模型标注结果的置信度例如可以由该模型标注结果的不确定性度量来进行表征。这样的不确定性度量例如是可以由机器学习模型所确定的、用以表征对于所提供的模型标注结果的确定性程度的参数。例如,可以使用贝叶斯活跃学习分歧度量(Bayesian Active Learning by Disagreement,BALD)来作为本公开中的不确定性度量。应当理解,还可以采用其他任何适当的不确定性度量。应当理解,不确定度量的值越大,则表示标注模型对于模型标注结果的不确定性程度越高。
在一些实施例中,标注设备120可以进一步基于多个文件110的模型预测结果的不确定性度量来确定第一性能。例如,标注设备120可以基于多个文件110的不确定性度量的平均值来确定第一性能。备选地,标注设备120可以基于多个文件110的不确定性度量的最大值来确定第一性能。
备选地,标注设备120还可以基于多个文件110中不确定性度量大于阈值的文件的数目或比例。例如,如果多个文件110包括十万个文件,且其中不确定度量大于预定阈值的文件的数目为五万个,则例如第一性能可以被确定为占比0.5。
在框204,标注设备120确定标注模型130的第一性能是否低于预定阈值。如果是,则过程200进行到框206,标注设备120至少基于模型标注结果的置信度,从多个文件110中确定一组目标文件。
在一些实施例中,标注设备120例如可以根据置信度的大小来从多个文件110中选择置信度低于预定水平的文件以作为该组目标文件。基于这样的方式,可以选择出标注模型120目前难以准确标注的文件。
在一些实施例中,标注设备120例如还可以考虑获取文件的真值标注信息所需的预期标注成本,以达到提高标注模型的准确度与成本之间的平衡。以下将参考图3来描述筛选目标文件的过程,具体地,图3示出了根据本公开的一些实施例的筛选目标文件的过程300的流程图。
如图3所示,在框302,标注设备120可以利用成本预测模型确定获取多个文件的真值标注信息的预期标注成本,其中成本预测模型是基于一组训练文件的历史标注成本而被训练的。在一些实施例中,预期标注成本指示标注文件所需要的预期时间和标注文件所需要的预期费用中的至少一项而被确定。
在一些实施例中,可以利用标注服务提供方140对历史文件的历史标注来构建成本预测模型。这样的成本预测模型的示例可以包括但不限于:各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。
在训练过程中,可以向成本预测模型输入文件的特征表示,并基于标注服务提供方140的实际标注成本来构建目标函数,从而使得经训练的成本预测模型能够基于文件的特征表示来确定预期标注成本。
应当理解,可以由与标注设备120相同或不同的设备来执行成本预测模型的训练。标注设备120例如可以将多个文件120的特征表示发送到另一设备,以获得预期标注成本。或者,标注设备120上也可以部署有该成本预测模型,以确定预期标注成本。
在框304,标注设备120可以基于与每个文件对应的不确定性度量和预期标注成本,从多个文件中选择一组目标文件。
在一些实施例中,标注设备120可以基于不确定性度量和预期标注成本来确定每个文件的标注得分,其中标注得分随不确定性度量的增加而增加,并且随预期标注成本的增加而减小。
示例性地,标注得分例如可以表示为不确定性度量和预期标注成本的以下函数:
Score(x)=α*Uncertainty(x)+β*1/Effort(x) (1)
其中Score(x)表示文件x的标注得分,Uncertainty(x)表示文件x的不确定性度量,Effort(x)表示文件x的预期标注成本,α和β为权重系数。应当理解,α和β可以是预定的常数,或者是由用户根据实际场景而指定的。
应当理解,还可以采用其他适当的公式来确定标注得分。
进一步地,标注设备120可以基于标注得分从多个文件中选择一组目标文件。
在一些实施例中,标注设备120例如可以选择标注得分最大的预定数目的文件,以作为该组目标文件。备选地,标注设备120也可以将标注得分大于预定阈值的文件确定作为目标文件,而不考虑该组目标文件的总数目。
继续参考图2,在框208,标注设备120获取一组目标文件的真值标注信息,以用于重新训练标注模型。
在一些实施例中,标注设备120例如可以将该组目标文件发送至标注服务提供方140,以获取该组目标文件的真值标注信息。进一步地,标注设备120可以利用真值标注信息来重新训练标注模型130。
在一些实施例中,标注设备120例如可以在已有模型的基础上利用该组目标文件的特征表示和对应的真值标注信息来执行附加的训练,以获得经重新训练的标注设备。
在又一些实施例中,标注设备120例如也可以将该组目标文件添加到先前的训练数据集合中,以构建新的训练数据集合。标注设备120例如可以利用该新的训练数据集合来执行标注模型130的重新训练。
随后,过程200进一步返回到框204,标注设备120进一步确定经重新训练的标注模型的第二性能是否低于预定阈值。
在一些实施例中,标注设备120可以根据上文确定第一性能的方式来经重新训练的标注模型的第二性能。具体地,标注设备120可以利用经重新训练的标注模型来处理多个文件110中为获得真值标注信息的剩余文件,并基于模型标注结果的置信度来确定第二性能。
如果在框204确定第二性能高于或等于预定阈值,则过程200可以进行到框210,即标注设备120可以则利用经重新训练的标注模型,来确定针对多个文件中的至少部分文件的标注信息。
具体地,标注设备120可以将标注模型所确定的、针对为获取真值标注信息的文件的模型标注结果直接作为这些文件的标注信息150。
基于这样的方式,本公开的实施例可以总是获取对于改进模型准确性收益较大的文件的真值标注信息,从而可以在保证标注模型的准确性的情况下,降低文件标注的成本。
继续参考图2,如果在框204确定经重新训练的标注模型的第二性能仍低于阈值,则步骤206和206可以被迭代地执行,直至经重新训练的标注模型的性能高于预定阈值。
具体地,标注设备120可以进一步从未获取真值标注信息的文件中确定一组新的目标文件,并获取一组新的目标文件的真值标注信息,以重新训练标注模型。
基于这样的方式,本公开的实施例能够迭代地对标注模型的性能进行优化,从而能够进一步降低例如需要人工标注的文件的数量,从而在保证模型准确性的前提下,进一步降低了文件标注的初步。
图4示出了可以用来实施本公开内容的实施例的示例设备400的示意性框图。例如,根据本公开实施例的标注设备120可以由设备400来实施。如图所示,设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序指令,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如过程200,可由处理单元401执行。例如,在一些实施例中,过程200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到RAM 403并由CPU 401执行时,可以执行上文描述的过程200的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims (19)

1.一种文件标注的方法,包括:
利用标注模型处理待标注的多个文件,以确定所述标注模型的第一性能,所述第一性能与由所述标注模型所生成的模型标注结果的置信度相关;
如果所述第一性能低于预定阈值,至少基于所述模型标注结果的所述置信度,从所述多个文件中确定一组目标文件;
获取所述一组目标文件的真值标注信息,以用于重新训练所述标注模型;以及
如果经重新训练的所述标注模型的第二性能高于或等于所述预定阈值,则利用经重新训练的所述标注模型,来确定针对所述多个文件中的至少部分文件的标注信息。
2.根据权利要求1所述的方法,其中从所述多个文件中确定一组目标文件包括:
从所述多个文件中选择所述一组目标文件,所述一组目标文件的所述标注预测结果的所述置信度低于预定水平。
3.根据权利要求1所述的方法,其中所述置信度是由所述模型标注结果的不确定性度量所表征的,并且从所述多个文件中确定一组目标文件包括:
利用成本预测模型确定获取所述多个文件的真值标注信息的预期标注成本,所述成本预测模型是基于一组训练文件的历史标注成本而被训练的;以及
基于与每个文件对应的所述不确定性度量和所述预期标注成本,从所述多个文件中选择所述一组目标文件。
4.根据权利要求3所述的方法,其中从所述多个文件中选择所述一组目标文件包括:
基于所述不确定性度量和所述预期标注成本,确定所述每个文件的标注得分,所述标注得分随所述不确定性度量的增加而增加,并且随所述预期标注成本的增加而减小;以及
基于所述标注得分,从所述多个文件中选择所述一组目标文件。
5.根据权利要求3所述的方法,其中所述预期标注成本指示标注文件所需要的预期时间和标注文件所需要的预期费用中的至少一项而被确定。
6.根据权利要求1所述的方法,所述方法还包括:
如果所述第二性能低于所述预定阈值,则迭代地执行以下过程直至经重新训练的标注模型的性能高于所述预定阈值:
从未获取真值标注信息的文件中确定一组新的目标文件;以及
获取所述一组新的目标文件的真值标注信息,以重新训练所述标注模型。
7.根据权利要求1所述的方法,其中获取所述一组目标文件的真值标注信息包括:
向标注服务提供方发送所述一组目标文件;以及
从所述标注服务提供方接收所述一组目标文件的真值标注信息。
8.根据权利要求1所述的方法,其中所述置信度是由所述模型标注结果的不确定性度量所表征的,并且所述第一性能基于以下中的一项被确定:
所述多个文件的所述不确定性度量的平均值,
所述多个文件的不确定性度量的最大值,或
所述多个文件中不确定性度量大于阈值的文件的数目或比例。
9.根据权利要求1所述的方法,其中所述多个文件是待标注文件集合中的第一子集,并且所述标注模型是利用所述待标注文件集合中第二子集的真值标注信息而被初始训练的。
10.一种电子设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:
利用标注模型处理待标注的多个文件,以确定所述标注模型的第一性能,所述第一性能与由所述标注模型所生成的模型标注结果的置信度相关;
如果所述第一性能低于预定阈值,至少基于所述模型标注结果的所述置信度,从所述多个文件中确定一组目标文件;
获取所述一组目标文件的真值标注信息,以用于重新训练所述标注模型;以及
如果经重新训练的所述标注模型的第二性能高于或等于所述预定阈值,则利用经重新训练的所述标注模型,来确定针对所述多个文件中的至少部分文件的标注信息。
11.根据权利要求10所述的电子设备,其中从所述多个文件中确定一组目标文件包括:
从所述多个文件中选择所述一组目标文件,所述一组目标文件的所述标注预测结果的所述置信度低于预定水平。
12.根据权利要求10所述的电子设备,其中所述置信度是由所述模型标注结果的不确定性度量所表征的,并且从所述多个文件中确定一组目标文件包括:
利用成本预测模型确定获取所述多个文件的真值标注信息的预期标注成本,所述成本预测模型是基于一组训练文件的历史标注成本而被训练的;以及
基于与每个文件对应的所述不确定性度量和所述预期标注成本,从所述多个文件中选择所述一组目标文件。
13.根据权利要求12所述的电子设备,其中从所述多个文件中选择所述一组目标文件包括:
基于所述不确定性度量和所述预期标注成本,确定所述每个文件的标注得分,所述标注得分随所述不确定性度量的增加而增加,并且随所述预期标注成本的增加而减小;以及
基于所述标注得分,从所述多个文件中选择所述一组目标文件。
14.根据权利要求12所述的电子设备,其中所述预期标注成本指示标注文件所需要的预期时间和标注文件所需要的预期费用中的至少一项而被确定。
15.根据权利要求10所述的电子设备,所述动作还包括:
如果所述第二性能低于所述预定阈值,则迭代地执行以下过程直至经重新训练的标注模型的性能高于所述预定阈值:
从未获取真值标注信息的文件中确定一组新的目标文件;以及
获取所述一组新的目标文件的真值标注信息,以重新训练所述标注模型。
16.根据权利要求10所述的电子设备,其中获取所述一组目标文件的真值标注信息包括:
向标注服务提供方发送所述一组目标文件;以及
从所述标注服务提供方接收所述一组目标文件的真值标注信息。
17.根据权利要求10所述的电子设备,其中所述置信度是由所述模型标注结果的不确定性度量所表征的,并且所述第一性能基于以下中的一项被确定:
所述多个文件的所述不确定性度量的平均值,
所述多个文件的不确定性度量的最大值,或
所述多个文件中不确定性度量大于阈值的文件的数目或比例。
18.根据权利要求10所述的电子设备,其中所述多个文件是待标注文件集合中的第一子集,并且所述标注模型是利用所述待标注文件集合中第二子集的真值标注信息而被初始训练的。
19.一种计算机程序产品,所述计算机程序产品被存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在设备中运行时使所述设备根据权利要求1-9中任一项所述的方法。
CN202110440639.1A 2021-04-23 2021-04-23 文件标注的方法、设备和计算机程序产品 Pending CN115237856A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110440639.1A CN115237856A (zh) 2021-04-23 2021-04-23 文件标注的方法、设备和计算机程序产品
US17/364,814 US11853305B2 (en) 2021-04-23 2021-06-30 Method, device, and computer program product for file annotation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440639.1A CN115237856A (zh) 2021-04-23 2021-04-23 文件标注的方法、设备和计算机程序产品

Publications (1)

Publication Number Publication Date
CN115237856A true CN115237856A (zh) 2022-10-25

Family

ID=83666835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440639.1A Pending CN115237856A (zh) 2021-04-23 2021-04-23 文件标注的方法、设备和计算机程序产品

Country Status (2)

Country Link
US (1) US11853305B2 (zh)
CN (1) CN115237856A (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8726144B2 (en) * 2005-12-23 2014-05-13 Xerox Corporation Interactive learning-based document annotation
US20160162464A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Techniques for combining human and machine learning in natural language processing
US10176157B2 (en) * 2015-01-03 2019-01-08 International Business Machines Corporation Detect annotation error by segmenting unannotated document segments into smallest partition
US10262240B2 (en) 2017-08-14 2019-04-16 Microsoft Technology Licensing, Llc Fast deep neural network training
US10778412B2 (en) 2017-12-28 2020-09-15 Intel Corporation Multi-domain convolutional neural network
US10902051B2 (en) 2018-04-16 2021-01-26 Microsoft Technology Licensing, Llc Product identification in image with multiple products
US11126649B2 (en) 2018-07-11 2021-09-21 Google Llc Similar image search for radiology
US11586987B2 (en) * 2019-03-05 2023-02-21 Kensho Technologies, Llc Dynamically updated text classifier
US11188517B2 (en) * 2019-08-09 2021-11-30 International Business Machines Corporation Annotation assessment and ground truth construction
US11429813B1 (en) 2019-11-27 2022-08-30 Amazon Technologies, Inc. Automated model selection for network-based image recognition service
US20220180252A1 (en) * 2020-12-04 2022-06-09 International Business Machines Corporation Annotation data collection to reduce machine model uncertainty
CN115331275A (zh) 2021-04-23 2022-11-11 伊姆西Ip控股有限责任公司 图像处理的方法、计算机系统、电子设备和程序产品

Also Published As

Publication number Publication date
US11853305B2 (en) 2023-12-26
US20220342890A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
CN108733508B (zh) 用于控制数据备份的方法和系统
CN108520470B (zh) 用于生成用户属性信息的方法和装置
US11875253B2 (en) Low-resource entity resolution with transfer learning
CN110569359B (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
JP7480811B2 (ja) サンプル分析の方法、電子装置、コンピュータ可読記憶媒体、及びコンピュータプログラム
CN111753086A (zh) 一种垃圾邮件识别方法和装置
JP2022531974A (ja) 人工知能のための希な訓練データへの対処
CN111915086A (zh) 异常用户预测方法和设备
US11636331B2 (en) User explanation guided machine learning
WO2020173270A1 (zh) 用于分析数据的方法、设备和计算机存储介质
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
CN114897183B (zh) 问题数据处理方法、深度学习模型的训练方法和装置
CN115237856A (zh) 文件标注的方法、设备和计算机程序产品
US11157829B2 (en) Method to leverage similarity and hierarchy of documents in NN training
JP7290183B2 (ja) データ処理の方法、ニューラルネットワークの学習方法及びデバイス
US11928849B2 (en) Action-object recognition in cluttered video scenes using text
US20220400121A1 (en) Performance monitoring in the anomaly detection domain for the it environment
US11238236B2 (en) Summarization of group chat threads
US20210334647A1 (en) Method, electronic device, and computer program product for determining output of neural network
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
CN113469204A (zh) 数据处理方法、装置、设备和计算机存储介质
CN114375447A (zh) 计算系统中的语言语句处理
US11626108B2 (en) Machine learning system for customer utterance intent prediction
US20230186190A1 (en) Ticket embedding based on multi-dimensional it data
US11836189B2 (en) Infer text classifiers for large text collections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination