CN116910501B - 错例驱动的数据识别方法、装置和设备 - Google Patents

错例驱动的数据识别方法、装置和设备 Download PDF

Info

Publication number
CN116910501B
CN116910501B CN202310946707.0A CN202310946707A CN116910501B CN 116910501 B CN116910501 B CN 116910501B CN 202310946707 A CN202310946707 A CN 202310946707A CN 116910501 B CN116910501 B CN 116910501B
Authority
CN
China
Prior art keywords
error
model
record
new
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310946707.0A
Other languages
English (en)
Other versions
CN116910501A (zh
Inventor
李常宝
顾平莉
王书龙
袁媛
贾贺
李茜
潘爽
尹发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202310946707.0A priority Critical patent/CN116910501B/zh
Publication of CN116910501A publication Critical patent/CN116910501A/zh
Application granted granted Critical
Publication of CN116910501B publication Critical patent/CN116910501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例公开了一种错例驱动的数据识别方法、装置和设备。数据识别方法包括:从错例‑正例集合中的每一个错例‑正例组合对中,选取待操作记录;对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集;若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率;基于所述新模型准确率与所述原模型准确率,确定上线模型;基于所述上线模型,对待识别数据进行识别,获得数据识别结果。

Description

错例驱动的数据识别方法、装置和设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种错例驱动的数据识别方法、装置和设备。
背景技术
数据识别模型用于对特定数据进行数据识别、数据分类等操作,数据识别模型经训练评估后,进入上线服务阶段,其识别能力一般是固化的。而在用户实际使用过程中,由于训练样本集数据变化等原因,数据识别模型在进行数据识别时,可能存在局部数据误识别的情况。
现有技术中,一般采用机器自动标注技术进行数据识别的修正。但是机器自动标注技术只能应用于建模阶段,无法解决模型上线后的能力修正,更无法将用户经验持续在线融合。
因此,需要一种新的数据识别方法,以发现并修正数据识别模型的区域误识别,从而提高数据识别、数据分类的准确性。
发明内容
本说明书实施例提供一种错例驱动的数据识别方法、装置和设备,用于解决如下技术问题:现有的机器自动标注技术进行数据识别的修正,只能应用于建模阶段,无法解决模型上线后的能力修正,更无法将用户经验持续在线融合。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种错例驱动的数据识别方法,包括:
从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
基于所述新模型准确率与所述原模型准确率,确定上线模型;
基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
本说明书实施例提供的一种错例驱动的数据识别装置,包括:
模型能力调用模块,从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
用户行为分析模块,对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
模型重训与评估模块,若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
模型上线模块,基于所述新模型准确率与所述原模型准确率,确定上线模型;
数据识别模块,基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
本说明书实施例提供的一种错例驱动的数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
基于所述新模型准确率与所述原模型准确率,确定上线模型;
基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
本说明书一个实施例至少能够达到以下有益效果:应用于模型上线后,能够快速发现锁定模型识别能力短板,自动引导完成进化升级。本发明将用户确认的正例样本和错例样本,不断拟合正例-错例样本边界,引导用户对边界内的可疑样本进行确认,从而减少需要用户确认、修改的记录总量。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的错例驱动的数据识别方法的系统架构示意图;
图2为本说明书实施例提供的一种错例驱动的数据识别方法的总体框架图;
图3为本说明书实施例提供的一种错例驱动的数据识别方法的流程示意图;
图4为本说明书实施例提供的一种错例推送算法的流程示意图;
图5为本说明书实施例提供的一种模型自动进化算法的流程示意图;
图6为本说明书实施例提供的一种错例驱动的数据识别装置的示意图。
具体实施方式
数据识别模型经训练评估后,进入上线服务阶段,其识别能力一般是固化的,因此,数据识别模型存在局部数据误识别的情况。为了修正数据识别模型的区域误识别,现有技术中,数据识别的纠正采用的是机器自动标注技术。机器自动标注技术主要是基于自动建模技术,利用用户手动标记形成的数据标注样本集,来训练相应的数据识别模型,通过融入用户经验,实现数据标注由人工手工到机器自动的转变,显著提升数据标注效率。但是机器自动标注技术只能应用于模型构建阶段,无法进行模型上线阶段后的数据识别的纠正。
基于此,本说明书实施例提供一种错例驱动的数据识别方法,通过在线收集用户的记录纠正行为以发现模型误识别的大概率分布区域,优先将模型误识别的大概率分布区域的记录推送给用户,以便用户对该大概率分布区域的记录进行确认或者修正,持续形成针对模型误识别的纠正记录样本,以利用纠正记录样本对识别模型进行重训以实现模型识别能力的持续修正,从而达到对数据识别的纠正,提高数据识别的准确性。
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
应当理解,尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的错例驱动的数据识别方法的系统架构示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如具有数据识别等功能的专用应用程序。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种专用或通用的电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如,服务器可以训练并运行数据识别模型,实现数据识别功能,以便将数据识别后的结果显示在终端设备101、102、103上。
服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
本公开实施例提供的错例驱动的数据识别方法例如可以由服务器105执行,也可以由终端设备101、102、103执行。或者,本公开实施例的基于错例驱动的数据识别方法可以部分地由终端设备101、102、103执行,其他部分由服务器105执行。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本说明书实施例提供的一种错例驱动的数据识别方法的总体框架图。如图2所示,模型能力调用模块,提供模型能力使用环境,以及用户行为操作的采集环境,该模块以用户请求为输入参数,调用模型能力,返回模型结果。在该模块中,从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录。确定待操作记录后,基于用户行为分析模块采集用户行为信息后,根据用户行为操作更新用户状态记录后,经进化态数据管理模块建立并维护用户状态记录、用户行为操作,建立并维护原数据集和新数据集,进而经模型重训与评估模型实现对原模型重训获得新模块,并对原模型和新模型进行评估;新模型上线模型,对通过评估的新模型进行上线,包括将模型部署到指定运行环境、启动模型并测试模型可用性、将模型说明信息和版本信息、更新模型能力调用模块中的模型调用地址。新模型上线后,将相关数据加入模型能力调用模块,以便模型使用用户使用新模型。需要特别说明的是,进化态数据管理模块的相关数据也供模型能力调用模块调用。
为了进一步理解本说明书实施例提供的错例驱动的数据识别方法,下面将结合具体的实施例予以说明。图3为本说明书实施例提供的一种错例驱动的数据识别方法的流程示意图。如图3所示,该数据识别方法包括:
步骤S301:从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录。
在本说明书实施例中,所述错例-正例集合是通过获取错例集合中每一个错例的向量距离最近的正例,将所述每一个错例的向量最近的正例与所述每一个错例组成所述错例-正例集合。
在本说明书实施例中,所述从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录,具体包括:
从错例-正例集合中的每一个错例-正例组合对中,采用余弦向量选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录,作为所述待操作记录。
具体到实施例中,从原始数据集中,随机选取N条数据推送至用户进行人工确认或者修改标注,形成初始用户状态记录Record;从用户状态记录Record中识别经过用户修改的新错例样本(Record.mark==m),加入到错例集合W中;从错例集合W中取出每一个错例,从用户状态记录Record中选择向量距离最近的K个正例(Record.mark==c),即最接近向量中间的未标记记录,其中K=max{(1-p)*100,1},组成错例-正例集合,其中,p为原模型的准确率,K为从(1-p)*100与1确定的最大值。需要特别说明的是,每一个错例对应K个正例。在本说明书实施例中,原模型理解为当前模型,或者说是上线模型,例如将新模型作为上线模型后,则上线模型即作为原模型应用于数据识别,以便再次进行模型重训,确定新的上线模型。
针对错例-正例集合中的每一个错例-正例组合对,从原始数据集中选取1个未标记记录,该未标记记录与错例-正例组合对的向量平方和最小,并将该未标记记录推送给用户进行人工确认或者修改标注。
在本说明书实施例中,待操作记录为数据识别结果的记录,具体而言,待操作记录为为结构化数据的识别结果的记录。需要特别说明的是,结构化数据做广义理解,即为结构化数据,或者可以转化为结构化数据的数据。具体而言,待操作记录可以为图像数据、文本数据、视频数据、音频数据的识别结果的记录。
在本说明书实施例中,待操作记录至少包括:key、value、用户操作状态。其中key为对象唯一标识,value为对象识别结果,用户操作状态mark包括确认态和修改态。待操作记录中的对象即结构化数据。在本说明书实施例中,待操作记录以用户状态记录表示,具体到实施例中,以Record表示,Record=<key,value,mark>。
步骤S303:对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作。
在本说明书实施例中,所述对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,具体包括:
基于用户行为操作的优先级,对所述用户待操作记录进行相应的用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集。
具体到本说明书实施例中,用户行为操作以action表示,action=<{confirm,modify},m_value>,即用户行为操作包括用户为确认操作confirm还是为修改操作modify,以及用户修改操作后的标记结果m_value。需要特别说明的是,若用户行为操作为确认操作,则m_value的值为空。
在本说明书实施例中,所述基于用户行为操作的优先级,对所述用户待操作记录进行相应的用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态、更新的错例指数及更新的新数据集,具体包括:
若对所述用户待操作记录进行确认操作,则更新所述待操作记录的用户行为状态为确认,将所述待操作记录被确认后的key和value加入到所述新数据集中,作为所述更新的新数据集;
若未对所述用户待操作记录进行确认操作,则进一步判断是否对所述用户待操作记录进行修改操作;
若对所述用户待操作记录进行修改操作,则将修改后的所述待操作记录的value作为所述待操作记录的用户状态记录的value,更新所述待操作记录的用户行为状态为修改,将所述待操作记录被修改后的key和value加入到所述新数据集中,作为所述更新的新数据集。
在本说明书实施例中,所述基于用户行为操作的优先级依次为确认操作、修改操作。
具体到实施例中,若对用户待操作记录进行确认操作,则执行如下操作:
{
记录用户的确认状态,Record.mark=c,即将用户行为状态修改为确认;
更新新数据集B+=<Record.key,Record.value>,即将将待操作记录被确认后的key和value加入到新数据集中,作为更新后的新数据集。
}
若对待操作记录进行修改操作,则执行如下操作:
{
将修改值更新Record.value=action.m_value,即将修改后的待操作记录的value作为待操作记录的用户状态记录的value;
记录用户的修改状态,Record.mark=m,即更新待操作记录的用户行为状态为修改;
更新新数据集B+=<Record.key,Record.value>,即将待操作记录被修改后的key和value加入到新数据集中,作为更新的新数据集;
}
为了进一步理解错例推送及新数据集的更新过程,下面将进一步予以说明。图4为本说明书实施例提供的一种错例推送算法的流程示意图。如图4所示,随机选取部分记录推送者用户进行人工确认或者修改标注,形成初始用户状态记录集;从初始用户状态记录集中,识别新的错例样本,加入到错例集合中;逐个从错例集合中取出错例,并选取距离取出来错例最近的K个正例;针对错例-正例集合中的每一个错例-正例组合对,选择最接近向量中间的未标记记录(即:从原始数据集中选取1个未标记记录,该未标记记录与错例-正例组合对的向量平方和最小),推送给用户作为待操作记录;若用户对待操作记录进行确认操作,则更新该待操作记录为确认状态,并更新新数据集;若用户对待操作记录进行修改操作,则更新该待操作记录为修改状态,并更新新数据集。
步骤S305:若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数。
在本说明书实施例中,所述预设条件为:
count(Record.mark==m)>min{1%*(count(Record)),第一数值}*factor,且count(B)>min{1%*(count(Record.mark==m)),第二数值}*factor
其中:
count(Record.mark==m)为用户行为操作为修改操作的错例数的计数;
count(Record),表示用户状态记录的计数;
min{1%*(count(Record)),第一数值},表示1%*count(Record)与第一数值取最小值;
factor,表示当前进化控制因子;
count(B),表示更新的新数据集的计数;
min{1%*(count(Record.mark==m)),第二数值},表示1%*(count(Record.mark==m))与第二数值取最小值。
需要特别说明的是,第一数值、第二数值的具体大小可以根据业务需要进行调整。在本说明书的一个具体实施例中,第一数值优选为100,第二数值优选为500,即预设条件为:
count(Record.mark==m)>min{1%*(count(Record)),100}*factor,且count(B)>min{1%*(count(Record.mark==m)),500}*factor
其中:
count(Record.mark==m)为用户行为操作为修改操作的错例数的计数;
count(Record),表示用户状态记录的计数;
min{1%*(count(Record)),100},表示1%*count(Record)与100取最小值;
factor,表示当前进化控制因子;
count(B),表示更新的新数据集的计数;
min{1%*(count(Record.mark==m)),500},表示1%*(count(Record.mark==m))与500取最小值。
在本说明书实施例中,若所述更新的新数据集中的用户状态记录中的错例数不满足预设条件,则继续推送错例信息给用户,并收集交互信息。
步骤S307:基于所述新模型准确率与所述原模型准确率,确定上线模型。
在本说明书实施例中,所述基于所述新模型准确率与所述原模型准确率,确定上线模型,具体包括:
若所述新模型准确率相对于所述原模型准确率大于等于预设比值,将所述新模型做为上线模型;
若所述新模型准确率相对于所述原模型准确率小于所述预设比值,则将所述原模型继续作为所述上线模型。
新模型相对于原模型的准确率是指(新模型准确率-原模型准确率)/原模型准确率,具体到实施例中,新模型准确率表示为p_new,原模型准确率为p,则新模型相对于原模型的准确率=(p_new-p)/p。预设比值可以根据业务场景而定,在本说明书的一个实施例中,预设比值为5%,即新模型相对于原模型的准确率=(p_new-p)/p≥5%时,将新模型作为上线模型,新模型相对于原模型的准确率=(p_new-p)/p<5%时,将原模型继续作为上线模型。
在本说明书实施例中,所述若所述新模型准确率相对于所述原模型准确率大于等于预设比值,将所述新模型做为上线模型,进一步包括:
若所述新模型准确率相对于所述原模型准确率小于所述预设比值,则按照预设步长更新所述进化因子,获得更新的进化因子;
基于所述更新的进化因子,确定所述待确认指数满足预设条件的样本集合,以构建学习样本集,进而训练新模型。
在本说明书实施例中,预设步长亦可以理解为增加的数值,即进化因子的增加数值。在具体实施例中,进化因子初始为1。若预设步长为1,若新模型准确率相对于原模型准确率小于预设比值,则继续以原模型作为上线模型,同时更新进化因子,更新的进化因子=1+1=2。当然,预设步长的选择也可以为其他大于1的数值,且预设步长可以为非整数。
若新模型为上线模型后,进一步需要将新数据集中的数据加入到原数据集中,作为原数据集,同时清空新数据集,更新进化因子为1。
为了进一步理解本说明书实施例中,模型的自动进化过程,下面将详细予以说明。图5为本说明书实施例提供的一种模型自动进化算法的流程示意图。如图5所示,首先初始化进化因子为1,满足预设条件后,触发模型自动进化机制;若不满足预设条件,则继续推送错例信息,并收集用户交互信息,具体而言,对用户待操作记录进行用户行为操作,更新所述用户待操作记录的用户行为状态及新数据集。若触发模型自动进化机制,则利用原数据集及更新的新数据集构建学习样本集,并将学习样本集划分为训练集和测试集;随后基于学习样本集中的训练集重训原模型,生成新模型;进一步,基于学习样本集中的评估集对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率。若新模型准确率相对于原模型准确率大于等于预设比值,则上线新模型,并将新数据集加入到原数据集中作为新的原数据集,并清空新数据集,更新进化因子为1。若新模型准确率相对于原模型准确率小于预设比值,则继续以原模型作为上线模型,同时以预设步长更新进化因子,获得更新的进化因子。基于更新的进化因子,确定待确认指数满足预设条件的样本集合,以构建学习样本集,进而训练新模型。
步骤S309:基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
在本说明书实施例中,待识别数据为结构化数据,需要特别说明的是,该结构化数据做广义理解,即为结构化数据,或者可以转化为结构化数据的数据。具体而言,待识别数据可以为图像数据、文本数据、视频数据、音频数据。
将待识别数据输入上线模型后,即可获得数据识别结果。
采用本说明书实施例提供的错例驱动的数据识别方法,应用于模型上线后,能够快速发现锁定模型识别能力短板,自动引导完成进化升级。本发明将用户确认的正例样本和错例样本,不断拟合正例-错例样本边界,引导用户对边界内的可疑样本进行确认,从而减少需要用户确认、修改的记录总量。
本说明书前述实施例提供了一种错例驱动的数据识别方法,基于同样的思路,本说明书实施例还提供一种错例驱动的数据识别装置。图6为本说明书实施例提供的一种错例驱动的数据识别装置的示意图,如图6所示,该数据识别装置包括:
模型能力调用模块601,从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
用户行为分析模块603,对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
模型重训与评估模块605,若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
模型上线模块607,基于所述新模型准确率与所述原模型准确率,确定上线模型;
数据识别模块609,基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
本说明书实施例还提供一种错例驱动的数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
基于所述新模型准确率与所述原模型准确率,确定上线模型;
基于所述上线模型,对待识别数据进行识别,获得数据识别结果。
上述对本说明书特定实施例进行了描述,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种错例驱动的数据识别方法,其特征在于,所述方法包括:
从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
基于所述新模型准确率与所述原模型准确率,确定上线模型;
基于所述上线模型,对待识别数据进行识别,获得数据识别结果;
其中,
所述错例-正例集合是通过获取错例集合中每一个错例的向量距离最近的正例,将所述每一个错例的向量最近的正例与所述每一个错例组成所述错例-正例集合,具体包括:从所述用户状态记录中识别经过用户修改的新错例样本,加入到所述错例集合中;从所述错例集合中取出每一个错例,从所述用户状态记录中选择向量距离最近的K个正例,即最接近向量中间的未标记记录,其中K=max{(1-p)*100,1},组成错例-正例集合,其中,p为所述原模型准确率,K为从(1-p)*100与1确定的最大值,且每一个错例对应K个正例。
2.如权利要求1所述的数据识别方法,其特征在于,所述从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录,具体包括:
从错例-正例集合中的每一个错例-正例组合对中,采用余弦向量选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录,作为所述待操作记录。
3.如权利要求1所述的数据识别方法,其特征在于,所述对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,具体包括:
基于用户行为操作的优先级,对所述用户待操作记录进行相应的用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集。
4.如权利要求3所述的数据识别方法,其特征在于,所述基于用户行为操作的优先级,对所述用户待操作记录进行相应的用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态、更新的错例指数及更新的新数据集,具体包括:
若对所述用户待操作记录进行确认操作,则更新所述待操作记录的用户行为状态为确认,将所述待操作记录被确认后的key和value加入到所述新数据集中,作为所述更新的新数据集;
若未对所述用户待操作记录进行确认操作,则进一步判断是否对所述用户待操作记录进行修改操作;
若对所述用户待操作记录进行修改操作,则将修改后的所述待操作记录的value作为所述待操作记录的用户状态记录的value,更新所述待操作记录的用户行为状态为修改,将所述待操作记录被修改后的key和value加入到所述新数据集中,作为所述更新的新数据集。
5.如权利要求1所述的数据识别方法,其特征在于,所述基于所述新模型准确率与所述原模型准确率,确定上线模型,具体包括:
若所述新模型准确率相对于所述原模型准确率大于等于预设比值,将所述新模型做为所述上线模型;
若所述新模型准确率相对于所述原模型准确率小于所述预设比值,则将所述原模型继续作为所述上线模型。
6.如权利要求5所述的数据识别方法,其特征在于,所述若所述新模型准确率相对于所述原模型准确率大于等于预设比值,将所述新模型做为上线模型,进一步包括:
若所述新模型准确率相对于所述原模型准确率小于所述预设比值,则按照预设步长更新进化因子,获得更新的进化因子;
基于所述更新的进化因子,确定待确认指数满足预设条件的样本集合,以构建学习样本集,进而训练新模型。
7.如权利要求5所述的数据识别方法,其特征在,所述新模型准确率相对于原模型准确率为(新模型准确率-原模型准确率)/原模型准确率。
8.一种错例驱动的数据识别装置,其特征在于,所述装置包括:
模型能力调用模块,从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
用户行为分析模块,对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
模型重训与评估模块,若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
模型上线模块,基于所述新模型准确率与所述原模型准确率,确定上线模型;
数据识别模块,基于所述上线模型,对待识别数据进行识别,获得数据识别结果;
其中,
所述错例-正例集合是通过获取错例集合中每一个错例的向量距离最近的正例,将所述每一个错例的向量最近的正例与所述每一个错例组成所述错例-正例集合,具体包括:从所述用户状态记录中识别经过用户修改的新错例样本,加入到所述错例集合中;从所述错例集合中取出每一个错例,从所述用户状态记录中选择向量距离最近的K个正例,即最接近向量中间的未标记记录,其中K=max{(1-p)*100,1},组成错例-正例集合,其中,p为所述原模型准确率,K为从(1-p)*100与1确定的最大值,且每一个错例对应K个正例。
9.一种错例驱动的数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
从错例-正例集合中的每一个错例-正例组合对中,选取与所述每一个错例-正例组合对的向量平方和距离最小的未标记记录作为待操作记录;
对所述待操作记录进行用户行为操作,以更新选取的未标记记录的用户行为状态及新数据集,获得更新的用户行为状态及更新的新数据集,所述用户行为操作包括确认操作和修改操作;
若所述更新的新数据集中的用户状态记录中的错例数满足预设条件,则基于原数据集及所述更新的新数据集构建学习样本集对原模型进行重训获得新模型,对所述新模型及所述原模型进行评估,获得新模型准确率及原模型准确率,所述用户状态记录中的错例数为用户行为操作为修改操作的错例数的计数;
基于所述新模型准确率与所述原模型准确率,确定上线模型;
基于所述上线模型,对待识别数据进行识别,获得数据识别结果;
其中,
所述错例-正例集合是通过获取错例集合中每一个错例的向量距离最近的正例,将所述每一个错例的向量最近的正例与所述每一个错例组成所述错例-正例集合,具体包括:从所述用户状态记录中识别经过用户修改的新错例样本,加入到所述错例集合中;从所述错例集合中取出每一个错例,从所述用户状态记录中选择向量距离最近的K个正例,即最接近向量中间的未标记记录,其中K=max{(1-p)*100,1},组成错例-正例集合,其中,p为所述原模型准确率,K为从(1-p)*100与1确定的最大值,且每一个错例对应K个正例。
CN202310946707.0A 2023-07-28 2023-07-28 错例驱动的数据识别方法、装置和设备 Active CN116910501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310946707.0A CN116910501B (zh) 2023-07-28 2023-07-28 错例驱动的数据识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310946707.0A CN116910501B (zh) 2023-07-28 2023-07-28 错例驱动的数据识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN116910501A CN116910501A (zh) 2023-10-20
CN116910501B true CN116910501B (zh) 2024-04-12

Family

ID=88360071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310946707.0A Active CN116910501B (zh) 2023-07-28 2023-07-28 错例驱动的数据识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116910501B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及系统
CN109936582A (zh) * 2019-04-24 2019-06-25 第四范式(北京)技术有限公司 构建基于pu学习的恶意流量检测模型的方法及装置
CN110532542A (zh) * 2019-07-15 2019-12-03 西安交通大学 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111027707A (zh) * 2019-11-22 2020-04-17 北京金山云网络技术有限公司 模型的优化方法、装置及电子设备
CN111767380A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 模型自适应重训方法、装置、电子设备和存储介质
CN115859122A (zh) * 2023-02-02 2023-03-28 中国电子科技集团公司第十五研究所 一种数据识别方法、自动持续学习模型、装置和设备
CN115964639A (zh) * 2023-03-16 2023-04-14 中国电子科技集团公司第十五研究所 一种数据识别方法、模型适配新数据的方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443209B2 (en) * 2020-04-16 2022-09-13 International Business Machines Corporation Method and system for unlabeled data selection using failed case analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及系统
CN109936582A (zh) * 2019-04-24 2019-06-25 第四范式(北京)技术有限公司 构建基于pu学习的恶意流量检测模型的方法及装置
CN110532542A (zh) * 2019-07-15 2019-12-03 西安交通大学 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111027707A (zh) * 2019-11-22 2020-04-17 北京金山云网络技术有限公司 模型的优化方法、装置及电子设备
CN111767380A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 模型自适应重训方法、装置、电子设备和存储介质
CN115859122A (zh) * 2023-02-02 2023-03-28 中国电子科技集团公司第十五研究所 一种数据识别方法、自动持续学习模型、装置和设备
CN115964639A (zh) * 2023-03-16 2023-04-14 中国电子科技集团公司第十五研究所 一种数据识别方法、模型适配新数据的方法、装置和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self-Corrective Dynamic Networks via Decentralized Reverse Computations;Evangelos Pournaras Etc.;2017 IEEE International Conference on Autonomic Computing (ICAC);全文 *
基于自适应更新与特征优化的孪生网络目标跟踪;盂令研;中国优秀硕士论文电子期刊网;全文 *
基于边际概率分布匹配的主动标记分布学习;董心悦;范瑞东;侯臣平;;计算机科学(09);全文 *

Also Published As

Publication number Publication date
CN116910501A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN111160749B (zh) 一种情报质量评估和情报融合方法及装置
CN112069903B (zh) 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN105408919A (zh) 查询响应设备
CN108733508A (zh) 用于控制数据备份的方法和系统
CN110781960B (zh) 视频分类模型的训练方法、分类方法、装置及设备
CN108334895A (zh) 目标数据的分类方法、装置、存储介质及电子装置
CN109542737A (zh) 平台告警处理方法、装置、电子装置及存储介质
CN110339567A (zh) 系统资源配置、场景预测模型训练方法和装置
CN115859122A (zh) 一种数据识别方法、自动持续学习模型、装置和设备
CN111557010A (zh) 学习装置和方法以及程序
CN114422322B (zh) 一种告警压缩的方法、装置、设备及存储介质
CN116910501B (zh) 错例驱动的数据识别方法、装置和设备
JP6903536B2 (ja) 運行情報処理装置およびその処理方法
CN116361567B (zh) 应用于云办公的数据处理方法及系统
CN112887371A (zh) 边缘计算方法、装置、计算机设备及存储介质
CN114580794B (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN116662764B (zh) 误识别纠正的数据识别方法、模型训练方法、装置和设备
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
CN116167935A (zh) 二维码的修复方法、装置、设备及介质
CN110035126A (zh) 一种文件处理方法、装置、计算设备及存储介质
CN112346737B (zh) 编程语言翻译模型的训练方法、装置、设备及存储介质
CN116703046A (zh) 实时派工顺序的控制方法及系统、电子设备和存储介质
CN115221892A (zh) 工单数据处理方法及装置、存储介质及电子设备
WO2021242585A1 (en) Interpretable imitation learning via prototypical option discovery
CN115965227A (zh) 工作流的数据处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant