CN114065759A - 一种模型失效检测方法、装置、电子设备及介质 - Google Patents

一种模型失效检测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114065759A
CN114065759A CN202111402604.5A CN202111402604A CN114065759A CN 114065759 A CN114065759 A CN 114065759A CN 202111402604 A CN202111402604 A CN 202111402604A CN 114065759 A CN114065759 A CN 114065759A
Authority
CN
China
Prior art keywords
text
distribution
model
words
text distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111402604.5A
Other languages
English (en)
Other versions
CN114065759B (zh
Inventor
吕博文
何维华
刘宝强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skieer Information Technology Co ltd
Original Assignee
Shenzhen Skieer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skieer Information Technology Co ltd filed Critical Shenzhen Skieer Information Technology Co ltd
Priority to CN202111402604.5A priority Critical patent/CN114065759B/zh
Publication of CN114065759A publication Critical patent/CN114065759A/zh
Application granted granted Critical
Publication of CN114065759B publication Critical patent/CN114065759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种模型失效检测方法、装置、电子设备及介质,所述方法包括:获取待测模型对应的训练数据的第一文本分布;获取所述待测模型对应的业务数据的第二文本分布;获取所述第一文本分布以及所述第二文本分布之间的偏移值;在所述偏移值大于预设的预警阈值时,执行预设操作,例如发出报警信息;最后从公共词集合中按照偏离量由大到小的顺序对单词进行排序。本发明的技术方案,属基于KL散度或JS散度的数据分布差异量化方法,可实现针对文本数据应用场景的各项适配,保证模型在上线后性能符合预期;本发明的有益效果包括:及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费。

Description

一种模型失效检测方法、装置、电子设备及介质
技术领域
本发明涉及机器学习领域,尤其涉及一种模型失效检测方法、装置、电子设备及介质。
背景技术
自然语言处理模型如今被广泛应用于网络中的海量文本数据,对这些数据进行结构化整理、分析。在当下的机器学习领域,模型的表现更多取决于数据的数量和质量,以及训练任务设计的合理性。
当前的机器学习中的模型泛化能力,指的是模型在遇到领域内相似情形时的推断能力,即内插(Interpolation)泛化能力,而非针对领域外数据的外推(Extrapolation)能力。简而言之,目前的机器学习模型,普遍要求在上线后所遇到的待分析数据,不能超出之前所用于训练的数据分布,否则模型的推断效果就会发生显著下降,即发生退化现象。受到使用场景的分布变化速度影响,所述退化现象的明显程度不一。
在自媒体快速发展的当下,网络用语飞速传播,容易出现词语概念的改变、情感的极性翻转,进而影响模型上线后的准确率。为了保证模型在上线后性能符合预期,目前业界的解决方案为:定时从模型的真实工作环境中收集数据,并将这些数据整合到原来的训练数据中,重新训练模型后对线上模型进行更新。
由前述背景可以明确,模型的部署上线,并不是一劳永逸的任务终点,上线后的持续跟踪维护,才是维持其性能的重要环节。因此,现有技术的缺陷主要体现在跟踪维护的过程中,具体包括:
在模型并未发生显著退化的情况下,进行低效率的数据收集工作,容易造成资源浪费;对突发事件造成的噪声无法有效识别,容易导致训练模型不够精准;这种导致模型退化的分布变化是存在其内在价值的,现有技术无法在实质上追踪这些分布变化,导致错失有价值的时序变化信息。
发明内容
本发明所述技术方案,可针对不同的文本数据应用场景,与现有技术相比实现更好地检测模型的失效情况。
本发明所要解决的技术问题为:及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
第一方面,本发明提供了一种模型失效检测方法,包括:获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词及所述单词对应的词频;获取所述第一文本分布以及所述第二文本分布之间的偏移值;在所述偏移值大于预设的预警阈值时,执行预设操作。
其进一步的技术方案为,所述获取待测模型的训练数据的第一文本分布还包括:对所述训练数据进行分词处理,得到第一文本集合;将所述第一文本集合中的停用词删除,得到第二文本集合;对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
其进一步的技术方案为,所述获取待测模型对应的业务数据的第二文本分布还包括:对所述业务数据进行分词处理,得到第三文本集合;将所述第三文本集合中的停用词删除,得到第四文本集合;对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
其进一步的技术方案为,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值还包括:提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;对所述第三文本分布进行归一化处理得到第一概率分布Q;对所述第四文本分布进行归一化处理得到第二概率分布Pt;根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值。
其进一步的技术方案为,所述根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值还包括:通过以下公式计算所述第一概率分布Q和第二概率分布Pt之间的KL散度
Figure BDA0003365215830000031
作为所述偏移值;或计算所述第一概率分布Q和第二概率分布Pt之间的JS散度,作为所述偏移值。
其进一步的技术方案为,还包括:选取预设数量的单词作为主要归因词汇;根据所述主要归因词汇筛选目标训练数据;通过所述目标训练数据对所述待测模型进行训练。
其进一步的技术方案为,所述选取预设数量的单词作为主要归因词汇还包括:根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;通过公式
Figure BDA0003365215830000032
计算所述偏离量Δw,其中qw为第一频次占比,pw为第二频次占比;从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
第二方面,本发明实施例提供的一种模型失效检测装置,所述模型失效检测装置包括用于执行如第一方面所述方法的单元。
第三方面,本发明提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行存储器上所存放的程序时,实现第一方面所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例的技术方案中,可实现及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
因此,本发明的目的在于:
1.对文本数据分布差异进行量化预警,确保线上模型处于预定工作状态。
2.分布差异的重要性归因,即对分布中的差异因素进行重要性排序。
3.将重要性靠前的因素,作为训练数据扩增的依据,增加数据扩增的可解释性并降低成本。
4.挖掘重要差异因素的附加价值,该价值的大小,取决于具体应用场景下的业务逻辑。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种模型失效检测方法的流程示意图。
图2为本发明实施例提供的一种模型失效检测方法的子流程示意图。
图3为本发明实施例提供的一种模型失效检测方法的子流程示意图。
图4为本发明实施例提供的一种模型失效检测方法的子流程示意图。
图5是本发明另一个实施例提供的模型失效检测装置的结构示意图。
图6是本发明另一个实施例提供的模型失效检测装置的结构示意图。
图7是本发明另一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述。显然,以下将描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,在此本发明实施例说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明实施例。如在本发明实施例说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
实施例1
参见图1,图1为本发明实施例提供的一种模型失效检测方法的流程示意图。本发明实施例提出一种模型失效检测方法,该模型失效检测方法应用于机器学习训练模型,作为机器学习训练模型的辅助工具,避免或减少机器学习训练模型随着时间的推移而导致性能下降。
具体地,参见图1,该模型失效检测方法包括如下步骤。
S101,获取待测模型对应的训练数据的第一文本分布。
所述训练数据为自然语言数据。
所述第一文本分布包括单词及所述单词对应的词频。
所述第一文本分布的数据量较小,可选地,其数量不超过10000。
所述文本分布可以为,给定数据源在特定时间窗口,所产生的所有文本数据的词频统计分布。
参见图2,在一实施例中,以上步骤S101具体包括如下步骤:
S201,对所述训练数据进行分词处理,得到第一文本集合。
S202,将所述第一文本集合中的停用词删除,得到第二文本集合。
S203,对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
上述技术方案当中,对第二文本集合进行了停用词删除,因而第二文本集合的单词质量优于第一文本集合,所以对第二文本集合进行词频统计后,可以提升本发明技术方案的准确度。
S102,获取所述待测模型对应的业务数据的第二文本分布。
所述业务数据为,在预设的时间区间内采集的所述待测模型对应的自然语言数据。
所述第二文本分布包括单词及所述单词对应的词频。
所述第二文本分布的数据量较大,需要选择合适的时间区间,一方面降低成本,另一方面避免因时间区间过长而掩盖数据变化的真实情况。
所述预设的时间区间,可以为某个时间跨度,也可以为某个时间分片。
进一步地,相邻时间分片的间隔,可根据采样定理,设定采样间隔不大于事件持续时间的一半,其技术效果为避免在采样间隔中错失预警时机;进一步地,可以采用非均匀采样:例如电商购物节,相应词语的文本快速变化,例如红包、尾款、秒杀等,此时可以采用非均匀采样。
参见图3,在一实施例中,以上步骤S102具体包括如下步骤:
S301,对所述业务数据进行分词处理,得到第三文本集合。
S302,将所述第三文本集合中的停用词删除,得到第四文本集合。
S303,对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
上述技术方案当中,对第四文本集合进行了停用词删除,因而第四文本集合的单词质量优于第三文本集合,所以对第四文本集合进行词频统计后,可以提升本发明技术方案的准确度。
S103,获取所述第一文本分布以及所述第二文本分布之间的偏移值。
所述偏移值可以对第一文本分布、第二文本分布之间的分布差异进行量化。
参见图4,在一实施例中,以上步骤S103具体包括如下步骤:
S401,提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合。
S402,从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布。
S403,从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布。
S404,对所述第三文本分布进行归一化处理得到第一概率分布Q。
S405,对所述第四文本分布进行归一化处理得到第二概率分布Pt
S406,根据所述第一概率分布Q和第二概率分布Pt计算偏移值。
所述偏移值可以为KL散度,第一概率分布Q和第二概率分布Pt之间的KL散度为:
Figure BDA0003365215830000061
当Pt的分布与Q一致时,模型的表现效果最佳,随着Pt与Q的差异越大,则模型的预测效果变差,其退化的风险变高。
所述偏移值可以为JS散度,第一概率分布Q和第二概率分布Pt之间的JS散度为:
Figure BDA0003365215830000071
其中,R=(Q+Pt)/2;
上述技术方案当中,筛选公共词的词频和进行归一化处理,共同保证了最后得到的结果符合偏移值的定义与值域,进而保证量化指标的可解释性。
上述技术方案当中,偏移值的计算较为简洁,在线上监控过程中无需重复进行计算,所以实施成本很低。
上述技术方案当中,随着Pt与Q的差异越大,则模型的预测效果变差,而JS散度的波动比KL散度更小,解决了KL散度非对称的问题,在部分场景中应用JS散度可以提升模型预测效果的准确度。
本发明主要解决模型训练数据Q对于线上业务数据Pt的表达能力,实现对模型退化的预警,因此主要考虑DKL(Pt||Q);次要考虑线上某个时间段内的业务数据对模型训练数据Q的表达能力DKL(Q||Pt)。在实际业务场景中,DKL(Pt||Q)的重要性高于DKL(Q||Pt)。
S104,在所述偏移值大于预设的预警阈值时,执行预设操作。
所述预警阈值,可根据项目实际情况确定。
若预警阈值较低,则所述技术方案对模型的退化较为敏感,容易频繁出现预警,模型的退化更容易被即时纠正,且实施成本较高。
若预警阈值较高,则所述技术方案对模型的退化不敏感,不容易频繁出现预警,模型的退化不会被频繁纠正,且实施成本较低。
上述技术方案当中,预设操作可以为发出报警信息,即可以及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费。
实施例2
S501,获取待测模型对应的训练数据的第一文本分布。
所述训练数据为自然语言数据。
所述第一文本分布包括单词及所述单词对应的词频。
所述第一文本分布的数据量较小,可选地,其数量不超过10000。
S502,获取所述待测模型对应的业务数据的第二文本分布。
所述业务数据为,在预设的时间区间内采集的所述待测模型对应的自然语言数据。
所述第二文本分布包括单词及所述单词对应的词频。
所述第二文本分布的数据量较大,需要选择合适的时间区间,一方面降低成本,另一方面避免因时间区间过长而掩盖数据变化的真实情况。
S503,获取所述第一文本分布以及所述第二文本分布之间的偏移值。
所述偏移值可以对第一文本分布、第二文本分布之间的分布差异进行量化。
S504,在所述偏移值大于预设的预警阈值时,执行预设操作。
所述技术方案,预设操作可以为发出报警信息,即可以及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费。
S505,选取预设数量的单词作为主要归因词汇。根据所述主要归因词汇筛选目标训练数据。通过所述目标训练数据对所述待测模型进行训练。
所述主要归因词汇,为对模型性能退化的影响较为明显的词汇。
所述筛选目标训练数据,即根据应用场景需求,在主要归因词汇当中选出前K个重要性更高的词汇,并对前K个重要性更高的词汇进行标注;所述前K个的具体数量,可根据实际情况确定。
上述方案中,训练数据的来源是真实业务数据,主要归因词汇作为检索关键词,通过围绕所述检索关键词,对线上的业务数据进行针对性筛选,可以有效减少训练数据的标注数量;而现有技术为,无差别的导出一批线上业务数据直接进行标注,这种不经筛选的方案效率较低且性价比不高;因此,上述方案克服了现有技术中存在的缺陷。
在一实施例中,以上步骤S505具体包括如下步骤:
S611,提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合。
S612,从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布。
S613,从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布。
S614,根据所述第三文本分布,获取第一频次占比。
所述第一频次占比为,所述公共词集合中的单词在所述第三文本分布中的频次占比。
S615,根据所述第四文本分布,获取第二频次占比。
所述第二频次占比为,所述公共词集合中的单词在所述第四文本分布中的频次占比。
S616,根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量。
所述偏离量为第一频次占比相对于第二频次占比的偏离差异。
S617,通过公式
Figure BDA0003365215830000091
计算所述偏离量Δw
其中qw为第一频次占比,pw为第二频次占比。
S618,从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
上述技术方案,通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题。
S506,根据所述主要归因词汇筛选目标训练数据。
所述目标训练数据,为待测模型的训练数据的新版本,目标训练数据的筛选可有效防止模型的退化。
S507,通过所述目标训练数据,对所述待测模型进行训练。
上述技术方案,通过获取造成差异的主要归因词汇,可实现追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
上述技术方案进行训练的结果,有较高的精准度,在模型发生退化以后可以用最小的成本或者代价,实现即时纠正,因此该训练结果具有良好的参考价值。
实施例3
参见图5,本发明实施例3提供的一种模型失效检测装置的框图,该模型失效检测装置包括:
第一获取单元71,用于获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;
第二获取单元72,用于获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词及所述单词对应的词频;
第三获取单元73,用于获取所述第一文本分布以及所述第二文本分布之间的偏移值;
预警单元74,用于在所述偏移值大于预设的预警阈值时,执行预设操作。
在一实施例中,所述获取待测模型对应的训练数据的第一文本分布,包括:
对所述训练数据进行分词处理,得到第一文本集合;
将所述第一文本集合中的停用词删除,得到第二文本集合;
对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
在一实施例中,所述获取所述待测模型对应的业务数据的第二文本分布,包括:
对所述业务数据进行分词处理,得到第三文本集合;
将所述第三文本集合中的停用词删除,得到第四文本集合;
对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
在一实施例中,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值,包括:
提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;
从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;
从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;
对所述第三文本分布进行归一化处理得到第一概率分布Q;
对所述第四文本分布进行归一化处理得到第二概率分布Pt
根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值。
在一实施例中,所述根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值,包括:
通过以下公式计算所述第一概率分布Q和第二概率分布Pt之间的KL散度
Figure BDA0003365215830000111
作为所述偏移值;
或计算所述第一概率分布Q和第二概率分布Pt之间的JS散度,作为所述偏移值。
所述模型失效检测装置,可实现及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
实施例4
参见图6,本发明实施例4提供的一种模型失效检测装置的框图,实施例4提供的模型失效检测装置与实施例3提供的模型失效检测装置的区别在于,还包括:
选取单元75,用于选取预设数量的单词作为主要归因词汇;
筛选单元76,用于根据所述主要归因词汇筛选目标训练数据;
训练单元77,用于通过所述目标训练数据对所述待测模型进行训练。
在一实施例中,所述选取预设数量的单词作为主要归因词汇,包括:
根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;
根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;
根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;
通过公式
Figure BDA0003365215830000112
计算所述偏离量Δw,其中qw为第一频次占比,pw为第二频次占比;
从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
上述方案中,从线上业务数据根据主要归因词汇筛选一部分数据,并对所述数据进行标注,可以有效减少训练数据的标注数量,实现效率的提升。
实施例5
如图7所示,本发明实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113、通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
在本发明一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的模型失效检测方法,包括:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的模型失效检测方法的步骤。
综上所述,本发明的技术方案,可实现及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种模型失效检测方法,其特征在于,包括:
获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;
获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词及所述单词对应的词频;
获取所述第一文本分布以及所述第二文本分布之间的偏移值;
在所述偏移值大于预设的预警阈值时,执行预设操作。
2.根据权利要求1所述的模型失效检测方法,其特征在于,所述获取待测模型对应的训练数据的第一文本分布,包括:
对所述训练数据进行分词处理,得到第一文本集合;
将所述第一文本集合中的停用词删除,得到第二文本集合;
对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
3.根据权利要求1或2所述的模型失效检测方法,其特征在于,所述获取所述待测模型对应的业务数据的第二文本分布,包括:
对所述业务数据进行分词处理,得到第三文本集合;
将所述第三文本集合中的停用词删除,得到第四文本集合;
对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
4.根据权利要求1所述的模型失效检测方法,其特征在于,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值,包括:
提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;
从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;
从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;
对所述第三文本分布进行归一化处理得到第一概率分布Q;
对所述第四文本分布进行归一化处理得到第二概率分布Pt
根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值。
5.根据权利要求4所述的模型失效检测方法,其特征在于,所述根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值,包括:
通过以下公式计算所述第一概率分布Q和第二概率分布Pt之间的KL散度
Figure FDA0003365215820000021
作为所述偏移值;
或计算所述第一概率分布Q和第二概率分布Pt之间的JS散度,作为所述偏移值。
6.根据权利要求4或5所述的模型失效检测方法,其特征在于,还包括:
选取预设数量的单词作为主要归因词汇;
根据所述主要归因词汇筛选目标训练数据;
通过所述目标训练数据对所述待测模型进行训练。
7.根据权利要求6所述的模型失效检测方法,其特征在于,所述选取预设数量的单词作为主要归因词汇,包括:
根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;
根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;
根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;
通过公式
Figure FDA0003365215820000022
计算所述偏离量Δw,其中qw为第一频次占比,pw为第二频次占比;
从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
8.一种模型失效检测装置,其特征在于,所述模型失效检测装置包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202111402604.5A 2021-11-19 2021-11-19 一种模型失效检测方法、装置、电子设备及介质 Active CN114065759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402604.5A CN114065759B (zh) 2021-11-19 2021-11-19 一种模型失效检测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402604.5A CN114065759B (zh) 2021-11-19 2021-11-19 一种模型失效检测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN114065759A true CN114065759A (zh) 2022-02-18
CN114065759B CN114065759B (zh) 2023-10-13

Family

ID=80275703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402604.5A Active CN114065759B (zh) 2021-11-19 2021-11-19 一种模型失效检测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114065759B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN110245232A (zh) * 2019-06-03 2019-09-17 网易传媒科技(北京)有限公司 文本分类方法、装置、介质和计算设备
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112667750A (zh) * 2019-09-30 2021-04-16 中兴通讯股份有限公司 一种报文类别的确定、识别方法及装置
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113177109A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 文本的弱标注方法、装置、设备以及存储介质
WO2021161095A1 (en) * 2020-02-14 2021-08-19 Microsoft Technology Licensing, Llc Text recognition in image
CN113342942A (zh) * 2021-08-02 2021-09-03 平安科技(深圳)有限公司 语料自动化获取方法、装置、计算机设备及存储介质
CN113515632A (zh) * 2021-06-30 2021-10-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于图路径知识萃取的文本分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN110245232A (zh) * 2019-06-03 2019-09-17 网易传媒科技(北京)有限公司 文本分类方法、装置、介质和计算设备
CN112667750A (zh) * 2019-09-30 2021-04-16 中兴通讯股份有限公司 一种报文类别的确定、识别方法及装置
WO2021161095A1 (en) * 2020-02-14 2021-08-19 Microsoft Technology Licensing, Llc Text recognition in image
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN113177109A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 文本的弱标注方法、装置、设备以及存储介质
CN113515632A (zh) * 2021-06-30 2021-10-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于图路径知识萃取的文本分类方法
CN113342942A (zh) * 2021-08-02 2021-09-03 平安科技(深圳)有限公司 语料自动化获取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114065759B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
KR101999471B1 (ko) 정보 추천 방법 및 장치
EP2854053B1 (en) Defect prediction method and device
CN109582833B (zh) 异常文本检测方法及装置
CN112513851A (zh) 使用机器学习的敏感数据标识
CN111026653B (zh) 异常程序行为检测方法、装置、电子设备和存储介质
CN107423278B (zh) 评价要素的识别方法、装置及系统
US20200026512A1 (en) Open-source-license analyzing method and apparatus
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN114116397A (zh) 一种监控指标的预警归因方法、装置、设备及存储介质
US11809505B2 (en) Method for pushing information, electronic device
CN111598338B (zh) 用于更新预测模型的方法、装置、介质和电子设备
CN110869942A (zh) 自馈深度学习方法和系统
CN113095509A (zh) 线上机器学习模型的更新方法和装置
CN111338692A (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN110956278A (zh) 重新训练机器学习模型的方法和系统
Nemati Gender and Age Prediction Multilingual Author Profiles Based on Comments.
CN111309585A (zh) 日志数据测试方法及装置、系统、电子设备、存储介质
CN117540826A (zh) 机器学习模型的优化方法、装置、电子设备及存储介质
CN110543869A (zh) 滚珠丝杠寿命预测方法、装置、计算机设备及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
JP5905375B2 (ja) 誤分類検出装置、方法、及びプログラム
CN106445788A (zh) 一种信息系统运行状态预测方法和装置
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN110910905B (zh) 静音点检测方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd.

Address before: 518057 401, block a, sharing building, No. 78, Keyuan North Road, songpingshan community, Xili street, Nanshan District, Shenzhen, Guangdong

Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant