CN109902157A - 一种训练样本有效性检测方法及装置 - Google Patents

一种训练样本有效性检测方法及装置 Download PDF

Info

Publication number
CN109902157A
CN109902157A CN201910022265.4A CN201910022265A CN109902157A CN 109902157 A CN109902157 A CN 109902157A CN 201910022265 A CN201910022265 A CN 201910022265A CN 109902157 A CN109902157 A CN 109902157A
Authority
CN
China
Prior art keywords
asked
extension
ask
annotation results
asks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910022265.4A
Other languages
English (en)
Inventor
许开河
杜尧鑫
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910022265.4A priority Critical patent/CN109902157A/zh
Publication of CN109902157A publication Critical patent/CN109902157A/zh
Priority to PCT/CN2019/117090 priority patent/WO2020143301A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种训练样本有效性检测方法及装置,本发明涉及人工智能技术领域,方法包括:获取多个扩展问,其中,每个扩展问与对应的一个预设标准问关联;将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集;利用训练集训练分类模型;采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成;获取分类模型输出的所有的扩展问的标注结果;根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。本发明实施例提供的技术方案能够解决现有技术中训练样本有效性检测效率低的问题。

Description

一种训练样本有效性检测方法及装置
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种训练样本有效性检测方法及装置。
【背景技术】
目前,客服机器人发展趋于成熟,根据所需要实现的业务场景,需要大量的训练语料对基于机器学习智能应答模型进行训练,然而,现实中训练语料往往质量参差不齐,不好的语料会导致应答模型的回答效果产生负面影响,因此如何提高训练样本的有效性检测效率成为目前亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种训练样本有效性检测方法、装置和计算机设备,用以解决现有技术中训练样本的有效性检测效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种训练样本有效性检测方法,所述方法包括:
步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;
步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;
步骤S103,利用所述训练集训练分类模型;
步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;
步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;
步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。
进一步地,在所述步骤S105之后,所述方法还包括:
重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;获取所述分类模型的输出的所有的所述扩展问的M次标注结果;当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算各个所述扩展问的第一累计得分;筛选出所述第一累计得分小于第一预设阈值的所述扩展问;将筛选出的扩展问作为所述异常扩展问,并输出。
进一步地,在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后,所述方法还包括:
当所述标注结果与所述预设标准问相同时,由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值;或,当所述标注结果与所述预设标准问不同时,所述标准问对的当次计分为所述第二预设分值;计算各个所述标准问对的第二累计得分;筛选出所述第二累计得分小于第二预设阈值的所述标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。
进一步地,在所述步骤S105之后,所述方法还包括:
获取实质相同的多个扩展问的标注结果,所述实质相同的多个扩展问的语义相似度大于预设值;统计所述实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问;将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问。
进一步地,在所述将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问之后,所述方法还包括:将所述异常扩展问所关联的预设标准问修改为所述正确预设标准问。
进一步地,所述方法还包括:修正所述异常扩展问,并用修正后的所述异常扩展问替换原扩展问;用替换后的多个所述扩展问训练所述分类模型。
进一步地,所述交叉验证方法为十折交叉验证方法或五折交叉验证方法中的任意一种。
为了实现上述目的,根据本发明的一个方面,提供了一种训练样本有效性检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取多个扩展问,其中,每个所述扩展问基于预设分类规则与对应的一个预设标准问关联;制作单元,用于将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;训练单元,用于利用所述训练集训练分类模型;标注单元,用于采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;第二获取单元,用于获取所述分类模型输出的所有的所述扩展问的标注结果;处理单元,用于根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。
进一步地,所述装置还包括:重复单元,用于重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;所述第二获取单元,还用于获取所述分类模型的输出的所有的所述扩展问的M次标注结果;计分单元,用于当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;计算单元,用于计算各个所述扩展问的第一累计得分;筛选单元,用于筛选出所述第一累计得分小于第一预设阈值的扩展问;输出单元,用于将筛选出的扩展问作为所述异常扩展问,并输出。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的训练样本有效性检测方法的步骤。
在本方案中,利用交叉验证方法和分类模型来对扩展问进行标注,从而根据标注结果与扩展问关联的预设标准问进行匹配,得到异常扩展问,快速筛选出异常扩展问,提高了训练样本的有效性检测效率,从而避免一些质量低的扩展问来训练智能应答模型。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是根据本发明实施例的一种训练样本有效性检测方法的流程图;
图2是根据本发明实施例的一种训练样本有效性检测装置的示意图;
图3是根据本发明实施例的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一获取单元也可以被称为第二二获取单元,类似地,第二获取单元也可以被称为第一获取单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种训练样本有效性检测方法的流程图,如图1所示,该方法包括:
步骤S101,获取多个扩展问,其中,每个扩展问与对应的一个预设标准问关联。
步骤S102,将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集。
步骤S103,利用训练集训练分类模型。
步骤S104,采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成。
步骤S105,获取分类模型输出的所有的扩展问的标注结果。
步骤S106,根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。
在本方案中,利用交叉验证方法和分类模型来对扩展问进行标注,从而根据标注结果与扩展问关联的预设标准问进行匹配,得到异常扩展问,快速筛选出异常扩展问,提高了训练样本的有效性检测效率,从而避免一些质量低的扩展问来训练智能应答模型。
例如,预设标准问例如为“信用卡逾期怎么办?”,它的扩展问1为“我的信用卡逾期了,需要怎么处理”,扩展问2为“信用卡逾期可以不还吗”,扩展问3为“过了信用卡还款日,怎么办”。可以理解地,扩展问1、扩展问2、扩展问3所关联的预设标准问皆为“信用卡逾期怎么办?”
在本实施例中,训练集用于对分类模型进行训练样本集,为了使训练后的分类模型能够基于用户输入的问题识别出用户可能期望咨询的标准问。训练集中的扩展问为待分类的数据,其类别即为其关联的预设标准问。具体地,分类模型包括输入层、输出层及融合层。其中,输入层包括词语特征输入层和问题特征输入层。每个扩展问所关联的预设标准问作为问题特征,问题特征输入层用于获取输入的扩展问关联的预设标准问的特征,词语特征输入层用于获取扩展问分词处理后得到的词汇的特征。分类模型在经过训练后,能够根据学习到的词汇特性及问题特征来对一个新的扩展问进行分类,使得新的扩展问尽可能地分类至一个准确的标准问下。
可选地,交叉验证方法为十折交叉验证方法或五折交叉验证方法中的任意一种。在一种实施方式中,采用五折交叉验证方法,具体地,将多个扩展问随机分成10份,每次取其中2份作为交叉验证集,其余8份作为训练集。训练时,先用其中的8份对初始化后的分类模型进行训练,然后对2份交叉验证集进行分类标注,以此重复训练及验证过程5次,每次选取的交叉验证集不同,直至所有的扩展问都被标注一遍。可以理解地,根据分类模型的分类结果对交叉验证集中的扩展问进行标注,例如将扩展问4“我的信用卡要逾期了,我该怎么处理”分类至预设标准问“信用卡逾期怎么办”下,那么扩展问4的关联标准问就是分类模型的分类结果。
在另一种实施方式中,将每个预设标准问所关联的多个扩展问随机分成10份,每次从每个预设标准问所关联的10份扩展问中抽取1份作为交叉验证集,其余9份作为训练集。例如:预设标准问有10个,分别为A1,A2…A10,每个预设标准问关联多个扩展问,因此将每个预设标准问所关联的多个扩展问随机分成10份,可以保证交叉验证时每个预设标准问都能得到有效的训练。
可选地,在步骤S105之后,方法还包括:
重复操作M次的步骤S102至步骤S104,其中,M为大于1的自然数,每次重复操作前对分类模型进行初始化;获取分类模型的输出的所有的扩展问的M次标注结果;当标注结果与预设标准问相同时,扩展问的当次计分为第一预设分值;或,当标注结果与预设标准问不同时,扩展问的当次计分为第二预设分值;计算各个扩展问的第一累计得分;筛选出第一累计得分小于第一预设阈值的扩展问;将筛选出的扩展问作为异常扩展问,并输出。
具体地,分类模型标注M次后,对M次的所有扩展问的标注结果进行统计,扩展问的得分越低,其关联的预设标准问是错误的可能性越高。例如:当标注结果与预设标准问相同时,扩展问的得分为1;当标注结果与预设标准问不同时,扩展问的得分为-1,重复标注10次,其中6次得分为1,4次得分为-1,则扩展问的得分为10次标注结果的加和平均值,为0.2分。当第一预设阈值为0.1分时,则表示多个扩展问的分值小于0.1分的皆为异常扩展问。
可选地,所述分类模型可以采用多种机器学习算法,可以是朴素贝叶斯算法、最近邻法则、线性判别分析、支持向量机或决策树算法。在重复操作M次的步骤S102至步骤S104中,所述分类模型所采用的机器学习算法可以相同,也可以不同。采用不同的机器学习算法,能够减小标注错误的偶然误差,通过分类模型对交叉验证集进行多次标注,并将标注结果和预设标准问进行对比,可以有效增强异常扩展问的识别准确性。
可选地,在获取分类模型的输出的所有的扩展问的M次标注结果之后,方法还包括:
当标注结果与预设标准问相同时,由标注结果与预设标准问所组成的标准问对的当次计分为第一预设分值;或,当标注结果与预设标准问不同时,标准问对的当次计分为第二预设分值;计算各个标准问对的第二累计得分;筛选出第二累计得分小于第二预设阈值的标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。
例如,分类模型标注10次后,10个预设标准问(A1,A2…A10),10种标注结果(a1,a2…a10),就会有100种可能的标注问对,如:标准问对(A1,a1)。当扩展问的标注结果a1与预设标准问A1相同时,标准问对(A1,a1)的得分为1,不同则得分-1;分类模型标注10次后,标准问对(A1,a1)的得分越低,预设标准问A1与标注结果a1之间越容易混淆。将易混淆标准问对输出,有利于开发人员修正标注结果,精确分类,降低混淆概率。
可选地,在步骤S105之后,方法还包括:
获取实质相同的多个扩展问的标注结果,实质相同的多个扩展问的语义相似度大于预设值;统计实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为实质相同的多个扩展问对应的正确预设标准问;将标注结果与正确预设标准问不同的扩展问确认为异常扩展问。
其中,计算语义相似度的方法有余弦相似度计算法、BM25算法等。
在一种实施方式中,计算语义相似度的方法包括:获取同一预设标准问关联的多个扩展问,将每个扩展问进行分词处理并提取关键词,其中,可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对每个子段文本进行分词;通过词向量表示模型获取每个关键词的向量表示,其中,词向量表示模型例如可以是WORD2VEC等神经网络模型。采用余弦相似度公式分别计算任意两个扩展问的相似度,将相似度大于预设阈值的多个扩展问确认为实质相同的多个扩展问,例如仅标点符号差异的扩展问。
可选地,在将标注结果与正确预设标准问不同的扩展问确认为异常扩展问之后,方法还包括:将异常扩展问所关联的预设标准问修改为正确预设标准问。
可选地,方法还包括:修正异常扩展问,并用修正后的异常扩展问替换原扩展问;用替换后的多个扩展问训练分类模型。
可以理解地,用修正后的异常扩展问替换原扩展问,使得分类模型的训练集中的样本精准度更高,从而进一步保障分类模型输出的标注更加精确。
本发明实施例提供了一种训练样本有效性检测装置,该训练样本有效性检测装置用于执行上述训练样本有效性检测方法,如图2所示,该装置包括:第一获取单元10、制作单元20、训练单元30、标注单元40、第二获取单元50、处理单元60。
第一获取单元10,用于获取多个扩展问,其中,每个扩展问基于预设分类规则与对应的一个预设标准问关联;
制作单元20,用于将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集;
训练单元30,用于利用训练集训练分类模型;
标注单元40,用于采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成;
第二获取单元50,用于获取分类模型输出的所有的扩展问的标注结果;
处理单元60,用于根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。
在本方案中,利用交叉验证方法和分类模型来对扩展问进行标注,从而根据标注结果与扩展问关联的预设标准问进行匹配,得到异常扩展问,快速筛选出异常扩展问,提高了训练样本的有效性检测效率,从而避免一些质量低的扩展问来训练智能应答模型。
例如,预设标准问例如为“信用卡逾期怎么办?”,它的扩展问1为“我的信用卡逾期了,需要怎么处理”,扩展问2为“信用卡逾期可以不还吗”,扩展问3为“过了信用卡还款日,怎么办”。可以理解地,扩展问1、扩展问2、扩展问3所关联的预设标准问皆为“信用卡逾期怎么办?”
在本实施例中,训练集用于对分类模型进行训练样本集,为了使训练后的分类模型能够基于用户输入的问题识别出用户可能期望咨询的标准问。训练集中的扩展问为待分类的数据,其类别即为其关联的预设标准问。具体地,分类模型包括输入层、输出层及融合层。其中,输入层包括词语特征输入层和问题特征输入层。每个扩展问所关联的预设标准问作为问题特征,问题特征输入层用于获取输入的扩展问关联的预设标准问的特征,词语特征输入层用于获取扩展问分词处理后得到的词汇的特征。分类模型在经过训练后,能够根据学习到的词汇特性及问题特征来对一个新的扩展问进行分类,使得新的扩展问尽可能地分类至一个准确的标准问下。
可选地,交叉验证方法为十折交叉验证方法或五折交叉验证方法中的任意一种。在一种实施方式中,采用五折交叉验证方法,具体地,将多个扩展问随机分成10份,每次取其中2份作为交叉验证集,其余8份作为训练集。训练时,先用其中的8份对初始化后的分类模型进行训练,然后对2份交叉验证集进行分类标注,以此重复训练及验证过程5次,每次选取的交叉验证集不同,直至所有的扩展问都被标注一遍。可以理解地,根据分类模型的分类结果对交叉验证集中的扩展问进行标注,例如分类模型将扩展问4“我的信用卡要逾期了,我该怎么处理”分类至预设标准问“信用卡逾期怎么办”下,那么扩展问4的关联标准问就是分类模型的分类结果。
在另一种实施方式中,将每个预设标准问所关联的多个扩展问随机分成10份,每次从每个预设标准问所关联的10份扩展问中抽取1份作为交叉验证集,其余9份作为训练集。例如:预设标准问有10个,分别为A1,A2…A10,每个预设标准问关联多个扩展问,因此将每个预设标准问所关联的多个扩展问随机分成10份,可以保证交叉验证时每个预设标准问都能得到有效的训练。
可选地,装置还包括重复单元、第二获取单元、计分单元、计算单元、筛选单元、输出单元。
重复单元,用于重复操作M次的步骤S102至步骤S104,其中,M为大于1的自然数,每次重复操作前对分类模型进行初始化;第二获取单元,还用于获取分类模型的输出的所有的扩展问的M次标注结果;计分单元,用于当扩展问的标注结果与预设标准问相同时,扩展问的当次计分为第一预设分值;或,当扩展问的标注结果与预设标准问不同时,扩展问的当次计分为第二预设分值;计算单元,用于计算各个扩展问的第一累计得分;筛选单元,用于筛选出第一累计得分小于第一预设阈值的扩展问;输出单元,用于将筛选出的扩展问作为异常扩展问,并输出。
具体地,分类模型标注M次后,对M次的所有扩展问的标注结果进行统计,扩展问的得分越低,其关联的预设标准问是错误的可能性越高。例如:当标注结果与预设标准问相同时,扩展问的得分为1;当标注结果与预设标准问不同时,扩展问的得分为-1,重复标注10次,其中6次得分为1,4次得分为-1,则扩展问的得分为10次标注结果的加和平均值,为0.2分。当第一预设阈值为0.1分时,则表示多个扩展问的分值小于0.1分的皆为异常扩展问。
可选地,所述分类模型可以采用多种机器学习算法,可以是朴素贝叶斯算法、最近邻法则、线性判别分析、支持向量机或决策树算法。在重复操作M次的步骤S102至步骤S104中,所述分类模型所采用的机器学习算法可以相同,也可以不同。采用不同的机器学习算法,能够减小标注错误的偶然误差,通过分类模型对交叉验证集进行多次标注并将标注结果和预设标准问进行对比,可以有效增强异常扩展问的识别准确性。
可选地,计分单元,还用于当标注结果与预设标准问相同时,由标注结果与预设标准问所组成的标准问对的当次计分为第一预设分值;或,当标注结果与预设标准问不同时,标准问对的当次计分为第二预设分值;计算单元,还用于计算各个标准问对的第二累计得分;筛选单元,还用于筛选出第二累计得分小于第二预设阈值的标准问对;输出单元,还用于将筛选出的标准问对作为易混淆标准问对,并输出。
例如,分类模型标注10次后,10个预设标准问(A1,A2…A10),10种标注结果(a1,a2…a10),就会有100种可能的标注问对,如:标准问对(A1,a1)。当扩展问的标注结果a1与预设标准问A1相同时,标准问对(A1,a1)的得分为1,不同则得分-1;分类模型标注10次后,标准问对(A1,a1)的得分越低,预设标准问A1与标注结果a1之间越容易混淆。将易混淆标准问对输出,有利于开发人员修正标注结果,精确分类,降低混淆概率。
可选地,装置还包括第三获取单元、统计单元、第二处理单元、第二确认单元。
第三获取单元,用于获取实质相同的多个扩展问的标注结果,实质相同的多个扩展问的语义相似度大于预设值;统计单元,用于统计实质相同的多个扩展问的标注结果;第二处理单元,用于将重复次数最多的标注结果作为实质相同的多个扩展问对应的正确预设标准问;第二确认单元,用于将标注结果与正确预设标准问不同的扩展问确认为异常扩展问。
其中,计算语义相似度的方法有余弦相似度计算法、BM25算法等。
在一种实施方式中,计算语义相似度的方法包括:获取同一预设标准问关联的多个扩展问,将每个扩展问进行分词处理并提取关键词,其中,可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对每个子段文本进行分词;通过词向量表示模型获取每个关键词的向量表示,其中,词向量表示模型例如可以是WORD2VEC等神经网络模型。采用余弦相似度公式分别计算任意两个扩展问的相似度,将相似度大于预设阈值的多个扩展问确认为实质相同的多个扩展问,例如仅标点符号差异的扩展问。
可选地,装置还包括修改单元,用于将异常扩展问所关联的预设标准问修改为正确预设标准问。
可选地,装置还包括修正单元和替换单元;
修正单元,用于修正异常扩展问,并用修正后的异常扩展问替换原扩展问;替换单元,用于用替换后的多个扩展问训练分类模型。
可以理解地,用修正后的异常扩展问替换原扩展问,使得分类模型的训练集中的样本精准度更高,从而进一步保障分类模型输出的标注更加精确。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
步骤S101,获取多个扩展问,其中,每个扩展问与对应的一个预设标准问关联;步骤S102,将多个扩展问随机分为预设份数的样本集,并根据预设比例将预设份数的样本集分为训练集和交叉验证集;步骤S103,利用训练集训练分类模型;步骤S104,采用交叉验证方法,并利用分类模型对交叉验证集中的多个扩展问标注,直至所有的扩展问标注完成;步骤S105,获取分类模型输出的所有的扩展问的标注结果;步骤S106,根据标注结果得到异常扩展问,异常扩展问的标注结果与所关联的预设标准问不同。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:重复操作M次的步骤S102至步骤S104,其中,M为大于1的自然数,每次重复操作前对分类模型进行初始化;获取分类模型的输出的所有的扩展问的M次标注结果;当扩展问的标注结果与预设标准问相同时,扩展问的当次计分为第一预设分值;或,当扩展问的标注结果与预设标准问不同时,扩展问的当次计分为第二预设分值;计算各个扩展问的第一累计得分;筛选出第一累计得分小于第一预设阈值的扩展问;将筛选出的扩展问作为异常扩展问,并输出。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:当标注结果与预设标准问相同时,由标注结果与预设标准问所组成的标准问对的当次计分为第一预设分值;或,当标注结果与预设标准问不同时,标准问对的当次计分为第二预设分值;计算各个标准问对的第二累计得分;筛选出第二累计得分小于第二预设阈值的标准问对;将筛选出的标准问对作为易混淆标准问对,并输出。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:获取实质相同的多个扩展问的标注结果,实质相同的多个扩展问的语义相似度大于预设值;统计实质相同的多个扩展问的标注结果;将重复次数最多的标注结果作为实质相同的多个扩展问对应的正确预设标准问;将标注结果与正确预设标准问不同的扩展问确认为异常扩展问。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:将异常扩展问所关联的预设标准问修改为正确预设标准问。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,该计算机程序103被处理器101执行时实现实施例中的训练样本有效性检测方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中训练样本有效性检测装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于个人计算机(PersonalComputer,PC)、个人数字助理(PersonalDigital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种训练样本有效性检测方法,其特征在于,所述方法包括:
步骤S101,获取多个扩展问,其中,每个所述扩展问与对应的一个预设标准问关联;
步骤S102,将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;
步骤S103,利用所述训练集训练分类模型;
步骤S104,采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;
步骤S105,获取所述分类模型输出的所有的所述扩展问的标注结果;
步骤S106,根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S105之后,所述方法还包括:
重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化设置;
获取所述分类模型的输出的所有的所述扩展问的M次标注结果;
当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;
计算各个所述扩展问的第一累计得分;
筛选出所述第一累计得分小于第一预设阈值的所述扩展问;
将筛选出的扩展问作为所述异常扩展问,并输出。
3.根据权利要求2所述的方法,其特征在于,在所述获取所述分类模型的输出的所有的所述扩展问的M次标注结果之后,所述方法还包括:
当所述标注结果与所述预设标准问相同时,由所述标注结果与所述预设标准问所组成的标准问对的当次计分为所述第一预设分值;或,当所述标注结果与所述预设标准问不同时,所述标准问对的当次计分为所述第二预设分值;
计算各个所述标准问对的第二累计得分;
筛选出所述第二累计得分小于第二预设阈值的所述标准问对;
将筛选出的标准问对作为易混淆标准问对,并输出。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S105之后,所述方法还包括:
获取实质相同的多个扩展问的标注结果,所述实质相同的多个扩展问的语义相似度大于预设值;
统计所述实质相同的多个扩展问的标注结果;
将重复次数最多的标注结果作为所述实质相同的多个扩展问对应的正确预设标准问;
将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问。
5.根据权利要求4所述的方法,其特征在于,在所述将所述标注结果与所述正确预设标准问不同的扩展问确认为所述异常扩展问之后,所述方法还包括:
将所述异常扩展问所关联的预设标准问修改为所述正确预设标准问。
6.根据权利要求1~5中任意一项所述的方法,其特征在于,所述方法还包括:
修正所述异常扩展问,并用修正后的所述异常扩展问替换原扩展问;
用替换后的多个所述扩展问训练所述分类模型。
7.根据权利要求1所述的方法,其特征在于,所述交叉验证方法为十折交叉验证方法或五折交叉验证方法中的任意一种。
8.一种训练样本有效性检测装置,其特征在于,所述装置包括:
第一获取单元,用于获取多个扩展问,其中,每个所述扩展问基于预设分类规则与对应的一个预设标准问关联;
制作单元,用于将多个所述扩展问随机分为预设份数的样本集,并根据预设比例将所述预设份数的样本集分为训练集和交叉验证集;
训练单元,用于利用所述训练集训练分类模型;
标注单元,用于采用交叉验证方法,并利用所述分类模型对所述交叉验证集中的多个扩展问标注,直至所有的所述扩展问标注完成;
第二获取单元,用于获取所述分类模型输出的所有的所述扩展问的标注结果;
处理单元,用于根据所述标注结果得到异常扩展问,所述异常扩展问的标注结果与所关联的预设标准问不同。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
重复单元,用于重复操作M次的所述步骤S102至所述步骤S104,其中,M为大于1的自然数,每次重复操作前对所述分类模型进行初始化;
所述第二获取单元,还用于获取所述分类模型的输出的所有的所述扩展问的M次标注结果;
计分单元,用于当所述扩展问的标注结果与所述预设标准问相同时,所述扩展问的当次计分为第一预设分值;或,当所述扩展问的标注结果与所述预设标准问不同时,所述扩展问的当次计分为第二预设分值;
计算单元,用于计算各个所述扩展问的第一累计得分;
筛选单元,用于筛选出所述第一累计得分小于第一预设阈值的扩展问;
输出单元,用于将筛选出的扩展问作为所述异常扩展问,并输出。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的训练样本有效性检测方法的步骤。
CN201910022265.4A 2019-01-10 2019-01-10 一种训练样本有效性检测方法及装置 Pending CN109902157A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910022265.4A CN109902157A (zh) 2019-01-10 2019-01-10 一种训练样本有效性检测方法及装置
PCT/CN2019/117090 WO2020143301A1 (zh) 2019-01-10 2019-11-11 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910022265.4A CN109902157A (zh) 2019-01-10 2019-01-10 一种训练样本有效性检测方法及装置

Publications (1)

Publication Number Publication Date
CN109902157A true CN109902157A (zh) 2019-06-18

Family

ID=66943596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910022265.4A Pending CN109902157A (zh) 2019-01-10 2019-01-10 一种训练样本有效性检测方法及装置

Country Status (2)

Country Link
CN (1) CN109902157A (zh)
WO (1) WO2020143301A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705225A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同标注方法及装置
CN110797101A (zh) * 2019-10-28 2020-02-14 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
WO2020143301A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质
CN113554474A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 模型的验证方法及装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
CN108509969B (zh) * 2017-09-06 2021-11-09 腾讯科技(深圳)有限公司 数据标注方法及终端
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN109902157A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 一种训练样本有效性检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143301A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质
CN110705225A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同标注方法及装置
CN110797101A (zh) * 2019-10-28 2020-02-14 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN110797101B (zh) * 2019-10-28 2023-11-03 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN111259625B (zh) * 2020-01-16 2023-06-27 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN113554474A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 模型的验证方法及装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
WO2020143301A1 (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN108595519A (zh) 热点事件分类方法、装置及存储介质
CN109977361A (zh) 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110472027A (zh) 意图识别方法、设备及计算机可读存储介质
CN105095179B (zh) 对用户评价进行处理的方法及装置
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN108959265A (zh) 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN107122369A (zh) 一种业务数据处理方法、装置和系统
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110413961A (zh) 基于分类模型进行文本评分的方法、装置和计算机设备
CN108228622A (zh) 业务问题的分类方法及装置
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN110263326A (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN114240672B (zh) 绿色资产的占比的识别方法及相关产品
CN109272402A (zh) 评分卡的建模方法、装置、计算机设备及存储介质
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN108804564A (zh) 金融产品的组合推荐方法及终端设备
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN107403311A (zh) 账户用途的识别方法及装置
CN109597987A (zh) 一种文本还原方法、装置及电子设备
CN108536673A (zh) 新闻事件抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination