CN112507093B - 一种语料混淆处理方法、装置及介质 - Google Patents
一种语料混淆处理方法、装置及介质 Download PDFInfo
- Publication number
- CN112507093B CN112507093B CN202011438908.2A CN202011438908A CN112507093B CN 112507093 B CN112507093 B CN 112507093B CN 202011438908 A CN202011438908 A CN 202011438908A CN 112507093 B CN112507093 B CN 112507093B
- Authority
- CN
- China
- Prior art keywords
- questions
- question
- target
- training
- user questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种语料混淆处理方法包括获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。此外本申请所公开的语料混淆处理装置及介质,与上述方法对应,效果同上。
Description
技术领域
本申请涉及智能问答技术领域,特别是涉及一种语料混淆处理方法、装置及介质。
背景技术
智能问答模式的兴起,极大的解放了人工问答,不能节约人力成本,而且易于维护,在多种领域得到广泛应用,例如,税务领域。为了实现自动问答,需要将输入的用户问(也称之为语料)进行分类,从而得到与该用户问对应的标准问(也称之为标签),在该过程中,就需要用到分类模型(深度学习模型),分类模型通常是基于搜集到的用户问和标准问训练得到的。
当前,在模型训练过程中直接将获取的训练样本进行训练,但是由于训练样本中有的用户问很相近,但是标注方法参差不齐,很容易出现误标注的问题。如果将存在误标注问题的训练样本对模型进行训练,会导致模型的预测结果的准确性降低,即输出的结果本来是标准问A,而输出了标准问B。
由此可见,如何防止误标注问题,从而提高分类模型的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种语料混淆处理方法、装置及介质,用于提高分类模型的准确度,防止误标注问题。
为解决上述技术问题,本申请提供一种语料混淆处理方法,包括:
获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
剔除所述初始用户问中存在混淆的用户问以得到目标用户问;
将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止。
优选地,所述筛选出所述初始用户问中存在混淆的用户问以得到目标用户问包括:
将全部所述初始用户问做笛卡尔积,并两两组成句子对;
计算每个所述句子对的编辑距离;
筛选出所述编辑距离大于所述第一阈值的句子对中的用户问作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
利用预先训练的特征提取模型对所述目标用户问进行特征提取;其中,所述特征提取模型通过通用语料训练样本训练得到;
根据特征提取的结果确定两两所述目标用户问构成的句子对之间的相似度;
筛选出所述相似度不大于第二阈值的句子对中的用户问作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
获取所述相似度大于第二阈值的待确定句子对;
若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为所述目标用户问,则将其中一个不为所述目标用户问的用户问保留以作为所述目标用户问。
优选地,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问还包括:
若同一个所述待确定句子对中的两个所述用户问对应的标准问不相同,则筛选出所述相似度大于第三阈值的待确定句子对以进行人工校验;其中,所述第三阈值大于第二阈值;
根据人工校验结果将符合要求的用户问保留以作为所述目标用户问。
优选地,所述将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练包括:
按照K折交叉验证将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练。
优选地,所述基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止包括:
获取所述K折交叉验证所得到的首次预测结果;
依据所述首次预测结果计算每个标准问对应的F1-Socre以及所述训练样本的整体micro-F1;
若所述整体micro-F1满足所述预设要求,则确定所述目标用户问和所述目标标准问不需要修复;
若所述整体micro-F1不满足所述预设要求,则通过F1-Socre挑选出需要修复的所述目标标准问,并依据所述首次预测结果筛选出预测错误的结果和预测正确的结果;
将预测错误的结果对应的用户问和标准问作为复杂样本,将预测正确的结果对应的用户问和标准问作为简单样本;
将所述简单样本再次作为训练样本对所述分类模型进行训练;
将所述复杂样本中的用户问输入至再次训练的所述分类模型得到二次预测结果;
根据所述二次预测结果挑选出所述复杂样本中需要修复的用户问和标准问;
获取对需要修复的目标标准问的修复结果和对需要修复的用户问和标准问的修复结果;
依据所述修复结果得到新的待处理数据,并返回所述筛选出所述初始用户问中存在混淆的用户问以得到目标用户问的步骤。
为解决上述技术问题,本申请还提供一种语料混淆处理装置,包括:
获取模块,用于获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
筛选模块,用于剔除所述初始用户问中存在混淆的用户问以得到目标用户问;
训练模块,用于将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
修复模块,用于基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止。
为解决上述技术问题,本申请还提供一种语料混淆处理装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如所述的语料混淆处理方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述的语料混淆处理方法的步骤。
本申请所提供的语料混淆处理方法,包括获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。
此外本申请所提供的语料混淆处理装置及介质,与上述方法对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语料混淆处理方法的流程图;
图2为本申请实施例提供的另一种S11的流程图;
图3为本申请实施例提供的一种S13的流程图;
图4为本申请实施例提供的一种语料混淆处理装置的结构图;
图5为本申请另一实施例提供的语料混淆处理装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种语料混淆处理方法、装置及介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图1为本申请实施例提供的一种语料混淆处理方法的流程图。如图1所示,该方法包括:
S10:获取待处理数据,待处理数据包括初始用户问和对应的标准问。
本申请所提供的语料混淆处理方法尤其适用需要频繁问答,并且问题较为相似,但答案可能差别加大的领域,例如,税务领域。由于其包含有大量相近的字词,容易导致模型的预测结果不准确的问题。可以理解的是待处理数据可以来自平时线上所获取的数据,还可以结合人工添加。本步骤中的用户问和标准问并不是一一对应的关系,而是多个用户问可能对应一个标准问,例如:“今天天气好不好呀”和“今天天气好不好”虽然是两个用户问,但是其对应的标准问是同一个,例如“今天天气好吗”。
由于待处理数据要作为分类模型的训练样本对分类模型进行训练,因此,待处理数据中各用户问越相似越容易导致混淆,进而导致分类模型的预测结果不准确的问题。通常情况下,所搜集到的待处理数据中包含有大量语义相近的用户问,本申请中没有直接将这些数据作为训练样本进行训练,而是对容易混淆的用户问剔除。
本步骤中提到的初始用户问和后文中提到的目标用户问均是用户问,只不过是为了区分,并且目标用户问是初始用户问中的一个用户问或多个用户问;同样的,初始标准问和后文中提到的目标标准问均是标准问,只不过是为了区分,并且目标标准问是初始标准问中的一个标准问或多个标准问。
S11:剔除初始用户问中存在混淆的用户问以得到目标用户问。
需要说明的是,从初始用户问中筛选出目标用户问的方法有多种,例如,最简单的筛选方法就是判断两个句子是否完全相同,或者通过两两用户问构成的句子对的编辑距离筛选,或者通过对各用户问的特征提取,计算两两用户问的相似度进行筛选,本实施例不做限定。
S12:将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练。
需要说的是,本申请中所提到的分类模型可以是BERT模型,也可以是卷积神经网络模型(CNN模型)或循环神经网络模型(RNN模型)。BERT模型比较适合解决输入长度不太长的自然语言处理(NLP)任务,故适用于单轮问答模式中,例如,应用于税务系统中。作为优选地实施方式,语料训练模型为BERT模型,下文中以BERT模型为例说明。可以理解的是,由于分类模型属于现有技术,故本申请不再赘述。
S13:基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。
通过步骤S11中的筛选所得到的目标用户问和目标标准问只是对语料混淆做出的一种处理,在其基础上,通过训练结果对二者进行修复能够进一步提高训练样本的可用性,从而提高分类模型的预测结果的准确性。
需要说明的是,本步骤中对于哪个目标用户问和哪个目标标准问进行修复,以及如何修复均不作限定,即修复的对象可以是全部目标用户问和目标标准问,也可以是部分。此外,预设要求的类型也不做限定,可以是分类模型的预测结果(输出结果)的准确率满足预设要求或micro-F1满足预设要求等。
本实施例提供的语料混淆处理方法,包括获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。
图2为本申请实施例提供的另一种S11的流程图。在上述实施例的基础上,S11包括:
S110:将全部初始用户问做笛卡尔积,并两两组成句子对;
S111:计算每个句子对的编辑距离;
S112:筛选出编辑距离大于第一阈值的句子对中的用户问作为目标用户问。
在具体实施中,由于待处理数据持续增长,且维护人员迭代,可能存在大量重复性数据。但是如果只是使用完全匹配来判断用户问之间的重复性,只能筛选掉一小部分用户问,因此,本实施例中选择使用编辑距离小于或等于第一阈值来判断用户问的重复性。可以理解的是,第一阈值可以根据实际情况确定,在一种具体实施例中,第一阈值可设置成2。需要说明的是,由于只是只对用户问的重复性进行判断,所以在得到的目标标准问中可能会存在不同标准问之间的重复,这也可能属于混淆语料,暂时不处理,只处理同一标准问内的重复,减少语料冗余。
需要强调的是,所筛选出的目标用户问均是不重复的,例如,有6个句子对,分别是S1-S2,S1-S3,S1-S4,S2-S3,S2-S4,S3-S4,如果S1-S2,S1-S3,S1-S4的编辑距离均小于第一阈值,那么这3个句子对就会直接删除,而筛选出S2-S3,S2-S4,S3-S4这3个句子对,由于S2-S3和S2-S4中均包含S2,所以只保留一个作为目标用户问即可,所以这3个句子对中的S2、S3和S4为目标用户问。
以上是通过编辑距离去除冗余的用户问,本申请中再次基础上,还通过语义相似度再去除冗余的用户问。进一步的,S11还包括:
S113:利用预先训练的特征提取模型对目标用户问进行特征提取;
S114:根据特征提取的结果确定两两目标用户问构成的句子对之间的相似度;
S115:筛选出相似度不大于第二阈值的句子对中的用户问作为目标用户问。
在具体实施中,特征提取模型与分类模型实际上是同一个模型,只不过训练样本不同,特征提取模型的输出结果是向量,该向量中的各元素为输入的用户问的特征。特征提取模型的训练通过通用语料训练样本进行训练。例如,预先收集网络上的相似语料以及公开数据集的一些相似语料作为通用语料训练样本。使用训练完的模型对目标用户问进行特征提取,将语料映射到高维向量空间里。然后两两计算目标用户问之间的相似度,将不大于第二阈值的目标用户问保留。可以理解的是,第二阈值可以根据实际情况确定,在一种具体实施例中,第二阈值可以为0.95。
虽然通过上述相似度与第二阈值的关系可以筛选出目标用户问,但是如果将相似度大于第二阈值的句子对对应的目标用户问全部剔除,则有可能损失较多训练样本,故进一步的,S11还包括:
S116:获取相似度大于第二阈值的待确定句子对;
S117:若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为目标用户问,则将其中一个不为目标用户问的用户问保留以作为目标用户问。
需要说明的是这里的待确定句子对是相似度大于第二阈值的句子对,例如,S2-S3,S2-S4,S3-S4,S5-S6,S5-S7中,S2-S3,S2-S4,S5-S6,S5-S7的相似度大于第二阈值,那么只剩下S3和S4,删除了大量样本,为了防止过度删除,还需要从待确定句子对中再保留一部分用户问。例如,S5-S6对应同一个标准问,S5-S7对应同一个标准问。S5-S6中的S5和S6不全部为目标用户问,则将其中一个保留作为目标用户问。如果两个都不是目标用户问,但由于S5和S6是高度相似的,所以随机选取其中一个即可,例如选取S5。同样的,S5-S6中的S5和S7不全部为目标用户问,则将其中一个保留作为目标用户问。如果两个都不是目标用户问,但由于S5和S7是高度相似的,所以随机选取其中一个即可,例如选取S7。那么此时的目标用户除了S3和S4之外,还包括S5和S7,以此可以克服过度删除样本的风险。
以上提到的方法针对句子对对应同一个标准问的情况,本申请还提供针对不同标准问的情况。进一步的,S11还包括:
S118:若同一个待确定句子对中的两个用户问对应的标准问不相同,则筛选出相似度大于第三阈值的待确定句子对以进行人工校验;其中,第三阈值大于第二阈值;
S119:根据人工校验结果将符合要求的用户问保留以作为目标用户问。
本实施例中的第三阈值可以根据实际情况,例如在第二阈值为0.95时,第三阈值可以设置为0.98。还以上述例子说明,S2-S3,S2-S4,S5-S6,S5-S7的相似度均大于第二阈值,且S2-S3,S2-S4的相似度均大于第三阈值,那么需要对S2-S3,S2-S4进行人工检验,这是由于训练样本为通用语料训练样本,故对专业领域可能存在误判,所以只处理高相似度(大于第三阈值)的部分。
在上述实施例的基础上,S12包括:
S120:按照K折交叉验证将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练。
在具体实施中,需要将目标用户问和目标标准问从目标标准问的维度划分成K等份,即如果有1000个目标标准问,则需要保证任意一份包含1000个目标标准问。然后按照K-1份作为训练集,剩余的一份为测试集的方式得到K个训练集和K个测试集,使得每份数据集都可以作为训练集和测试集。通过对K个分类模型进行训练,得到每个分类模型对测试集的测试结果,综合K个分类模型的测试结果就得到了全部数据集的测试结果,进而可以得到每个目标标准问的F1-socre以及整体micro-F1。
本实施例中通过K折交叉验证的方式,能够让分类模型不会因为预先获取到标注结果而无法给出真实的预测结果,使得分类模型能够准确识别出潜在的误标注问题。
图3为本申请实施例提供的一种S13的流程图。进一步的,在上述实施例的基础上,S13包括:
S130:获取K折交叉验证所得到的首次预测结果;
S131:依据首次预测结果计算每个标准问对应的F1-Socre以及训练样本的整体micro-F1;
S132:判断整体micro-F1是否满足预设要求,如果是,则进入结束,如果否,则进入S133;
S133:通过F1-Socre挑选出需要修复的目标标准问,并依据首次预测结果筛选出预测错误的结果和预测正确的结果;
S134:将预测错误的结果对应的用户问和标准问作为复杂样本,将预测正确的结果对应的用户问和标准问作为简单样本;
S135:将简单样本再次作为训练样本对分类模型进行训练;
S136:将复杂样本中的用户问输入至再次训练的分类模型得到二次预测结果;
S137:根据二次预测结果挑选出复杂样本中需要修复的用户问和标准问;
S138:获取对需要修复的目标标准问的修复结果和对需要修复的用户问和标准问的修复结果;
S139:依据修复结果得到新的待处理数据,并返回S11。
需要说明的是,通过预测结果可以计算混淆矩阵,通常在标准问的数量多于100的情况下,混淆矩阵就难以分析,所以作为优选地实施方式,采用单标准问的混淆分析法,为每个标准问生产其与其他标准问混淆的文档。具体是通过F1-socre来挑选需要修复的标准问作为候选修复集,例如,一个标准问对应的用户问的数量很多,但是其F1-socre很低,说明这个标准问有问题,需要对该标准问进行修复。
预测结果通常以表的形式存在,分为4列,第1列是用户问,第2列对用户问的预测结果,第3列为实际结果(标准问),第4列是置信度。通过预测结果就可以确定哪些用户问的预测是正常的,哪些用户问的预测是错误的。本申请所提到的复杂样本和简单样本仅仅是为了区分不同种类的样本,并不是说明该样本本身的复杂程度。通过简单样本训练得到的模型对复杂样本进行预测所得到二次预测结果依然包含上述4列内容,结合二次预测结果中的置信度挑选出需要修复的对象。例如,如果某一结果中的置信度很高,但是预测的结果是错误的,则说明当前分类模型不够准确,还需要通过训练样本的优化,剔除混淆的语料。
在上述实施例中,对于语料混淆处理方法进行了详细描述,本申请还提供语料混淆处理装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图4为本申请实施例提供的一种语料混淆处理装置的结构图。如图4所示,该装置包括:
获取模块10,用于获取待处理数据,待处理数据包括初始用户问和对应的标准问;
筛选模块11,用于筛选出初始用户问中存在混淆的用户问以得到目标用户问;
训练模块12,用于将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
修复模块13,用于基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本实施例提供的语料混淆处理装置,通过获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。
图5为本申请另一实施例提供的语料混淆处理装置的结构图,如图5所示,语料混淆处理装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例(语料混淆处理方法)的步骤。
本实施例提供的语料混淆处理装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的语料混淆处理方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于用户问和标准问等。
在一些实施例中,语料混淆处理装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图5中示出的结构并不构成对语料混淆处理装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的语料混淆处理装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:获取待处理数据,从初始用户问中剔除存在混淆的用户问,而保留不存在混淆的用户问作为目标用户问;再将目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;最后基于训练结果对目标用户问和目标标准问进行修复,直到训练结果满足预设要求为止。由此可见,应用于以上技术方案,通过对用户问进行筛选,可以发现并修复误标注的问题,从而提高训练样本的质量,进而提高分类模型的预测结果的准确性。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的语料混淆处理方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (6)
1.一种语料混淆处理方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
剔除所述初始用户问中存在混淆的用户问以得到目标用户问;
将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止;
其中,所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问进一步包括:
将全部所述初始用户问做笛卡尔积,并两两组成句子对;
计算每个所述句子对的编辑距离;
筛选出所述编辑距离大于第一阈值的句子对中的用户问作为所述目标用户问;
利用预先训练的特征提取模型对所述目标用户问进行特征提取;其中,所述特征提取模型通过通用语料训练样本训练得到;
根据特征提取的结果确定两两所述目标用户问构成的句子对之间的相似度;
筛选出所述相似度不大于第二阈值的句子对中的用户问作为所述目标用户问;
获取所述相似度大于第二阈值的待确定句子对;
若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为所述目标用户问,则将其中一个不为所述目标用户问的用户问保留以作为所述目标用户问;
若同一个所述待确定句子对中的两个所述用户问对应的标准问不相同,则筛选出所述相似度大于第三阈值的待确定句子对以进行人工校验;其中,所述第三阈值大于第二阈值;
根据人工校验结果将符合要求的用户问保留以作为所述目标用户问。
2.根据权利要求1所述的语料混淆处理方法,其特征在于,所述将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练包括:
按照K折交叉验证将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练。
3.根据权利要求2所述的语料混淆处理方法,其特征在于,所述基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止包括:
获取所述K折交叉验证所得到的首次预测结果;
依据所述首次预测结果计算每个标准问对应的F1-Socre以及所述训练样本的整体micro-F1;
若所述整体micro-F1满足所述预设要求,则确定所述目标用户问和所述目标标准问不需要修复;
若所述整体micro-F1不满足所述预设要求,则通过F1-Socre挑选出需要修复的所述目标标准问,并依据所述首次预测结果筛选出预测错误的结果和预测正确的结果;
将预测错误的结果对应的用户问和标准问作为复杂样本,将预测正确的结果对应的用户问和标准问作为简单样本;
将所述简单样本再次作为训练样本对所述分类模型进行训练;
将所述复杂样本中的用户问输入至再次训练的所述分类模型得到二次预测结果;
根据所述二次预测结果挑选出所述复杂样本中需要修复的用户问和标准问;
获取对需要修复的目标标准问的修复结果和对需要修复的用户问和标准问的修复结果;
依据所述修复结果得到新的待处理数据,并返回所述剔除所述初始用户问中存在混淆的用户问以得到目标用户问的步骤。
4.一种语料混淆处理装置,其特征在于,包括:
获取模块,用于获取待处理数据,所述待处理数据包括初始用户问和对应的标准问;
筛选模块,用于剔除所述初始用户问中存在混淆的用户问以得到目标用户问;其中,将全部所述初始用户问做笛卡尔积,并两两组成句子对;计算每个所述句子对的编辑距离;筛选出所述编辑距离大于第一阈值的句子对中的用户问作为所述目标用户问;利用预先训练的特征提取模型对所述目标用户问进行特征提取;其中,所述特征提取模型通过通用语料训练样本训练得到;根据特征提取的结果确定两两所述目标用户问构成的句子对之间的相似度;筛选出所述相似度不大于第二阈值的句子对中的用户问作为所述目标用户问;获取所述相似度大于第二阈值的待确定句子对;若同一个待确定句子对中的两个用户问对应的标准问相同,且两个用户问不全部为所述目标用户问,则将其中一个不为所述目标用户问的用户问保留以作为所述目标用户问;若同一个所述待确定句子对中的两个所述用户问对应的标准问不相同,则筛选出所述相似度大于第三阈值的待确定句子对以进行人工校验;其中,所述第三阈值大于第二阈值;根据人工校验结果将符合要求的用户问保留以作为所述目标用户问;
训练模块,用于将所述目标用户问和对应的目标标准问作为训练样本对所调用的分类模型进行训练;
修复模块,用于基于训练结果对所述目标用户问和所述目标标准问进行修复,直到所述训练结果满足预设要求为止。
5.一种语料混淆处理装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述的语料混淆处理方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的语料混淆处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011438908.2A CN112507093B (zh) | 2020-12-10 | 2020-12-10 | 一种语料混淆处理方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011438908.2A CN112507093B (zh) | 2020-12-10 | 2020-12-10 | 一种语料混淆处理方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507093A CN112507093A (zh) | 2021-03-16 |
CN112507093B true CN112507093B (zh) | 2023-08-11 |
Family
ID=74970775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011438908.2A Active CN112507093B (zh) | 2020-12-10 | 2020-12-10 | 一种语料混淆处理方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507093B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362665A (zh) * | 2019-06-12 | 2019-10-22 | 深圳追一科技有限公司 | 一种基于语义相似度的问答系统及方法 |
CN111611781A (zh) * | 2020-05-27 | 2020-09-01 | 北京妙医佳健康科技集团有限公司 | 数据标注方法、问答方法、装置及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170212872A1 (en) * | 2016-01-22 | 2017-07-27 | International Business Machines Corporation | Duplicate post handling with natural language processing |
CN108304427B (zh) * | 2017-04-28 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 一种用户客群分类方法和装置 |
US10510336B2 (en) * | 2017-06-12 | 2019-12-17 | International Business Machines Corporation | Method, apparatus, and system for conflict detection and resolution for competing intent classifiers in modular conversation system |
CN111198935A (zh) * | 2018-11-16 | 2020-05-26 | 北京京东尚科信息技术有限公司 | 模型处理方法、装置、存储介质及电子设备 |
US10861022B2 (en) * | 2019-03-25 | 2020-12-08 | Fmr Llc | Computer systems and methods to discover questions and answers from conversations |
CN110543555A (zh) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | 一种用于智能客服中的标问召回方法和装置 |
CN110704618B (zh) * | 2019-09-20 | 2023-06-27 | 创新先进技术有限公司 | 确定对话数据对应的标准问题的方法及装置 |
CN112000808B (zh) * | 2020-09-29 | 2024-04-16 | 迪爱斯信息技术股份有限公司 | 一种数据处理方法及装置、可读存储介质 |
-
2020
- 2020-12-10 CN CN202011438908.2A patent/CN112507093B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362665A (zh) * | 2019-06-12 | 2019-10-22 | 深圳追一科技有限公司 | 一种基于语义相似度的问答系统及方法 |
CN111611781A (zh) * | 2020-05-27 | 2020-09-01 | 北京妙医佳健康科技集团有限公司 | 数据标注方法、问答方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
问答系统中问句相似度研究;宋文闯等;软件导刊;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507093A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
Gomez et al. | A diffusion model account of masked versus unmasked priming: Are they qualitatively different? | |
US20210342371A1 (en) | Method and Apparatus for Processing Knowledge Graph | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
KR102265573B1 (ko) | 인공지능 기반 입시 수학 학습 커리큘럼 재구성 방법 및 시스템 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
JP2020047234A (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN111125295A (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN113705792B (zh) | 基于深度学习模型的个性化推荐方法、装置、设备及介质 | |
CN110489131B (zh) | 一种灰度用户选取方法及装置 | |
CN114416929A (zh) | 实体召回模型的样本生成方法、装置、设备及存储介质 | |
CN112015992B (zh) | 智能单词背诵计划生成方法 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN112507093B (zh) | 一种语料混淆处理方法、装置及介质 | |
CN109994207B (zh) | 心理健康预警方法、服务器与系统 | |
CN112100355A (zh) | 一种智能交互方法、装置及设备 | |
CN112580348B (zh) | 政策文本关联性分析方法及系统 | |
CN111680134B (zh) | 一种信息熵度量问答咨询信息的方法 | |
US20220300836A1 (en) | Machine Learning Techniques for Generating Visualization Recommendations | |
CN110309285B (zh) | 自动问答方法、装置、电子设备和存储介质 | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
CN114611497B (zh) | 语病诊断模型的训练方法、语病诊断方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230713 Address after: Room 708, 268 Xiangke Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Applicant after: 17WIN NETWORK TECHNOLOGY CO.,LTD. Address before: 310053 no.3738, South Ring Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: SERVYOU SOFTWARE GROUP Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |