CN110929524A - 数据筛选方法、装置、设备及计算机可读存储介质 - Google Patents

数据筛选方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110929524A
CN110929524A CN201910984851.7A CN201910984851A CN110929524A CN 110929524 A CN110929524 A CN 110929524A CN 201910984851 A CN201910984851 A CN 201910984851A CN 110929524 A CN110929524 A CN 110929524A
Authority
CN
China
Prior art keywords
answer text
interview answer
text
scoring
interview
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910984851.7A
Other languages
English (en)
Inventor
邓悦
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910984851.7A priority Critical patent/CN110929524A/zh
Publication of CN110929524A publication Critical patent/CN110929524A/zh
Priority to PCT/CN2020/117418 priority patent/WO2021073390A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据筛选方法、装置、设备及计算机可读存储介质,该方法包括:获取目标数据集;基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。本申请涉及智能决策和神经网络,可以有效的提高岗位候选人的筛选准确性。

Description

数据筛选方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及智能决策的技术领域,尤其涉及一种数据筛选方法、装置、设备及计算机可读存储介质。
背景技术
目前,业内通过来自Transformer的双向编码器表征(Bidirectional EncoderRepresentations from Transformers,BERT)模型自动从数据集中筛选出符合要求的数据,例如,通过BERT模型从简历数据集或者目标数据集中筛选出符合要求的简历或目标数据,但BERT模型需要大量的标注好的数据来训练模型,而数据的标注需要耗费较多的时间,且标注是人工进行的,在大量人工标注数据的情况下,存在标注不准确的问题,容易降低模型的准确率,无法准确的从数据集中筛选出符合要求的数据。因此,如何提高数据筛选的准确性是目前亟待解决的问题。
发明内容
本申请的主要目的在于提供一种数据筛选方法、装置、设备及计算机可读存储介质,旨在提高数据筛选的准确性。
第一方面,本申请提供一种数据筛选方法,所述数据筛选方法包括以下步骤:
获取目标数据集,其中,所述目标数据集为待筛选的数据集;
基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
第二方面,本申请还提供一种数据筛选装置,所述数据筛选装置包括:
获取模块,用于获取目标数据集,其中,所述目标数据集为待筛选的数据集;
评分模块,用于基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
筛选模块,用于根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的数据筛选方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的数据筛选方法的步骤。
本申请提供一种数据筛选方法、装置、设备及计算机可读存储介质,本申请通过基于多任务深度神经网络实现的数据评分模型,可以准确快速的对数据集中每个面试回答文本进行评分,通过准确的每个面试回答文本的评分数值可以准确的从数据集中筛选出符合条件的面试回答文本,有效的提高数据筛选的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据筛选方法的流程示意图;
图2为图1中的数据筛选方法的子步骤流程示意图;
图3为本申请实施例提供的另一种数据筛选方法的流程示意图;
图4为本申请实施例提供的一种数据筛选装置的示意性框图;
图5为图4中的数据筛选装置的子模块的示意性框图;
图6为本申请实施例提供的另一种数据筛选装置的示意性框图;
图7为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种数据筛选方法、装置、设备及计算机可读存储介质。其中,该数据筛选方法可应用于服务器,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种数据筛选方法的流程示意图。
如图1所示,该数据筛选方法包括步骤S101至步骤S103。
步骤S101、获取目标数据集,其中,所述目标数据集为待筛选的数据集。
其中,服务器中存储有待筛选的数据集,该待筛选的数据集包括不同岗位的每个面试者的面试回答文本,该面试回答文本记录有面试者的个人基本信息和每个面试问题的作答信息等。服务器以岗位为单位,存储每个岗位的的每个面试者的面试回答文本,从而得到每个岗位对应的数据集,并对筛选过的面试回答文本和未筛选过的面试回答文本进行标记,得到每个岗位各自对应的待筛选的数据集,待筛选的数据集中的面试回答文本为未筛选的面试回答文本。
服务器可以实时或以间隔预设时间获取每个岗位对应的未筛选过的面试回答文本,以岗位为单位,汇集未筛选过的面试回答文本,可以得到每个岗位各自对应的待筛选的数据集,即目标数据集。需要说明的是,上述预设时间可基于实际情况进行设置,本申请对此不作具体限定。
在一实施例中,招聘者可以通过终端设备选择一个或多个岗位进行数据筛选,具体为:终端设备显示岗位选择页面,并获取用户基于该岗位选择页面选择的岗位对应的岗位标识符;生成包含该岗位标识符的数据筛选请求,并将该数据筛选请求发送至服务器;当服务器接收到该数据筛选请求时,从该数据筛选请求中获取岗位标识符,并获取与该岗位标识符对应的目标数据集,然后再对目标数据集中的目标数据进行筛选,得到符合要求的数据。其中,岗位标识符用于唯一标识岗位,可以为数字、字母或数字与字母的组合,本申请对此不作具体限定,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
步骤S102、基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现。
其中,服务器中存储有数据评分模型,该数据评分模型基于多任务深度神经网络实现,该多任务深度神经网络结合了多任务学习和语言模型预训练,多任务学习是利用多个学习任务中所包含的有用信息帮助每个任务学习,得到更为准确的学习器,而语言模型预训练是借助大量无标注数据来对模型进行预训练,再对单个特定的任务进行模型的微调,可以改进文本表达的学习来提升各种自然语言理解任务。
通过大量无标注数据对多任务深度神经网络进行预训练之后,再对单个特定的任务进行微调,即可得到数据评分模型。其中,多任务深度神经网络包括输入层、Lexicon编码层(词编码层)、Transformer编码层(上下文编码层)和特定任务输出层,特定任务输出层包括单句分类输出层、文本相似度输出层、成对文本分类输出层和相关性排名输出层。Lexicon编码层用于通过对相应的单词、段和位置求和,将输入的文本或句子映射为嵌入向量。
Transformer编码层由多个相同的层级组成,每个层级包括两个不同的子层级,一个子层级为多头注意力层,用于学习句子内部的词依赖关系,捕获句子的内部结构,另一个子层级为全连接层,且每个子层级都与残差连接层和归一化层连接。Transformer编码层通过联合调节所有层中的上下文来预先训练深度双向表示,即Transformer编码层将嵌入向量映射为上下文嵌入向量。
单句分类输出层用于判断句子的语法正确性,或者判断句子所带的情感的类型。通过softmax函数的逻辑回归预测句子X被标记为C类的概率,公式为:Pr(C|X)=softmax(WT*X),WT为单句分类模型的模型参数。
文本相似度输出层用于判断两个句子的语义相似性。公式为:Sim(X1,X2)=g(WT*x),WT为文本相似度计算模型的模型参数,x为两个句子的向量,g(x)为sigmoid函数,先计算两个句子的语义相似度,再基于sigmoid函数将语义相似度映射到0-1之间。
成对文本分类输出层用于推断两个句子的逻辑关系,如蕴涵关系、中立关系或者对立关系等。假设两个句子为P=(p1,...,pm)和H=(h1,...hn),目标是去推断P和H的逻辑关系R。Mp和Mh分别为P和H经过编码层后的输出。
相关性排名输出层用于对面试回答文本进行评分,输入一个面试回答文本,计算面试回答文本与标准答案文本之间的相似度,再基于相似度进行评分。公式为:Rel(Q,A)=g(WT*x),WT为相关性排名模型的模型参数,g(x)为sigmoid函数,x为回答文本和候选答案的拼接向量,首先计算回答文本和候选答案之间的语义相似度,再通过sigmoid函数将语义相似度输出映射到0-1。
模型的训练过程主要分为两步:预训练和多任务微调。
预训练:使用两个非监督预测任务对编码层(Lexicon编码层和Transformer编码层)进行预训练来学习编码层的参数。两个非监督预测任务分别为屏蔽语言模型(MaskedLanguage Modeling)和下一句预测模型(Next Sentence Prediction)。屏蔽语言模型:为了训练一个深度双向表示(deep bidirectional representation),采用一种简单的方法,即随机屏蔽(masking)部分输入token,然后只预测被屏蔽的token。数据生成器将执行以下操作,而不是始终用[MASK]替换所选单词:80%的时间:用[MASK]标记替换单词;10%的时间:用一个随机的单词替换该单词;10%的时间:保持单词不变。下一句预测:在为了训练一个理解句子的模型关系,预先训练一个二进制化的下一句预测任务,这一任务可以从任何单语语料库中生成。具体地说,当选择句子A和B作为预训练样本时,B有50%的可能是A的下一个句子,也有50%的可能是来自语料库的随机句子。
多任务微调:采用小批量梯度下降算法(Mini-batch Gradient Descent)来学习模型的参数(编码层以及特定任务输出层)。步骤如下:
1、设置训练的次数N,将数据集分为同等大小的mini-batchD1,D2,...,DT
2、对于每一次训练,合并四个特定任务的数据集,在每一个mini-batch下,通过随机梯度下降算法来更新模型的参数,每次迭代都朝着最优解逼近。
对数据评分这个任务,与多任务微调同样的方法训练模型来学习数据评分模型的模型参数,只需要少量标注的数据集对数据评分模型进行微调就可以获得准确度很高的数据评分模型。其中,该数据评分模型包括输入层、词编码层(Lexicon编码层)、上下文编码层(Transformer编码层)和数据评分层。
服务器在获取到目标数据集之后,可以基于预设的数据评分模型,对目标数据集中的每个面试回答文本进行评分,得到每个面试回答文本的评分数值。通过数据评分模型可以快速且准确的对目标数据进行评分,便于后续准确的对目标数据集进行筛选。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1023。
子步骤S1021,通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。
在获取到目标数据集之后,通过数据评分模型中的词编码层依次将目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。例如,目标数据集包括5个面试回答文本,分别为面试回答文本A、面试回答文本B、面试回答文本C、面试回答文本D和面试回答文本E,输入至词编码层之后,得到各自对应的嵌入向量,即嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e。
子步骤S1022、通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。
在得到每个面试回答文本各自对应的嵌入向量之后,通过该上下文编码层依次将每个面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。例如,每个面试回答文本各自对应的嵌入向量分别为嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e,则输入至上下文编码层之后,得到各自对应的上下文嵌入向量,即嵌入向量a1、嵌入向量b1、嵌入向量c1、嵌入向量d1和嵌入向量e1。
子步骤S1023、基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值。
在得到每个面试回答文本各自对应的上下文嵌入向量之后,基于数据评分层,根据每个面试回答文本各自对应的上下文嵌入向量,确定每个面试回答文本的评分数值。通过每个面试回答文本各自对应的上下文嵌入向量和数据评分模型的模型参数即可确定每个面试回答文本的评分数值。
在一实施例中,服务器获取预设的标准答案文本对应的文本向量,并通过数据评分模型的模型参数,计算每个面试回答文本各自对应的上下文嵌入向量与该文本向量之间的语义相似度;根据每个面试回答文本各自对应的上下文嵌入向量与该文本向量之间的语义相似度,确定每个面试回答文本的评分数值;其中,服务器通过词编码层和上下文编码层对标准答案文本进行处理,得到标准答案文本对应的文本向量,并存储,便于后续快速获取。
在一实施例中,根据预设映射函数,对每个面试回答文本各自对应的上下文嵌入向量与文本向量之间的语义相似度进行映射处理,得到每个面试回答文本的评分数值。需要说明的是,上述预设映射函数可基于实际情况进行设置,本申请对此不作具体限定。可选地,预设映射函数为sigmoid函数。
在一实施例中,服务器获取预设的标准答案文本中的每个面试问题的答案文本各自对应的文本向量;根据每个面试问题的答案文本各自对应的文本向量,确定标准答案文本对应的目标文本向量;计算每个面试回答文本各自对应的上下文嵌入向量与目标文本向量之间的语义相似度;根据每个面试回答文本各自对应的上下文嵌入向量与目标文本向量之间的语义相似度,确定每个面试回答文本的评分数值。
其中,标准答案文本包括多个面试问题的答案文本,目标文本向量的确定方式为:将每个面试问题的答案文本各自对应的文本向量进行拼接,得到文本拼接向量,并将该文本拼接向量作为标准答案文本对应的目标文本向量。其中,服务器通过词编码层和上下文编码层对每个面试问题的答案文本进行处理,得到每个面试问题的答案文本对应的文本向量,并存储,便于后续快速获取。通过每个面试问题的答案文本各自对应的文本向量,确定标准答案文本对应的目标文本向量,可以准确的表征标准答案文本的特征。
步骤S103、根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
在确定每个面试回答文本的评分数值之后,服务器根据每个面试回答文本的评分数值,对目标数据集进行筛选处理,得到符合预设条件的面试回答文本,即将每个面试回答文本的评分数值与预设的评分阈值进行比较,得到评分比较结果,并根据该评分比较结果,对目标数据集进行筛选处理,得到评分数值大于或等于预设阈值的面试回答文本。
在一实施例中,确定该评分数值大于或等于预设的评分阈值的目标数据的数量是否大于或等于预设数量;如果该评分数值大于或等于预设的评分阈值的目标数据的数量大于或等于预设数量,则根据每个面试回答文本的评分数值,对每个面试回答文本进行排序,得到面试回答文本队列;按照面试回答文本队列中的各面试回答文本的排序,依次从面试回答文本队列中选择面试回答文本,直至面试回答文本的数量达到预设数量,从而得到评分数值大于或等于预设阈值的面试回答文本。
上述实施例提供的数据筛选方法,通过基于多任务深度神经网络实现的数据评分模型,可以准确快速的对数据集中每个面试回答文本进行评分,通过准确的每个面试回答文本的评分数值可以准确的从数据集中筛选出符合条件的面试回答文本,有效的提高数据筛选的准确性。
请参照图3,图3为本申请实施例提供的另一种数据筛选方法的流程示意图。
如图3所示,该数据筛选方法包括步骤S201至S206。
步骤S201、获取目标数据集,其中,所述目标数据集为待筛选的数据集。
其中,服务器中存储有待筛选的数据集,该待筛选的数据集包括不同岗位的每个面试者的面试回答文本,该面试回答文本记录有面试者的个人基本信息和每个面试问题的作答信息等。服务器以岗位为单位,存储每个岗位的的每个面试者的面试回答文本,从而得到每个岗位对应的数据集,并对筛选过的面试回答文本和未筛选过的面试回答文本进行标记,得到每个岗位各自对应的待筛选的数据集,待筛选的数据集中的面试回答文本为未筛选的面试回答文本。
服务器可以实时或以间隔预设时间获取每个岗位对应的未筛选过的面试回答文本,以岗位为单位,汇集未筛选过的面试回答文本,可以得到每个岗位各自对应的待筛选的数据集,即目标数据集。需要说明的是,上述预设时间可基于实际情况进行设置,本申请对此不作具体限定。
步骤S202、通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。
在获取到目标数据集之后,通过数据评分模型中的词编码层依次将目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。例如,目标数据集包括5个面试回答文本,分别为面试回答文本A、面试回答文本B、面试回答文本C、面试回答文本D和面试回答文本E,输入至词编码层之后,得到各自对应的嵌入向量,即嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e。
步骤S203、通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。
在得到每个面试回答文本各自对应的嵌入向量之后,通过该上下文编码层依次将每个面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。例如,每个面试回答文本各自对应的嵌入向量分别为嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e,则输入至上下文编码层之后,得到各自对应的上下文嵌入向量,即嵌入向量a1、嵌入向量b1、嵌入向量c1、嵌入向量d1和嵌入向量e1。
步骤S204、获取预设的标准数据集中的每个标准答案文本各自对应的文本向量。
其中,预设的标准数据集包括多个标准答案文本,且每一个标准答案文本均包括正确的答案,服务器通过词编码层和上下文编码层对标准数据集中的每个标准答案文本进行处理,得到每个标准答案文本各自对应的文本向量。
步骤S205、计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度。
通过数据评分模型的模型参数、每个面试回答文本各自对应的上下文嵌入向量以及每个标准答案文本各自对应的文本向量,计算每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度。
步骤S206、根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
在得到每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度之后,根据每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度,确定每个面试回答文本的评分数值。通过目标数据与多个标准答案文本之间的相似度,可以更加准确的确定每个面试回答文本的评分数值。
在一实施例中,根据每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度,确定每个面试回答文本各自对应的目标相似度;根据每个面试回答文本各自对应的目标相似度,确定每个面试回答文本的评分数值,即根据预设映射函数,对每个面试回答文本各自对应的上下文嵌入向量与文本向量之间的语义相似度进行映射处理,得到每个面试回答文本的评分数值。
其中,目标相似度的确定方式具体为:以面试回答文本为单位,汇集该面试回答文本的上下文嵌入向量与每个标准答案文本各自对应的文本向量之间的语义相似度,以形成该面试回答文本的语义相似度集,一个面试回答文本对应一个语义相似度集;将该语义相似度集中的最大语义相似度作为面试回答文本对应的目标相似度。
步骤S207、根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
在确定每个面试回答文本的评分数值之后,服务器根据每个面试回答文本的评分数值,对目标数据集进行筛选处理,得到符合预设条件的面试回答文本,即将每个面试回答文本的评分数值与预设的评分阈值进行比较,得到评分比较结果,并根据该评分比较结果,对目标数据集进行筛选处理,得到评分数值大于或等于预设阈值的面试回答文本。
上述实施例提供的数据筛选方法,通过基于多任务深度神经网络实现的数据评分模型和多个标准答案文本,可以进一步准确的对面试回答文本进行评分,基于面试回答文本的评分,可以准确的从数据集中筛选出符合条件的面试回答文本,有效的提高岗位候选人的筛选准确性。
请参照图4,图4为本申请实施例提供的一种数据筛选装置的示意性框图。
如图4所示,该数据筛选装置300,包括:获取模块301、评分模块302和筛选模块303。
获取模块301,用于获取目标数据集,其中,所述目标数据集为待筛选的数据集;
评分模块302、用于基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
筛选模块303,用于根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
在一个实施例中,如图5所示,所述评分模块302包括:
第一向量确定子模块3021,用于通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量;
第二向量确定子模块3022,用于通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量;
评分子模块3023,用于基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述评分子模块3023,还用于获取预设的标准答案文本对应的文本向量;计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度;根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述评分子模块3023,还用于根据预设映射函数,对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理,得到每个所述面试回答文本的评分数值。
在一个实施例中,所述筛选模块303,还用于将每个所述面试回答文本的评分数值与预设的评分阈值进行比较,得到评分比较结果;根据所述评分比较结果,对所述目标数据集进行筛选处理,得到所述评分数值大于或等于预设阈值的面试回答文本。
请参照图6,图6为本申请实施例提供的另一种数据筛选装置的示意性框图。
如图6所示,该数据筛选装置400,包括:获取模块401、向量确定模块402、计算模块403、评分模块404和筛选模块405。
获取模块401,用于获取目标数据集,其中,所述目标数据集为待筛选的数据集;
向量确定模块402,用于通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量;
所述向量确定模块402,还用于通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量;
所述获取模块401,还用于获取预设的标准数据集中的每个标准答案文本各自对应的文本向量;
计算模块403,用于计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度;
评分模块404,用于根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值;
筛选模块405,用于根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
在一实施例中,所述评分模块404,还用于根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本各自对应的目标相似度;根据每个所述面试回答文本各自对应的目标相似度,确定每个所述面试回答文本的评分数值。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述数据筛选方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。
如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据筛选方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据筛选方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取目标数据集,其中,所述目标数据集为待筛选的数据集;
基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
可选地,所述数据评分模型包括词编码层、上下文编码层和数据评分层;所述处理器在实现基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值时,用于实现:
通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量;
通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量;
基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述处理器在实现基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值时,用于实现:
获取预设的标准数据集中每个标准答案文本各自对应的文本向量;
计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度;
根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述处理器在实现根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值时,用于实现:
根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本各自对应的目标相似度;
根据每个所述面试回答文本各自对应的目标相似度,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述处理器在实现基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值时,用于实现:
获取预设的标准答案文本对应的文本向量;
计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度;
根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
在一个实施例中,所述处理器在实现根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值时,用于实现:
根据预设映射函数,对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理,得到每个所述面试回答文本的评分数值。
在一个实施例中,所述处理器在实现根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本时,用于实现:
将每个所述面试回答文本的评分数值与预设的评分阈值进行比较,得到评分比较结果;
根据所述评分比较结果,对所述目标数据集进行筛选处理,得到所述评分数值大于或等于预设阈值的面试回答文本。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述数据筛选方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请数据筛选方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据筛选方法,其特征在于,包括:
获取目标数据集,其中,所述目标数据集为待筛选的数据集;
基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述数据评分模型包括词编码层、上下文编码层和数据评分层;所述基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,包括:
通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量;
通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量;
基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值。
3.根据权利要求2所述的数据筛选方法,其特征在于,所述基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值,包括:
获取预设的标准数据集中每个标准答案文本各自对应的文本向量;
计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度;
根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
4.根据权利要求3所述的数据筛选方法,其特征在于,所述根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值,包括:
根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度,确定每个所述面试回答文本各自对应的目标相似度;
根据每个所述面试回答文本各自对应的目标相似度,确定每个所述面试回答文本的评分数值。
5.根据权利要求2所述的数据筛选方法,其特征在于,所述基于所述数据评分层,根据每个所述面试回答文本各自对应的上下文嵌入向量,确定每个所述面试回答文本的评分数值,包括:
获取预设的标准答案文本对应的文本向量;
计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度;
根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值。
6.根据权利要求5所述的数据筛选方法,其特征在于,所述根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度,确定每个所述面试回答文本的评分数值,包括:
根据预设映射函数,对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理,得到每个所述面试回答文本的评分数值。
7.根据权利要求1至6中任一项所述的数据筛选方法,其特征在于,所述根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本,包括:
将每个所述面试回答文本的评分数值与预设的评分阈值进行比较,得到评分比较结果;
根据所述评分比较结果,对所述目标数据集进行筛选处理,得到所述评分数值大于或等于预设阈值的面试回答文本。
8.一种数据筛选装置,其特征在于,所述数据筛选装置包括:
获取模块,用于获取目标数据集,其中,所述目标数据集为待筛选的数据集;
评分模块,用于基于预设的数据评分模型,对所述目标数据集中的每个面试回答文本进行评分,得到每个所述面试回答文本的评分数值,其中,所述数据评分模型基于多任务深度神经网络实现;
筛选模块,用于根据每个所述面试回答文本的评分数值,对所述目标数据集进行筛选处理,得到符合预设条件的面试回答文本。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的数据筛选方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的数据筛选方法的步骤。
CN201910984851.7A 2019-10-16 2019-10-16 数据筛选方法、装置、设备及计算机可读存储介质 Pending CN110929524A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910984851.7A CN110929524A (zh) 2019-10-16 2019-10-16 数据筛选方法、装置、设备及计算机可读存储介质
PCT/CN2020/117418 WO2021073390A1 (zh) 2019-10-16 2020-09-24 数据筛选方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984851.7A CN110929524A (zh) 2019-10-16 2019-10-16 数据筛选方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110929524A true CN110929524A (zh) 2020-03-27

Family

ID=69849238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984851.7A Pending CN110929524A (zh) 2019-10-16 2019-10-16 数据筛选方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110929524A (zh)
WO (1) WO2021073390A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695591A (zh) * 2020-04-26 2020-09-22 平安科技(深圳)有限公司 基于ai的面试语料分类方法、装置、计算机设备和介质
CN112084764A (zh) * 2020-09-02 2020-12-15 北京字节跳动网络技术有限公司 数据检测方法、装置、存储介质及设备
CN112686020A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 作文评分方法、装置、电子设备及存储介质
WO2021073390A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 数据筛选方法、装置、设备及计算机可读存储介质
WO2021218029A1 (zh) * 2020-04-26 2021-11-04 平安科技(深圳)有限公司 基于人工智能的面试方法、装置、计算机设备及存储介质
CN113609121A (zh) * 2021-08-17 2021-11-05 平安资产管理有限责任公司 基于人工智能的目标数据处理方法、装置、设备和介质
CN116469448A (zh) * 2022-02-18 2023-07-21 武汉置富半导体技术有限公司 一种闪存颗粒的筛选方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226481B (zh) * 2022-12-30 2023-11-21 北京视友科技有限责任公司 一种基于脑电的实验数据筛选方法、系统及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3430531A1 (en) * 2016-03-16 2019-01-23 Maluuba Inc. Parallel-hierarchical model for machine comprehension on small data
CN109670168B (zh) * 2018-11-14 2023-04-18 华南师范大学 基于特征学习的短答案自动评分方法、系统及存储介质
CN109933661B (zh) * 2019-04-03 2020-12-18 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN110046244B (zh) * 2019-04-24 2021-06-08 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
CN110929524A (zh) * 2019-10-16 2020-03-27 平安科技(深圳)有限公司 数据筛选方法、装置、设备及计算机可读存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073390A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 数据筛选方法、装置、设备及计算机可读存储介质
CN111695591A (zh) * 2020-04-26 2020-09-22 平安科技(深圳)有限公司 基于ai的面试语料分类方法、装置、计算机设备和介质
WO2021218029A1 (zh) * 2020-04-26 2021-11-04 平安科技(深圳)有限公司 基于人工智能的面试方法、装置、计算机设备及存储介质
CN111695591B (zh) * 2020-04-26 2024-05-10 平安科技(深圳)有限公司 基于ai的面试语料分类方法、装置、计算机设备和介质
CN112084764A (zh) * 2020-09-02 2020-12-15 北京字节跳动网络技术有限公司 数据检测方法、装置、存储介质及设备
CN112686020A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 作文评分方法、装置、电子设备及存储介质
CN112686020B (zh) * 2020-12-29 2024-06-04 科大讯飞股份有限公司 作文评分方法、装置、电子设备及存储介质
CN113609121A (zh) * 2021-08-17 2021-11-05 平安资产管理有限责任公司 基于人工智能的目标数据处理方法、装置、设备和介质
CN116469448A (zh) * 2022-02-18 2023-07-21 武汉置富半导体技术有限公司 一种闪存颗粒的筛选方法和装置
CN116469448B (zh) * 2022-02-18 2024-02-02 武汉置富半导体技术有限公司 一种闪存颗粒的筛选方法和装置

Also Published As

Publication number Publication date
WO2021073390A1 (zh) 2021-04-22

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
KR102170199B1 (ko) 비교 세트를 사용한 입력 예시들 분류
CN109471915B (zh) 一种文本评价方法、装置、设备以及可读存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN110147551A (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110569356B (zh) 基于智能面试交互系统的面试方法、装置和计算机设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112308237B (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
CN107590127A (zh) 一种题库知识点自动标注方法及系统
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
EP3929800A1 (en) Skill word evaluation method and device, electronic device, and computer readable medium
CN112380421A (zh) 简历的搜索方法、装置、电子设备及计算机存储介质
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
US20220129760A1 (en) Training neural networks with label differential privacy
CN117077679B (zh) 命名实体识别方法和装置
CN112287215A (zh) 一种智能就业推荐方法和装置
CN112069806B (zh) 简历筛选方法、装置、电子设备及存储介质
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN117272999A (zh) 基于类增量学习的模型训练方法及装置、设备、存储介质
CN111198943B (zh) 一种简历筛选方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination