CN112434142A - 一种标记训练样本的方法、服务器、计算设备及存储介质 - Google Patents
一种标记训练样本的方法、服务器、计算设备及存储介质 Download PDFInfo
- Publication number
- CN112434142A CN112434142A CN202011311602.0A CN202011311602A CN112434142A CN 112434142 A CN112434142 A CN 112434142A CN 202011311602 A CN202011311602 A CN 202011311602A CN 112434142 A CN112434142 A CN 112434142A
- Authority
- CN
- China
- Prior art keywords
- prediction
- model
- answer
- predicted
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及计算机技术领域,尤其涉及一种标记训练样本的方法、服务器、计算设备及存储介质,包括:将样本输入第一预测模型,所述样本包括待预测问题及预测查询内容;确定所述第一预测模型输出的第一预测答案满足第一预设条件时,将所述第一预测答案作为所述样本的标签;将包含标签的样本作为第二预测模型进行训练的训练样本;所述第二预测模型用于使用与所述第一预测模型不同的预测方式来进行答案预测。无需人工根据待预测问题在预测查询内容中进行答案的标注,节省了人力、财力成本;相比于人工标注,提高了标记训练样本的正确率和效率;此外,具有不同预测方式的预测模型之间相互提供训练样本,有助于多个预测模型相互之间的优化学习。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种标记训练样本的方法、服务器、计算设备及存储介质。
背景技术
随着互联网的兴起和发展,数据急速增长,如何利用机器阅读理解技术来帮助用户查找到满意的答案,是自然语言理解技术研究领域中的一个经典课题。机器阅读理解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一直是研究者和业界关注的对象,也是目前智能语音交互和人机对话的核心难题。机器阅读理解是让机器像人类一样通过阅读自然语言文本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。
为了逐步完善机器阅读理解模型的阅读理解能力,需要不断为模型提供多样化的训练语料,训练语料一般包括问题、问题的答案、答案可能所在的段落。一般来说,问题的答案采用人工标注。阅读理解模型通过阅读段落和问题生成问题对应的预测答案,再将预测答案与人工标注的答案进行对比,从而进行训练,逐步提升语义理解的能力,迭代优化模型的阅读理解水平。
但是,训练语料的数量往往十分庞大,单单通过人工的方式标注问题的答案,使得训练过程不但耗费较高的人力、财力,而且时间周期较长,极大地限制了训练模型的效率。
综上,目前亟需一种标记训练样本的方法,用以解决人工标记导致的效率低下的问题。
发明内容
本发明实施例提供一种标记训练样本的方法、服务器、计算设备及存储介质,用以解决人工标记导致的效率低下的问题。
本发明实施例提供一种标记训练样本的方法,包括:
将样本输入第一预测模型,所述样本包括待预测问题及预测查询内容;所述第一预测模型用于在所述预测查询内容中查找所述待预测问题的预测答案;
确定所述第一预测模型输出的第一预测答案满足第一预设条件时,将所述第一预测答案作为所述样本的标签;
将包含标签的样本作为第二预测模型进行训练的训练样本;所述第二预测模型用于使用与所述第一预测模型不同的预测方式来进行答案预测。
通过将包含第一预测答案的样本作为其他预测模型的训练样本,使其他模型可直接使用训练样本进行模型的优化,而第一预测答案由第一预测模型生成。如此,无需人工根据待预测问题在预测查询内容中进行答案的标注,节省了人力、财力成本;同时通过对第一预测模型输出的第一预测答案是否满足预设条件的判断,可保证第一预测答案的正确性,相比于人工标注,提高了标记训练样本的正确率和效率;此外,具有不同预测方式的预测模型之间相互提供训练样本,有助于多个预测模型相互之间的优化学习。
在一些实施例中,将所述第一预测答案作为所述样本的标签之前,还包括:
将所述样本输入所述第二预测模型;
确定所述第二预测模型输出的第二预测答案不满足第二预设条件。
在第一预测答案满足第一预设条件且第二预测答案不满足第二预设条件的情况下,再将包含第一预测答案的样本作为第二预测模型的训练样本,如此,避免了第二预测模型在第二预测答案符合第二预设条件的情况下还要接受第一预测模型提供的训练样本进行模型优化,保证了第一预测模型提供的训练样本只供给预测答案不正确的模型使用,节省了计算资源。
在一些实施例中,确定所述第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定所述第一预测模型输出的所述第一预测答案的第一预测值满足第一预设概率值;
确定所述第二预测模型输出的第二预测答案不满足第二预设条件,包括:
确定所述第二预测模型输出的所述第二预测答案的第二预测值不满足第二预设概率值。
通过提取预测答案的预测值,并判断其是否满足预设概率值,而预设概率值为预测模型预测的答案与正确答案相匹配所应满足的最小概率值,是对模型的预测答案进行多次量化判断后总结出的概率阈值条件,是一个经验值。如此,可量化地判断第一预测答案是否与正确答案符合,简化了模型判断方法的同时,保证了模型输出答案的准确率。
在一些实施例中,所述第一预测值为所述第一预测答案的开始位置的第一概率值与所述第一预测答案的结束位置的第二概率值的乘积;或
所述第一预测值为所述第一概率值与所述第二概率值中的最大值。
将预测值用概率值量化表征,而概率值与预测答案的开始位置的概率和结束位置的概率有关,如此,后续再将预测值与预设概率值进行比较,可以更加准确地反映预测答案与正确答案的匹配程度,保证了模型输出答案的准确率。
在一些实施例中,确定所述第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定所述第一预测模型输出的所述第一预测答案的第一预测值满足第一预设概率值,且所述第一预测答案符合所述待预测问题的答案规则。
在确定预测答案的预测值满足预设概率值的同时,还要判断预测答案是否与问题的答案规则相对应,进一步提高了模型输出答案的准确率。
在一些实施例中,所述第一预测模型为双向注意力流BiDAF模型,所述第二预测模型为轻量化的基于转换器的双向编码器表征ALBERT模型;或
所述第一预测模型为ALBERT模型,所述第二预测模型为BiDAF模型。
BiDAF模型通过独有的对从文本到问题和从问题到文本的双向注意力的计算,使文本向量和问题向量进行更加深度的融合,使模型对文本和问题的相似度判断更加准确,加深了模型对“字词”的理解;而ALBERT模型通过预训练任务(包括遮蔽语言模型和句子顺序预测)对上下文词级别和句子级别进行深入地学习,保障模型能够准确地理解语句的语义,为下游具体任务提供准确的语义特征;同时后续在已经训练好的语言模型的基础上进行微调,通过加入少量的特定任务参数进行小规模的训练。二者对文本的阅读理解各有侧重,各有优势,对答案的预测方式不同,答案的正确率不同,因此将包含任意一个模型输出的符合预设条件的预测答案的样本作为其他输出预测答案不符合预设条件的模型的训练样本,可以使模型之间相互提供训练样本,有助于预测模型相互之间的取长补短、优化学习,进一步提高两个模型预测答案的准确率。
在一些实施例中,所述BiDAF模型的预设条件中的预设概率值大于所述ALBERT模型的预设条件中的预设概率值。
预设概率值为预测模型预测的答案与正确答案相匹配所应满足的最小概率值,是对模型的预测答案进行多次量化判断后总结出的概率阈值条件,是一个经验值。由于不同的模型进行答案预测的方式、侧重点不同,因而需要针对特定的模型确定其对应的预设概率值,如此,通过对预设概率值的大小设置,最大可能地保证了不同模型对预测答案正确与否的判断标准相一致,避免了不同的模型设置同样的概率阈值条件导致预测答案的准确率标准差异较大。
本发明实施例还提供一种服务器,包括:
输入/输出接口,用于控制器与外部其他设备或其他控制器之间的数据传输;
所述控制器,用于执行上述任一方式所列标记训练样本的方法。本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列标记训练样本的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的标记训练样本的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种标记训练样本的方法;
图2为本发明实施例中所涉及到的整体性流程的示意图;
图3为本发明实施例提供的一种服务器的硬件配置框图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
现在,通过搜索引擎来搜索问题,会返回相关的网页,用户需要通过点击到网页中进行浏览,查找自己需要的答案。如果搜索引擎能够针对用户的问题,准确的为用户返回他们需要的标准答案,这会极大的节省用户宝贵的时间,并会带给用户良好的用户体验。
又如,随着互联网和人工智能等领域的不断发展,客服机器人在客户服务中扮演了重要的角色,如果使客服机器人具有阅读理解的能力,则能针对用户的问题在预先输入的大量优惠规则、交易规则中迅速准确地提取用户需要的答案,可针对性的解决用户的问题,节省人力、时间成本。
基于此,机器阅读理解技术应运而生。
自斯坦福机器阅读理解数据集SQuAD问世以来,经过谷歌、微软、百度、科大讯飞、腾讯、斯坦福大学等在内的众多研究机构的不懈努力,形成了“词向量化——语义编码——语义交互——答案预测”这样一套四层机器阅读理解模型体系。该体系的主要思想是:首先,将自然文本表示为可计算的向量,其次,融合问题向量与支撑文档向量来使得机器学习到语义交互信息,最后,根据交互信息预测答案的位置或逐一输出最大概率的字词来生成答案。
下面介绍机器阅读理解这个范畴里,广泛接受和应用的几个模型。
(1)BiDAF(Bi-Directional Attention Flow双向注意力流)模型
BiDAF的核心是把问题和文档进行双向交互,从而获得了更好的和更加丰富的特征表示,其通过这种方式把问题嵌入到文档中来获得和文档比较相关的表示。
其主要包括以下6层结构:字符编码层、词表编码层、上下文编码层、注意力流层、模型层和输出层。
前三层分别获取字符编码、词表编码和上下文编码,以获取文本和问题的字信息、词信息和上下文信息。BiDAF将每个单词的词表编码和字符编码拼接得到一个d维的单词向量,然后经过一个高速路网络(Highway Network)。高速路网络的出发点是随着网络层数的增加,训练网络时会出现梯度消失或者梯度爆炸的情况。Highway Network解决这一问题的方式是,提供向量越过一个网络层直接进入下一层的通道,相当于实现了一条信息的高速通道。Highway Network的输出y由两部分组成:第一部分是输入x经过一个网络层H得到的结果,第二部分就是输入x本身,这两部分的权重取决于x的函数T(x):
y=H(x)⊙T(x)+x⊙(1-T(x))
这里,⊙是对两个向量的对应维度的元素求乘积。使用网络层H(x)=tanh(WHx+bH)和权重函数T(x)=σ(WTx+br),其中WH、bH、WT、br均为参数。y和x的维度一致,都为d维。
BiDAF将高速路网络的结果输入一个双向训练神经网络LSTM,得到文章和问题中的每个单词的上下文编码。由于RNN有两个方向,编码层的最终输出为,文章和问题中的每个单词均由一个2d维向量表示。
第四层注意力流层则计算了query2doc和doc2query两个方向的注意力权重。BiDAF可以同时计算从文章到问题和从问题到文章的双向注意力,并始终保留文章中每个词的向量信息。此外,采用无记忆(memory-less)模式,从而避免了误差的累积。
(a)文章到问题注意力。
采用互注意力计算从文章到问题的交互信息,对于每个文章单词,模型重点关注与其语义相近的问题单词。BiDAF的编码层得到文章的m个2d单词向量H=(h1,h2,...,hm)和问题的n个2d维单词向量U=(u1,u2,...,un)。接下来,模型计算每一对文章与问题单词之间的注意力函数值。其中,文章中第i个单词和问题中第j个单词的注意力分数为:
其中hi⊙qj表示两个向量的每一个维度分别相乘形成的向量。
(b)问题到文章注意力。
该模块中,模型再次使用C2Q中的注意力函数结果si,j。然后,对于文章中的每个单词wi,计算和它最接近的问题单词的相似度ti=max1≤j≤n si,j。接着,对这些相似度进行softmax操作,并计算文章单词向量的加权和
因此,每个文章的单词被一个2d+2d+2d+2d=8d维向量gi表示,包含了单词本身、文章上下文以及问题的含义。
第五层也就是模型层,其实一个Bi-LSTM结构,其主要把获得的编码进行相关关联,匹配相互之前的关系。模型层中,文章的词向量再次经过双向训练神经网络,输出每个文章单词的最终向量表示:2d维向量mi。这一层的输入向量已经同时包含了文章和问题的信息,因此模型层对所有信息进行了更深层次的融合。
M=LSTM(G)=[m1;m2;...;mm],mi∈R2d
第六层是输出层,其直接输出在文档中最可能答案的开始和结束位置。其中文章每个单词作为答案开始位置的概率为
接下来,BiDAF将M作为输入向量通过LSTM循环神经网络,得到输出状态矩阵M2。然后采用和开始位置类似的方法得到结束位置的概率:
BiDAF在训练时采用交叉熵损失函数L(θ):
(2)ALBERT(A Lite Bidirectional Encoder Representation fromTransformers轻量化的基于转换器的双向编码器表征)模型
目前深度学习领域广泛采用预训练模型+微调(fine-tuning)的方式来解决各类任务。预训练模型的主要思路包括两个主要步骤:第一步,采用某个较大的数据集预训练出一个较好的模型;第二步,根据不同的任务,改造预训练模型,用新任务的数据集在预训练模型上进行微调。
预训练模型的好处是如果已经训练好了一个较好的模型,那么可以直接用来配合下游任务实现更快的收敛速度,训练代价较小,并且能够有效地提高模型性能。这在一些训练数据比较稀缺的任务中特别有效。
ALBERT模型预训练过程:
(a)模型输入Inputs
ALBERT的输入是两个sentence,彼此用[SEP]符号分隔,句首增加一个特殊符号[CLS],方便下游分类任务使用。ALBERT的输入embedding则由如下三部分组成:
Token Embedding:也就是通过词向量的形式获得每个词的表示;
Segment Embedding:主要是用来区分两段话,用于句子级别的MASK任务,用0,1加以区分。
Position Embedding:位置编码,就是把每个词的位置,通过编码的形式表示出来,ALBERT和BERT中的位置编码和原Transformer的三角函数位置编码不同,是在模型中训练得到的。
然后通过这三种编码方式求和,也就得到了ALBERT的Embedding层。
(b)模型输出Outputs
把输入的Embedding输入到一个多层堆叠的双向Transformer的Encoder进行特征提取,最终句子中的每一个词都会输出一个长度为hidden_size的向量。
(c)模型训练
ALBERT和BERT一样,定义了两个预训练任务来预训练模型。两个预训练任务分布为语言模型Masked Language Model和句子顺序预测Sentence Order Prediction(注:BERT中该任务为Next Sentence Prediction),通过上下文词级别和句子级别的学习,保障模型能够准确地理解语句的语义,为下游具体任务提供准确的语义特征。
ALBERT模型微调过程:
微调是指在已经训练好的语言模型的基础上,加入少量的task-specificparameters进行小规模的训练。
可以看出,BiDAF模型通过独有的对从文本到问题和从问题到文本的双向注意力的计算,使文本向量和问题向量进行更加深度的融合,使模型对文本和问题的相似度判断更加准确,加深了模型对“字词”的理解;而ALBERT模型通过预训练任务(包括遮蔽语言模型和句子顺序预测)对上下文词级别和句子级别进行深入地学习,保障模型能够准确地理解语句的语义,为下游具体任务提供准确的语义特征;同时后续在已经训练好的语言模型的基础上进行微调,通过加入少量的特定任务参数进行小规模的训练。
但是,BIDAF模型过于关注“词语”的相似度,对上下文理解上存在一定欠缺。同时模型学习方式是用标注过的语料训练模型,模型在“词语”级别上对这些标注过的文本体现出很强的记忆和语义理解能力,对没有标注过的内容则表现不敏感。基于这个特点,模型对训练标注语料规模没有特别要求。从这个特性上来讲BiDAF模型可以适合小语料下的专家问答场景应用。即对高质量标注语料要求不高,教过的内容模型能够理解并回答。具体来说,标准BiDAF模型能够很快记住答案,但是,与此同时在加深训练的过程中模型会迅速遗忘了标注体本身,即“提问”。最终,标准BiDAF模型体现出来对提问问题不够敏感,模型给出的答案与问题本身语义相关性不明显,带给用户的体验是答非所问。
ALBERT模型过分关注对上下文的语义的理解,而忽视了对字词的理解判断;同时基于预训练好的模型进行微调,不能对预训练的过程进行模型参数布局的更改,因而对微调过程中新加入的训练语料的适配性不好。
综上,每种阅读理解模型都具有不同的理解侧重点,因而会出现针对同一个问题,不同模型根据同样的段落文本会生成不同的预测答案,而这些预测答案的正确率也不能保证。因而需要不断的补充训练语料对各个模型进行训练,优化各个模型的阅读理解能力。
而采用人工的方式进行答案的标记使得训练过程不但耗费较高的人力、财力,而且时间周期较长,极大地限制了训练模型的效率。
图1为本发明实施例提供的一种标记训练样本的方法流程示意图,用以解决人工标记导致的效率低下的问题。
步骤101、将样本输入第一预测模型,样本包括待预测问题及预测查询内容;第一预测模型用于在预测查询内容中查找待预测问题的预测答案;
步骤102、确定第一预测模型输出的第一预测答案满足第一预设条件时,将第一预测答案作为样本的标签;
步骤103、将包含标签的样本作为第二预测模型进行训练的训练样本;第二预测模型用于使用与所述第一预测模型不同的预测方式来进行答案预测。
通过将包含第一预测答案的样本作为其他预测模型的训练样本,使其他模型可直接使用训练样本进行模型的优化,而第一预测答案由第一预测模型生成。如此,无需人工根据待预测问题在预测查询内容中进行答案的标注,节省了人力、财力成本;同时通过对第一预测模型输出的第一预测答案是否满足预设条件的判断,可保证第一预测答案的正确性,相比于人工标注,提高了标记训练样本的正确率和效率;此外,具有不同预测方式的预测模型之间相互提供训练样本,有助于多个预测模型相互之间的优化学习。
在步骤101中,待预测问题可以通过用户终端输入、问题生成模型自动生成等途径获得。例如,通过问题收集模型收集用户在终端的各种提问中没有得到满意答案的一些问题,或者通过问题生成模型自动生成问题,本发明实施例对此不作限制。
通过对存储在数据库中的文本进行数据预处理得到段落和标题,数据预处理包括去异常符号、去停用词、段落切割和繁体转简体中的一项或多项。数据库中的文本可在网络上实时爬取得到,也可人工导入。在一些实施例中,如果问题的答案需要在全网进行搜索,则文本需在网络上实时爬取;若问题的答案所在的文本是由用户制定,则将该文本人工导入即可。经过数据预处理得到的段落和标题即为预测查询内容。
将待预测问题及预测查询内容输入第一预测模型,第一预测模型在预测查询内容中查找待预测问题的预测答案,并将第一预测答案输出。
在步骤102中,确定第一预测模型输出的第一预测答案满足第一预设条件时,将第一预测答案作为样本的标签;
在一些实施例中,确定第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定第一预测模型输出的第一预测答案的第一预测值满足第一预设概率值;
在一些实施例中,预设概率值为预测模型预测的答案与正确答案相匹配所应满足的最小概率值,是对模型的预测答案进行多次量化判断后总结出的概率阈值条件,是一个经验值。由于不同的模型进行答案预测的方式、侧重点不同,因而需要针对特定的模型确定其对应的预设概率值,不同的预测模型的预设概率值不同。如BiDAF模型的预设条件中的预设概率值大于ALBERT模型的预设条件中的预设概率值。
通过对预设概率值的大小设置,最大可能地保证了不同模型对预测答案正确与否的判断标准相一致,避免了不同的模型设置同样的概率阈值条件导致预测答案的准确率标准差异较大。
若确定第一预测模型输出的第一预测答案的第一预测值满足第一预设概率值,则说明模型的预测答案与正确答案的匹配度符合阈值条件,则将第一预测答案视为正确答案,将第一预测答案作为样本的标签,供其他预测模型训练模型使用。
通过提取预测答案的预测值,并判断其是否满足预设概率值,而预设概率值为预测模型预测的答案与正确答案相匹配所应满足的最小概率值,是对模型的预测答案进行多次量化判断后总结出的概率阈值条件,是一个经验值。如此,可量化地判断第一预测答案是否与正确答案符合,简化了模型判断方法的同时,保证了模型输出答案的准确率。
在一些实施例中,第一预测值为第一预测答案的开始位置的第一概率值与第一预测答案的结束位置的第二概率值的乘积;或
第一预测值为第一概率值与第二概率值中的最大值。
例如,第一预测模型为BiDAF模型,其针对待预测问题在预测查询内容中查找到了第一预测答案。在将第一预测答案的开始位置和结束位置输出的同时,还会输出第一预测答案可能在该开始位置的第一概率值和可能在该结束位置的第二概率值的乘积,该乘积即为第一预测值,如0.2。将第一预测值与BIDAF模型的预设概率值(如0.15)进行比较,可知,第一预测值符合第一预设概率值,说明第一预测答案与正确答案匹配度较高,将第一预测答案作为样本的标签。
若第一预测模型为ALBERT模型,其针对待预测问题在预测查询内容中查找到了第一预测答案。在将第一预测答案的开始位置和结束位置输出的同时,还会输出第一预测答案可能在该开始位置的第一概率值和可能在该结束位置的第二概率值的乘积,该乘积即为第一预测值,如0.2。将第一预测值与BIDAF模型的预设概率值(如0.25)进行比较,可知,第一预测值不符合第一预设概率值,说明第一预测答案与正确答案匹配度较差,不将第一预测答案作为样本的标签。
若第一预测模型为BIDAF模型,其针对待预测问题在预测查询内容中查找到了第一预测答案。在将第一预测答案的开始位置和结束位置输出的同时,还会将第一预测答案可能在该开始位置的第一概率值和可能在该结束位置的第二概率值进行比较后输出一个较大值,该较大值即为第一预测值,如0.2。将第一预测值与BIDAF模型的预设概率值(如0.3)进行比较,可知,第一预测值不符合第一预设概率值,说明第一预测答案与正确答案匹配度较差,不将第一预测答案作为样本的标签。
将预测值用概率值量化表征,而概率值与预测答案的开始位置的概率和结束位置的概率有关,如此,后续再将预测值与预设概率值进行比较,可以更加准确地反映预测答案与正确答案的匹配程度,保证了模型输出答案的准确率。
在一些实施例中,确定第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定第一预测模型输出的第一预测答案的第一预测值满足第一预设概率值,且第一预测答案符合待预测问题的答案规则。
答案规则为根据待预测问题的句式、类型、词性等特征总结的对应答案所应具有的规则。例如,待预测问题为:“《亲爱的自己》什么时候播出?”,这里“什么时候”说明问题是When类型,答案需要包含时间,因而把“9月7日”这种词性为TIME的表达确定为符合待预测问题的答案规则。
如此,在确定预测答案的预测值满足预设概率值的同时,还要判断预测答案是否与问题的答案规则相对应,进一步提高了模型输出答案的准确率。
在步骤103中,将包含标签的样本作为第二预测模型进行训练的训练样本;第二预测模型用于使用与第一预测模型不同的预测方式来进行答案预测。
即,将包含第一预测模型输出的符合预设条件的第一预测答案的样本作为第二模型的训练样本,由于第二预测模型采用与第一预测模型不同的预测方式来进行答案预测,因而第二预测模型的预测答案与第一预测模型很可能不同,接受第一预测模型提供的训练样本,可以使第二预测模型的训练语料更加丰富,提高第二预测模型的预测答案的多样性。
在一些实施例中,将第一预测答案作为样本的标签之前,还包括:
将样本输入第二预测模型;
确定第二预测模型输出的第二预测答案不满足第二预设条件。
在一些实施例中,确定第二预测模型输出的第二预测答案不满足第二预设条件,包括:
确定第二预测模型输出的第二预测答案的第二预测值不满足第二预设概率值。
在第一预测答案满足第一预设条件且第二预测答案不满足第二预设条件的情况下,再将包含第一预测答案的样本作为第二预测模型的训练样本,如此,避免了第二预测模型在第二预测答案符合第二预设条件的情况下还要接受第一预测模型提供的训练样本进行模型优化,保证了第一预测模型提供的训练样本只供给预测答案不正确的模型使用,节省了计算资源。
在一些实施例中,第一预测模型为BiDAF模型,第二预测模型为ALBERT模型;或
第一预测模型为ALBERT模型,第二预测模型为BiDAF模型。
BiDAF模型通过独有的对从文本到问题和从问题到文本的双向注意力的计算,使文本向量和问题向量进行更加深度的融合,使模型对文本和问题的相似度判断更加准确,加深了模型对“字词”的理解;而ALBERT模型通过预训练任务(包括遮蔽语言模型和句子顺序预测)对上下文词级别和句子级别进行深入地学习,保障模型能够准确地理解语句的语义,为下游具体任务提供准确的语义特征;同时后续在已经训练好的语言模型的基础上进行微调,通过加入少量的特定任务参数进行小规模的训练。二者对文本的阅读理解各有侧重,各有优势,对答案的预测方式不同,答案的正确率不同,因此将包含任意一个模型输出的符合预设条件的预测答案的样本作为其他输出预测答案不符合预设条件的模型的训练样本,可以使模型之间相互提供训练样本,有助于预测模型相互之间的取长补短、优化学习,进一步提高两个模型预测答案的准确率。
在一些实施例中,BiDAF模型的预设条件中的预设概率值大于ALBERT模型的预设条件中的预设概率值。
预设概率值为预测模型预测的答案与正确答案相匹配所应满足的最小概率值,是对模型的预测答案进行多次量化判断后总结出的概率阈值条件,是一个经验值。由于不同的模型进行答案预测的方式、侧重点不同,因而需要针对特定的模型确定其对应的预设概率值,如此,通过对预设概率值的大小设置,最大可能地保证了不同模型对预测答案正确与否的判断标准相一致,避免了不同的模型设置同样的概率阈值条件导致预测答案的准确率标准差异较大。
在一些实施例中,将包含标签的样本作为第二预测模型进行训练的训练样本,包括:
将包含标签的样本进行针对性的数据增强,得到第二预测模型进行训练的最终训练样本。
随着各个模型的不断训练优化,针对同一个问题,各个模型给出的预测答案往往都符合预设条件,因而出现第一预测模型符合第一预设条件,且第二预测模型不符合第二预设条件的情况越来越少,导致包含标签的样本量减少。如此可对样本进行针对性的数据增强,即对于第一预测模型输出的第一预测答案生成多个与该答案相对应的待预测问题,以丰富样本量。
例如,待预测问题为:本店的优惠规则是什么,第一预测模型输出的第一预测答案为:满100减10元,符合第一预设条件,则将包含该第一预测答案的样本进行数据增强。具体进行数据增强的方法为:针对第一预测答案生成多种类似的问法,如:本店的优惠规则有哪些?、本店如何满减?、本店满100减多少元?等问题,将预测查询内容、待预测问题、第一预测答案与上述三个对应生成的问题作为第二预测模型进行训练的最终训练样本。
为了更清楚地介绍上述标记训练样本的方法,下面以第一预测模型为ALBERT模型,第二预测模型为BiDAF模型为例,结合图2,对本发明实施例中所涉及到的流程进行整体性说明。如图2所示,可以包括如下步骤:
步骤201、获取待预测问题及存储在数据库中的文本;
步骤202、对存储在数据库中的文本进行数据预处理得到预测查询内容;
步骤203、将包括待预测问题及预测查询内容的样本输入ALBERT模型;
步骤204、ALBERT模型在预测查询内容中查找待预测问题的第一预测答案,并输出第一预测答案;
步骤205、判断ALBERT模型输出的第一预测答案是否满足第一预设条件,若是,则进入步骤209;
步骤206、将包括待预测问题及预测查询内容的样本输入BiDAF模型;
步骤207、BiDAF模型在预测查询内容中查找待预测问题的第二预测答案,并输出第二预测答案;
步骤208、判断BiDAF模型输出的第二预测答案是否满足第二预设条件,若否,则进入步骤209;
步骤209、确定第一预测答案满足第一预设条件,且第二预测答案不满足第二预设条件,则进入步骤210;
步骤210、将第一预测答案作为样本的标签;
步骤211、将包含标签的样本进行针对性的数据增强,得到第二预测模型进行训练的最终训练样本;
本发明实施例还提供一种服务器300,服务器300可单独设定,也可集成在其他智能设备上,如电视机等。服务器300的执行步骤参考发明内容中的描述。服务器300的硬件配置框图如图3所示。
在一些实施例中,服务器300包括控制器320、输入/输出接口310、显示器330、和外部装置接口340中的至少一种。
在一些实施例中,显示器330,用于接收源自输入/输出接口输出的图像文字信号,进行显示视频内容、图像和文字以及菜单操控界面的组件。
在一些实施例中,输入/输出接口310被配置为,可进行控制器320与外部其他设备或其他控制器之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
在一些实施例中,外部装置接口340可以包括,但不限于如下:可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
在一些实施例中,控制器320,通过存储在存储器上中各种软件控制程序,来控制服务器的工作和响应用户的操作。控制器320可以控制服务器的整体操作。例如:响应于接收到用于选择在显示器330上显示UI对象的用户命令,控制器320便可以执行与由用户命令选择的对象有关的操作。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列标记训练样本的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的标记训练样本的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种标记训练样本的方法,其特征在于,
将样本输入第一预测模型,所述样本包括待预测问题及预测查询内容;所述第一预测模型用于在所述预测查询内容中查找所述待预测问题的预测答案;
确定所述第一预测模型输出的第一预测答案满足第一预设条件时,将所述第一预测答案作为所述样本的标签;
将包含标签的样本作为第二预测模型进行训练的训练样本;所述第二预测模型用于使用与所述第一预测模型不同的预测方式来进行答案预测。
2.如权利要求1所述的方法,其特征在于,将所述第一预测答案作为所述样本的标签之前,还包括:
将所述样本输入所述第二预测模型;
确定所述第二预测模型输出的第二预测答案不满足第二预设条件。
3.如权利要求2所述的方法,其特征在于,
确定所述第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定所述第一预测模型输出的所述第一预测答案的第一预测值满足第一预设概率值;
确定所述第二预测模型输出的第二预测答案不满足第二预设条件,包括:
确定所述第二预测模型输出的所述第二预测答案的第二预测值不满足第二预设概率值。
4.如权利要求3所述的方法,其特征在于,
所述第一预测值为所述第一预测答案的开始位置的第一概率值与所述第一预测答案的结束位置的第二概率值的乘积;或
所述第一预测值为所述第一概率值与所述第二概率值中的最大值。
5.如权利要求1-4任一项所述的方法,其特征在于,
确定所述第一预测模型输出的第一预测答案满足第一预设条件,包括:
确定所述第一预测模型输出的所述第一预测答案的第一预测值满足第一预设概率值,且所述第一预测答案符合所述待预测问题的答案规则。
6.如权利要求5所述的方法,其特征在于,
所述第一预测模型为双向注意力流BiDAF模型,所述第二预测模型为轻量化的基于转换器的双向编码器表征ALBERT模型;或
所述第一预测模型为ALBERT模型,所述第二预测模型为BiDAF模型。
7.如权利要求6所述的方法,其特征在于,
所述BiDAF模型的预设条件中的预设概率值大于所述ALBERT模型的预设条件中的预设概率值。
8.一种服务器,其特征在于,包括:
输入/输出接口,用于控制器与外部其他设备或其他控制器之间的数据传输;
所述控制器,用于执行权利要求1至7任一项所述的方法。
9.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求7至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011311602.0A CN112434142B (zh) | 2020-11-20 | 2020-11-20 | 一种标记训练样本的方法、服务器、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011311602.0A CN112434142B (zh) | 2020-11-20 | 2020-11-20 | 一种标记训练样本的方法、服务器、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434142A true CN112434142A (zh) | 2021-03-02 |
CN112434142B CN112434142B (zh) | 2023-04-07 |
Family
ID=74693244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011311602.0A Active CN112434142B (zh) | 2020-11-20 | 2020-11-20 | 一种标记训练样本的方法、服务器、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434142B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113792550A (zh) * | 2021-04-08 | 2021-12-14 | 北京金山数字娱乐科技有限公司 | 预测答案的确定方法及装置、阅读理解方法及装置 |
CN114297353A (zh) * | 2021-11-29 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
CN115481746A (zh) * | 2021-06-15 | 2022-12-16 | 华为技术有限公司 | 模型训练方法及相关系统、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160180244A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Avoiding supporting evidence processing when evidence scoring does not affect final ranking of a candidate answer |
CN110427466A (zh) * | 2019-06-12 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 用于问答匹配的神经网络模型的训练方法和装置 |
CN110516060A (zh) * | 2019-10-24 | 2019-11-29 | 支付宝(杭州)信息技术有限公司 | 用于确定问题答案的方法及问答装置 |
CN111310848A (zh) * | 2020-02-28 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
-
2020
- 2020-11-20 CN CN202011311602.0A patent/CN112434142B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160180244A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Avoiding supporting evidence processing when evidence scoring does not affect final ranking of a candidate answer |
CN110427466A (zh) * | 2019-06-12 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 用于问答匹配的神经网络模型的训练方法和装置 |
CN110516060A (zh) * | 2019-10-24 | 2019-11-29 | 支付宝(杭州)信息技术有限公司 | 用于确定问题答案的方法及问答装置 |
CN111310848A (zh) * | 2020-02-28 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113792550A (zh) * | 2021-04-08 | 2021-12-14 | 北京金山数字娱乐科技有限公司 | 预测答案的确定方法及装置、阅读理解方法及装置 |
CN115481746A (zh) * | 2021-06-15 | 2022-12-16 | 华为技术有限公司 | 模型训练方法及相关系统、存储介质 |
CN115481746B (zh) * | 2021-06-15 | 2023-09-01 | 华为技术有限公司 | 模型训练方法及相关系统、存储介质 |
CN114297353A (zh) * | 2021-11-29 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
CN114297353B (zh) * | 2021-11-29 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112434142B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717017B (zh) | 一种处理语料的方法 | |
CN112434142B (zh) | 一种标记训练样本的方法、服务器、计算设备及存储介质 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN112699216A (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN113836298A (zh) | 基于视觉增强的文本分类方法和系统 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN108846138A (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
CN116304745B (zh) | 基于深层次语义信息的文本话题匹配方法及系统 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN116578688A (zh) | 基于多轮问答的文本处理方法、装置、设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN111881264A (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 | |
CN111767720A (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN116362331A (zh) | 一种基于人机协同构建知识图谱的知识点填充方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115269961A (zh) | 内容搜索方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |