CN113486174A - 模型训练、阅读理解方法、装置、电子设备及存储介质 - Google Patents
模型训练、阅读理解方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113486174A CN113486174A CN202110661685.4A CN202110661685A CN113486174A CN 113486174 A CN113486174 A CN 113486174A CN 202110661685 A CN202110661685 A CN 202110661685A CN 113486174 A CN113486174 A CN 113486174A
- Authority
- CN
- China
- Prior art keywords
- sample
- document
- segment
- character
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例提供了一种模型训练、阅读理解方法、装置、电子设备及存储介质。模型训练方法包括:获取样本文档、样本问题和样本答案;基于样本答案对样本文档进行标注,得到样本文档中各字符出现在样本答案中的样本标注概率;将样本文档和样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。本公开实施例中,在模型训练过程中,引入远程监督的方式,自动构造标签,不需要人工标注样本答案在样本文档中出现的具体位置,从而使得大量的无标注数据集可以被利用,进而使分类模型达到更好的性能。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种模型训练、阅读理解方法、装置、电子设备及存储介质。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中获得了越来越多的关注。
随着人工智能和深度学习技术的快速发展,机器阅读理解的相关模型已经成为当前研究和应用的热点内容。现有技术中,利用大量的样本数据对机器阅读理解的相关模型进行训练,但是,需要对大规模的样本数据进行人工标注,即在文档中标注出答案的位置,这将耗费大量的人力物力,处理过程较为复杂。
发明内容
鉴于上述问题,本公开实施例提出了克服上述问题或者至少部分地解决上述问题的一种模型训练、阅读理解方法、装置、电子设备及存储介质。
根据本公开的实施例的第一方面,提供了一种模型训练方法,包括:
获取样本文档、样本问题和样本答案;
基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;
将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;
基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
可选地,基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率,包括:将所述样本文档中,出现在所述样本答案中的字符的样本标注概率标记为第一预设概率;将所述样本文档中,未出现在所述样本答案中的字符的样本标注概率标记为第二预设概率;其中,所述第一预设概率大于所述第二预设概率。
根据本公开的实施例的第二方面,提供了一种阅读理解方法,包括:
获取待识别文档和待识别问题;
将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率;其中,所述分类模型通过如上任一项所述的模型训练方法得到;
基于所述预测概率确定答案。
可选地,基于所述预测概率确定答案,包括:从所述待识别文档中抽取片段;基于所述片段中各字符对应的预测概率,计算所述片段的密度;选取密度最大的片段作为所述答案。
可选地,从所述待识别文档中抽取片段,包括:以字符为粒度,从所述待识别文档中抽取包含至少一个字符的片段;和/或,对所述待识别文档进行分词,以词为粒度,从所述待识别文档抽取包含至少一个词的片段;和/或,对所述待识别文档进行分句,以句子为粒度,从所述待识别文档抽取包含至少一个句子的片段。
可选地,选取密度最大的片段作为所述答案,包括:在以字符为粒度的情况下,选取密度最大的片段;获取所述密度最大的片段中第一个字符之前的至少一个字符,和/或,所述密度最大的片段中最后一个字符之后的至少一个字符,将所述密度最大的片段与获取的字符组成候选片段;计算所述候选片段完整的概率;选取概率最大的候选片段作为所述答案。
可选地,基于所述片段中各字符对应的预测概率,计算所述片段的密度,包括:在以字符为粒度的情况下,基于所述片段中各字符对应的预测概率和所述片段的字符跨度,计算所述片段的密度;在以词为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各词对应的预测概率,基于所述片段中各词对应的预测概率和所述片段的词跨度,计算所述片段的密度;在以句子为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各句子对应的预测概率,基于所述片段中各句子对应的预测概率和所述片段的句子跨度,计算所述片段的密度。
根据本公开的实施例的第三方面,提供了一种模型训练装置,包括:
第一获取模块,用于获取样本文档、样本问题和样本答案;
标注模块,用于基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;
训练模块,用于将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
可选地,所述标注模块包括:第一标注单元,用于将所述样本文档中,出现在所述样本答案中的字符的样本标注概率标记为第一预设概率;第二标注单元,用于将所述样本文档中,未出现在所述样本答案中的字符的样本标注概率标记为第二预设概率;其中,所述第一预设概率大于所述第二预设概率。
根据本公开的实施例的第四方面,提供了一种阅读理解装置,包括:
第二获取模块,用于获取待识别文档和待识别问题;
预测模块,用于将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率;其中,所述分类模型通过如上任一项所述的模型训练方法得到;
确定模块,用于基于所述预测概率确定答案。
可选地,所述确定模块包括:抽取单元,用于从所述待识别文档中抽取片段;计算单元,用于基于所述片段中各字符对应的预测概率,计算所述片段的密度;选取单元,用于选取密度最大的片段作为所述答案。
可选地,所述抽取单元,具体用于以字符为粒度,从所述待识别文档中抽取包含至少一个字符的片段;和/或,对所述待识别文档进行分词,以词为粒度,从所述待识别文档抽取包含至少一个词的片段;和/或,对所述待识别文档进行分句,以句子为粒度,从所述待识别文档抽取包含至少一个句子的片段。
可选地,所述选取单元,具体用于在以字符为粒度的情况下,选取密度最大的片段;获取所述密度最大的片段中第一个字符之前的至少一个字符,和/或,所述密度最大的片段中最后一个字符之后的至少一个字符,将所述密度最大的片段与获取的字符组成候选片段;计算所述候选片段完整的概率;选取概率最大的候选片段作为所述答案。
可选地,所述计算单元,具体用于在以字符为粒度的情况下,基于所述片段中各字符对应的预测概率和所述片段的字符跨度,计算所述片段的密度;在以词为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各词对应的预测概率,基于所述片段中各词对应的预测概率和所述片段的词跨度,计算所述片段的密度;在以句子为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各句子对应的预测概率,基于所述片段中各句子对应的预测概率和所述片段的句子跨度,计算所述片段的密度。
根据本公开的实施例的第五方面,提供了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质;当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一项所述的模型训练方法,或者,执行如上任一项所述的阅读理解方法。
根据本公开的实施例的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的模型训练方法,或者,实现如上任一项所述的阅读理解方法。
本公开实施例中,获取样本文档、样本问题和样本答案;基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。由此可知,本公开实施例中,在模型训练过程中,引入远程监督的方式,自动构造样本文档中各字符出现在样本答案中的样本标注概率,这种方式不需要人工标注样本答案在样本文档中出现的具体位置,从而使得大量的无标注数据集可以被利用,进而使分类模型达到更好的性能。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例的一种机器阅读理解的使用场景的示意图。
图2是现有技术的一种机器阅读理解模型框架的示意图。
图3是本公开实施例的一种模型训练方法的步骤流程图。
图4是本公开实施例的一种阅读理解方法的步骤流程图。
图5是本公开实施例的一种整体处理过程的示意图。
图6是本公开实施例的一种模型训练装置的结构框图。
图7是本公开实施例的一种阅读理解装置的结构框图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
在用户与客服进行电话沟通的场景下,面对海量的沟通电话,如果采用传统的IVR(Interactive Voice Response,互动式语音应答)按键路由方式或者人工坐席方式,会存在IVR路由准确率低、用户体验差、人力成本高昂等问题。AI(Artificial Intelligence,人工智能)语音机器人能够快速复制人工坐席的话术,有着低成本、高并发、高稳定性、以及高续航能力等特点,使用AI客服机器人替代人工坐席完成沟通任务,将能够节省运营成本,提高准确率。
机器阅读理解可以应用于语音交互技术中的语音客服机器人交互等场景。图1是本公开实施例的一种机器阅读理解的使用场景的示意图。如图1所示,客服机器人基于产品文档,通过阅读理解模型获取产品信息,用户与客服机器人通过自然语言进行交流。在上述场景中,机器阅读理解模型起着至关重要的作用。
图2是现有技术的一种机器阅读理解模型框架的示意图。如图2所示,机器阅读理解模型分别通过嵌入层和编码层对文档和问题进行分析,然后通过匹配层进行处理,从而得到对应的答案。但是,该种模型需要对大量的样本数据进行人工标注,即在文档中标注出答案的位置,利用大量的已标注样本数据进行训练,这将耗费大量的人力物力,处理过程较为复杂。
本公开实施例中,阅读理解模型可以分为两个部分:分类模型部分和推理部分。其中,分类模型部分用于预测文档中各字符出现在答案中的概率。推理部分用于基于文档中各字符出现在答案中的概率,挑选出合适的片段作为答案。在训练时,引入远程监督的方式,自动构造标签,基于自动创建的标签训练分类模型。这种方式不需要标注答案在文档中出现的位置,使得大量的无标注数据集可以被利用,进而使模型达到更好的性能。在预测时,向训练好的分类模型输入文档和问题,使用分类模型输出各字符在答案中出现的概率,再使用基于密度的策略挑选出合适的片段作为答案。这种方式推理出的答案准确度更高。
下面,分别对以上两部分进行介绍。
参照图3,示出了本公开实施例的一种模型训练方法的步骤流程图。
如图3所示,模型训练方法可以包括以下步骤:
步骤301,获取样本文档、样本问题和样本答案。
获取大量历史电话沟通数据,从历史电话沟通数据中收集形如<文档,问题,答案>的三元组数据作为样本数据,也即获取样本文档、样本问题和样本答案。一组样本文档、样本问题和样本答案作为一个样本。
其中,历史电话沟通数据可以包括但不限于以下至少一种:内呼电话沟通数据、外呼电话沟通数据,等等。
步骤302,基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率。
使用远程监督的方式,基于样本答案自动对样本文档进行标注。
可选地,基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率的过程,可以包括:遍历样本文档中出现的字符,将所述样本文档中,出现在所述样本答案中的字符的样本标注概率标记为第一预设概率;将所述样本文档中,未出现在所述样本答案中的字符的样本标注概率标记为第二预设概率。
字符出现在样本答案中的样本标注概率,用于指示该字符出现在样本答案中的可能性。因此,所述第一预设概率大于所述第二预设概率。对于第一预设概率和第二预设概率的具体数值本公开实施例不作限制。可选地,如果样本文档中的某个字符出现在样本答案中,则可以将该字符的样本标注概率标记为1;如果样本文档中的某个字符未出现在样本答案中,则可以将该字符的样本标注概率标记为0。
步骤303,将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率。
初始模型是指还未进行训练的分类模型。可选地,初始模型可以包括但不限于:BERT(BidirectionalEncoder Representations from Transformer)模型,ALBERT模型,Roberta模型,等等。本公开的实施例中,将以初始模型为BERT模型为例进行介绍。
在得到样本数据,并基于样本答案对样本文档进行自动标注后,利用样本数据对初始模型进行训练。在训练过程中,初始模型的输入为所述样本文档和所述样本问题,输出为所述样本文档中各字符出现在所述样本答案中的样本预测概率。
在实现中,对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本分类。对于语句对分类任务,BERT模型除了添加[CLS]符号并将对应的输出作为文本的语义表示,还对输入的两句话用[SEP]符号作分割,并分别对两句话附加两个不同的文本向量以作区分。因此,基于样本文档和样本问题,将输入构造为<[CLS],样本文档,[SEP],样本问题,[SEP]>的格式。样本文档对应BERT模型中的Segment A,样本问题对应BERT中的Segment B。
针对输入的各字符(token)生成特征向量。每个token的特征向量为token嵌入(字/词嵌入)、segment嵌入(分割嵌入)、position嵌入(位置嵌入)的加和。其中,token嵌入表示token对应的词向量。segment嵌入用于区分两个句子,例如B是否是A的下文(对话场景,问答场景等)。position嵌入是指将token的位置信息编码成特征向量。
在BERT模型中对token的特征向量进行分析,并对分析结果进行分类,得到样本文档中各字符出现在样本答案中的样本预测概率。字符出现在样本答案中的样本预测概率,用于指示该字符出现在样本答案中的可能性。样本预测概率越大,该字符出现在样本答案中的可能性越大。
步骤304,基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
可选地,损失函数(Loss Function)是用来估量模型的预测值与真实值的不一致程度。若损失函数很小,表明机器学习模型与数据真实分布很接近,则模型性能良好;若损失函数很大,表明机器学习模型与数据真实分布差别较大,则模型性能不佳。训练模型的主要任务就是使用优化方法来寻找损失函数最小化对应的模型参数。
因此,基于所述样本标注概率和所述样本预测概率可以计算模型的损失函数,在损失函数达到优化目标(比如损失函数小于一定阈值)时,可以确定训练完成,将训练完成的模型作为分类模型。
其中,损失函数可以包括但不限于以下至少一种:交叉熵损失函数(CrossEntropy Loss)、指数损失函数(Exponential Loss)、合页损失函数(Hinge Loss),等等。
本公开实施例中,在模型训练过程中,引入远程监督的方式,自动构造样本文档中各字符出现在样本答案中的样本标注概率,这种方式不需要人工标注样本答案在样本文档中出现的具体位置,从而使得大量的无标注数据集可以被利用,进而使分类模型达到更好的性能。
参照图4,示出了本公开实施例的一种阅读理解方法的步骤流程图。
如图4所示,阅读理解方法可以包括以下步骤:
步骤401,获取待识别文档和待识别问题。
步骤402,将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率。
其中,分类模型通过如上实施例所述的模型训练方法得到。
将待识别文档和待识别问题输入上述训练得到的分类模型,在分类模型中对待识别文档和待识别问题执行相关处理,得到并输出待识别文档中各字符出现在答案中的预测概率。对于模型的具体处理过程参照上述步骤303的相关描述即可,本公开实施例在此不再详细论述。
步骤403,基于所述预测概率确定答案。
在得到待识别文档中各字符出现在答案中的预测概率后,基于该预测概率,从待识别文档中挑选待识别问题对应的答案。
可选地,基于所述预测概率确定答案的过程,可以包括以下步骤A1~A3:
A1,从所述待识别文档中抽取片段。
可选地,本公开实施例中,按照预设粒度,从待识别文档中抽取片段。其中,预设粒度可以包括字符粒度,和/或,词粒度,和/或,句子粒度。
因此,从所述待识别文档中抽取片段的过程,可以包括:以字符为粒度,从所述待识别文档中抽取包含至少一个字符的片段;和/或,对所述待识别文档进行分词,以词为粒度,从所述待识别文档抽取包含至少一个词的片段;和/或,对所述待识别文档进行分句,以句子为粒度,从所述待识别文档抽取包含至少一个句子的片段。
可选地,可以利用分词模型对所述待识别文档进行分词。其中,分词模型可以包括但不限于:HMM(Hidden Markov Model,隐马尔可夫)模型、CRF(Conditional RandomField,条件随机场)模型、Jieba模型,等等。对于分词的具体过程,本公开实施例在此不再详细论述。
可选地,可以通过识别待识别文档中的标点符号,对所述待识别文档进行分句,或者,可以利用分句模型对所述待识别文档进行分句。对于分句的具体过程,本公开实施例在此不再详细论述。
A2,基于所述片段中各字符对应的预测概率,计算所述片段的密度。
其中,l表示片段的跨度,α表示预设参数。对于α的具体数值,本公开实施例不做限制。比如,α的取值可以为0.4、0.5,等等。
在以字符为粒度的情况下,基于所述片段中各字符对应的预测概率和所述片段的字符跨度,按照上述公式计算所述片段的密度。其中,片段的字符跨度的取值根据该片段包含的字符总个数而定。比如,片段中包含2个字符,则片段的字符跨度为1;片段中包含3个字符,则片段的字符跨度为2;片段中包含4个字符,则片段的字符跨度为3,以此类推。在实现中,片段的字符跨度的取值可能为小于该片段包含的字符总个数的任意数值。
在以词为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各词对应的预测概率,基于所述片段中各词对应的预测概率和所述片段的词跨度,按照上述公式计算所述片段的密度。其中,片段中任意一个词出现在答案中的预测概率,可以为该词中包含的字符的平均预测概率。片段的词跨度的取值根据该片段包含的词总个数而定。比如,片段中包含2个词,则片段的词跨度为1;片段中包含3个词,则片段的词跨度为2;片段中包含4个词,则片段的词跨度为3,以此类推。在实现中,片段的词跨度的取值可能为小于该片段包含的词总个数的任意数值。
在以句子为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各句子对应的预测概率,基于所述片段中各句子对应的预测概率和所述片段的句子跨度,按照上述公式计算所述片段的密度。其中,片段中任意一个句子出现在答案中的预测概率,可以为该句子中包含的字符的平均预测概率。片段的句子跨度的取值根据该片段包含的句子总个数而定。比如,片段中包含2个句子,则片段的句子跨度为1;片段中包含3个句子,则片段的句子跨度为2;片段中包含4个句子,则片段的句子跨度为3,以此类推。在实现中,片段的句子跨度的取值可能为小于该片段包含的句子总个数的任意数值。
A3,选取密度最大的片段作为所述答案。
在以词为粒度或者以句子为粒度的情况下,片段基本上是完整的,因此无需进行修正。而在以字符为粒度的情况下,片段可能是不完整的。因此,为了避免得到的片段(字符粒度)是不完整的,可以在选取出密度最大的片段之后,对该密度最大的片段进行修正,从而得到更加准确的答案。
因此,在以字符为粒度的情况下,选取密度最大的片段;获取所述密度最大的片段中第一个字符之前的至少一个字符,和/或,所述密度最大的片段中最后一个字符之后的至少一个字符,将所述密度最大的片段与获取的字符组成候选片段;计算所述候选片段完整的概率;选取概率最大的候选片段作为所述答案。
比如,对开始位置(也即密度最大的片段中第一个字符)取前两个字符,以及对结束位置(也即密度最大的片段中最后一个字符)取后两个字符作为容错,共得到25个候选片段。
可选地,在计算候选片段完整的概率的过程中,可以使用语言模型计算候选片段构成完整句子或短语的概率。其中,语言模型可以包括但不限于:GPT(Generative Pre-Training)模型、NNLM(Nerual Network Language Model,神经网络语言模型),等等。对于计算候选片段完整的概率的具体过程,本公开实施例在此不再详细论述。
本公开实施例中,在预测时,向训练好的分类模型输入文档和问题,使用分类模型输出文档中各字符在答案中出现的概率,再使用基于密度的策略挑选出合适的片段作为答案,这种方式推理出的答案准确度更高。
以下举例说明。
比如,文档、问题和答案如下表所示:
图5是本公开实施例的一种整体处理过程的示意图。如图5所示,在训练时,引入远程监督的方式,基于答案对标注文档,自动创建标签,基于文档、问题和自动创建的标签训练分类模型。在预测时,向训练好的分类模型输入文档和问题,使用分类模型输出各字符在答案中出现的概率,再使用基于密度的策略挑选出合适的片段作为答案。
参照图6,示出了本公开实施例的一种模型训练装置的结构框图。
如图6所示,模型训练装置可以包括以下模块:
第一获取模块601,用于获取样本文档、样本问题和样本答案;
标注模块602,用于基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;
训练模块603,用于将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
可选地,所述标注模块602包括:第一标注单元,用于将所述样本文档中,出现在所述样本答案中的字符的样本标注概率标记为第一预设概率;第二标注单元,用于将所述样本文档中,未出现在所述样本答案中的字符的样本标注概率标记为第二预设概率;其中,所述第一预设概率大于所述第二预设概率。
参照图7,示出了本公开实施例的一种阅读理解装置的结构框图。
如图7所示,阅读理解装置可以包括以下模块:
第二获取模块701,用于获取待识别文档和待识别问题;
预测模块702,用于将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率;其中,所述分类模型通过如上任一项所述的模型训练方法得到;
确定模块703,用于基于所述预测概率确定答案。
可选地,所述确定模块703包括:抽取单元,用于从所述待识别文档中抽取片段;计算单元,用于基于所述片段中各字符对应的预测概率,计算所述片段的密度;选取单元,用于选取密度最大的片段作为所述答案。
可选地,所述抽取单元,具体用于以字符为粒度,从所述待识别文档中抽取包含至少一个字符的片段;和/或,对所述待识别文档进行分词,以词为粒度,从所述待识别文档抽取包含至少一个词的片段;和/或,对所述待识别文档进行分句,以句子为粒度,从所述待识别文档抽取包含至少一个句子的片段。
可选地,所述选取单元,具体用于在以字符为粒度的情况下,选取密度最大的片段;获取所述密度最大的片段中第一个字符之前的至少一个字符,和/或,所述密度最大的片段中最后一个字符之后的至少一个字符,将所述密度最大的片段与获取的字符组成候选片段;计算所述候选片段完整的概率;选取概率最大的候选片段作为所述答案。
可选地,所述计算单元,具体用于在以字符为粒度的情况下,基于所述片段中各字符对应的预测概率和所述片段的字符跨度,计算所述片段的密度;在以词为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各词对应的预测概率,基于所述片段中各词对应的预测概率和所述片段的词跨度,计算所述片段的密度;在以句子为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各句子对应的预测概率,基于所述片段中各句子对应的预测概率和所述片段的句子跨度,计算所述片段的密度。
本公开实施例中,在模型训练过程中,引入远程监督的方式,自动构造样本文档中各字符出现在样本答案中的样本标注概率,这种方式不需要人工标注样本答案在样本文档中出现的具体位置,从而使得大量的无标注数据集可以被利用,进而使分类模型达到更好的性能。在预测时,基于密度策略挑选答案,以使答案更加准确。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本公开的实施例中,还提供了一种电子设备。该电子设备可以包括一个或多个处理器,以及其上存储有指令的一个或多个机器可读介质,指令例如应用程序。当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一实施例的模型训练,或者,执行如上任一实施例的阅读理解方法。
在本公开的实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序可由电子设备的处理器执行,以完成如上任一实施例的模型训练,或者,完成如上任一实施例的阅读理解方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种模型训练方法,其特征在于,包括:
获取样本文档、样本问题和样本答案;
基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;
将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;
基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
2.根据权利要求1所述的方法,其特征在于,基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率,包括:
将所述样本文档中,出现在所述样本答案中的字符的样本标注概率标记为第一预设概率;
将所述样本文档中,未出现在所述样本答案中的字符的样本标注概率标记为第二预设概率;
其中,所述第一预设概率大于所述第二预设概率。
3.一种阅读理解方法,其特征在于,包括:
获取待识别文档和待识别问题;
将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率;其中,所述分类模型通过权利要求1-2中任一项所述的模型训练方法得到;
基于所述预测概率确定答案。
4.根据权利要求3所述的方法,其特征在于,基于所述预测概率确定答案,包括:
从所述待识别文档中抽取片段;
基于所述片段中各字符对应的预测概率,计算所述片段的密度;
选取密度最大的片段作为所述答案。
5.根据权利要求4所述的方法,其特征在于,从所述待识别文档中抽取片段,包括:
以字符为粒度,从所述待识别文档中抽取包含至少一个字符的片段;
和/或,
对所述待识别文档进行分词,以词为粒度,从所述待识别文档抽取包含至少一个词的片段;
和/或,
对所述待识别文档进行分句,以句子为粒度,从所述待识别文档抽取包含至少一个句子的片段。
6.根据权利要求5所述的方法,其特征在于,选取密度最大的片段作为所述答案,包括:
在以字符为粒度的情况下,选取密度最大的片段;
获取所述密度最大的片段中第一个字符之前的至少一个字符,和/或,所述密度最大的片段中最后一个字符之后的至少一个字符,将所述密度最大的片段与获取的字符组成候选片段;
计算所述候选片段完整的概率;
选取概率最大的候选片段作为所述答案。
7.根据权利要求5所述的方法,其特征在于,基于所述片段中各字符对应的预测概率,计算所述片段的密度,包括:
在以字符为粒度的情况下,基于所述片段中各字符对应的预测概率和所述片段的字符跨度,计算所述片段的密度;
在以词为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各词对应的预测概率,基于所述片段中各词对应的预测概率和所述片段的词跨度,计算所述片段的密度;
在以句子为粒度的情况下,基于所述片段中各字符对应的预测概率计算所述片段中各句子对应的预测概率,基于所述片段中各句子对应的预测概率和所述片段的句子跨度,计算所述片段的密度。
8.一种模型训练装置,其特征在于,包括:
第一获取模块,用于获取样本文档、样本问题和样本答案;
标注模块,用于基于所述样本答案对所述样本文档进行标注,得到所述样本文档中各字符出现在所述样本答案中的样本标注概率;
训练模块,用于将所述样本文档和所述样本问题作为初始模型的输入,得到所述初始模型输出的所述样本文档中各字符出现在所述样本答案中的样本预测概率;基于所述样本标注概率和所述样本预测概率确定训练完成后,将训练完成的模型作为分类模型。
9.一种阅读理解装置,其特征在于,包括:
第二获取模块,用于获取待识别文档和待识别问题;
预测模块,用于将所述待识别文档和所述待识别问题输入预先训练的分类模型,得到所述分类模型输出的所述待识别文档中各字符出现在答案中的预测概率;其中,所述分类模型通过权利要求1-2中任一项所述的模型训练方法得到;
确定模块,用于基于所述预测概率确定答案。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质;
当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如权利要求1至2任一项所述的模型训练方法,或者,执行如权利要求3至7任一项所述的阅读理解方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至2任一项所述的模型训练方法,或者,实现如权利要求3至7任一项所述的阅读理解方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661685.4A CN113486174B (zh) | 2021-06-15 | 2021-06-15 | 模型训练、阅读理解方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110661685.4A CN113486174B (zh) | 2021-06-15 | 2021-06-15 | 模型训练、阅读理解方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486174A true CN113486174A (zh) | 2021-10-08 |
CN113486174B CN113486174B (zh) | 2022-11-29 |
Family
ID=77934824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110661685.4A Active CN113486174B (zh) | 2021-06-15 | 2021-06-15 | 模型训练、阅读理解方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486174B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579796A (zh) * | 2022-05-06 | 2022-06-03 | 北京沃丰时代数据科技有限公司 | 机器阅读理解方法及装置 |
CN116543389A (zh) * | 2023-03-13 | 2023-08-04 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235689A1 (en) * | 2005-04-13 | 2006-10-19 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN110674271A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种问答处理方法及装置 |
CN111125329A (zh) * | 2019-12-18 | 2020-05-08 | 东软集团股份有限公司 | 一种文本信息筛选方法、装置及设备 |
CN111782804A (zh) * | 2020-06-09 | 2020-10-16 | 中科院成都信息技术股份有限公司 | 基于TextCNN同分布文本数据选择方法、系统及存储介质 |
CN111930887A (zh) * | 2020-07-06 | 2020-11-13 | 河海大学常州校区 | 基于联合训练方式的多文档多答案机器阅读理解系统 |
CN111949798A (zh) * | 2019-05-15 | 2020-11-17 | 北京百度网讯科技有限公司 | 图谱的构建方法、装置、计算机设备和存储介质 |
CN112632253A (zh) * | 2020-12-28 | 2021-04-09 | 润联软件系统(深圳)有限公司 | 基于图卷积网络的答案抽取方法、装置及相关组件 |
-
2021
- 2021-06-15 CN CN202110661685.4A patent/CN113486174B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235689A1 (en) * | 2005-04-13 | 2006-10-19 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
CN111949798A (zh) * | 2019-05-15 | 2020-11-17 | 北京百度网讯科技有限公司 | 图谱的构建方法、装置、计算机设备和存储介质 |
CN110674271A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种问答处理方法及装置 |
CN111125329A (zh) * | 2019-12-18 | 2020-05-08 | 东软集团股份有限公司 | 一种文本信息筛选方法、装置及设备 |
CN111782804A (zh) * | 2020-06-09 | 2020-10-16 | 中科院成都信息技术股份有限公司 | 基于TextCNN同分布文本数据选择方法、系统及存储介质 |
CN111930887A (zh) * | 2020-07-06 | 2020-11-13 | 河海大学常州校区 | 基于联合训练方式的多文档多答案机器阅读理解系统 |
CN112632253A (zh) * | 2020-12-28 | 2021-04-09 | 润联软件系统(深圳)有限公司 | 基于图卷积网络的答案抽取方法、装置及相关组件 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579796A (zh) * | 2022-05-06 | 2022-06-03 | 北京沃丰时代数据科技有限公司 | 机器阅读理解方法及装置 |
CN114579796B (zh) * | 2022-05-06 | 2022-07-12 | 北京沃丰时代数据科技有限公司 | 机器阅读理解方法及装置 |
CN116543389A (zh) * | 2023-03-13 | 2023-08-04 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
CN116543389B (zh) * | 2023-03-13 | 2023-09-19 | 中国人民解放军海军工程大学 | 基于关系网络的字符识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113486174B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN115617959A (zh) | 问题解答方法及装置 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
Ivezić et al. | Trends and Challenges of Text-to-Image Generation: Sustainability Perspective | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN114372139A (zh) | 数据处理方法、摘要展示方法、装置、设备及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN115080702A (zh) | 对话模型训练方法、生成方法、训练装置、设备及介质 | |
CN116955534A (zh) | 投诉工单智能处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |