CN110096698B - 一种考虑主题的机器阅读理解模型生成方法与系统 - Google Patents
一种考虑主题的机器阅读理解模型生成方法与系统 Download PDFInfo
- Publication number
- CN110096698B CN110096698B CN201910211906.0A CN201910211906A CN110096698B CN 110096698 B CN110096698 B CN 110096698B CN 201910211906 A CN201910211906 A CN 201910211906A CN 110096698 B CN110096698 B CN 110096698B
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- text
- vectors
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004140 cleaning Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种考虑主题的机器阅读理解模型生成方法与系统,本发明提取出了训练样本数据中潜在的主题信息,利用这种主题信息对阅读理解模型的训练做监督,从而提高阅读理解模型的效果。本发明公开的模型考虑在模型训练之前提取出与训练样本对应的多个主题,并利用样本的主题信息来提高机器阅读理解工作的效果。本方法的基本流程为:对每个训练样本做处理,找出能代表这个样本的向量表示;对样本做聚类并求出同类样本向量的均值作为主题的向量表示;在匹配和输出时利用注意力机制给向量表示与本样本主题向量相似度更高的词更大的权重。此外,训练数据经过较好的数据清洗后能得到更好的效果,因为降低噪声后我们能得到更好的主题向量表示。
Description
技术领域
本发明涉及自然语言处理领域中的机器阅读理解领域,更具体地说,涉及一种考虑主题的机器阅读理解模型生成方法与系统。
背景技术
阅读理解是建立在阅读基础上的理解,可以被抽象地概括为通过阅读从文本中抽取信息并理解意义的过程。表现在我们的传统的语言学科中是非常常规的一种测试内容,一般形式就是给你一篇文章,然后针对这些文章提出一些问题,学生回答这些问题来证明自己理解了文章所要传达的主旨内容,回答的答案越接近于标准答案,就证明其对文章理解的越透彻。
机器阅读理解(Machine Reading Comprehension),顾名思义,就是让机器代替人类完成这个任务,让机器阅读大量的文章后对相关的问题做出回答。很明显教会机器学会阅读理解和问答(Question answering)是自然语言处理(NLP)中的核心任务之一。
机器阅读理解技术在生活的各方各面都能发挥其能力,而作用的大小与其效果的优劣密切相关。如果机器能真正做到理解输入的自然语言的含义,那么MRC-QA未来将成为人们生活中必不可少的一部分。
然而目前机器阅读理解(也称之为)并没有做到真正理解文章的语义,只是靠大量的段落文本和问题文本对作为输入来固定神经网络参数和attention参数,在测试时得到能够更准确的表示段落词与上下文信息的向量,最终通过概率计算输出最大概率的首尾单词,把这两个词之间的段落作为答案。在这个过程中,机器实际上并没有理解段落中词和句子的含义,只是通过训练知道哪个词更可能是答案的句首词和句尾词,哪些词与问题更加相关。所以我们应当构建可以对复杂推理(比如以语义结构为切入点)进行有效建模,以及能把常识和外部知识(比如知识库)有效利用起来的深度学习网络。
发明内容
本发明要解决的技术问题在于,针对现有技术中在进行机器阅读理解时,机器实际上并没有理解段落中词和句子的含义,只是通过训练知道哪个词更可能是答案的句首词和句尾词,哪些词与问题更加相关的技术缺陷,提供了一种考虑主题的机器阅读理解模型生成方法与系统。
本发明解决其技术问题所采用的技术方案是:构造一种考虑主题的机器阅读理解模型生成方法,包含如下步骤:
S1、获取训练所需的阅读理解数据集,所述阅读理解数据集包含多篇阅读理解,每篇阅读理解作为一个样本由正文、问题及答案三部分组成;
S2、对每篇阅读理解样本分别进行预处理,对单篇阅读理解的训练样本进行预处理的方法为下述任意一种:
(1)对样本中的正文进行选择,选取与样本中问题部分更相关的段落;从选取的段落中选取与问题更相关的核心句;
(2)采用语义解析法对问题与正文做预处理,得到语义解析后的词作为核心词;
S3、对预处理选出的核心词或核心句进行向量表示,同时对于每一样本:将核心句的向量表示与问题的向量表示进行加权平均或者是将正文的核心词的向量表示与问题的核心词的向量表示进行加权平均,得到一个能代表这个样本主题的向量表示;其中,在加权平均时,问题的向量表示相对于核心句的向量表示拥有更大的权重,问题的核心词的向量表示相对于正文的核心词的向量表示拥有更大的权重;
S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类,类别的数量由对数据集的了解来决定,聚类后将同类向量求平均,得到的向量称为主题向量,多个聚类中心代表多类主题;
S5、利用所述阅读理解数据集进行常规的机器阅读理解训练,但在推理层和输出层给予与聚类后的主题向量相似度更高的词更高的权重,从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,步骤S1中,训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集,语种为中文或英文;正文、问题及答案指的是在一个机器阅读理解任务中,机器首先需要阅读正文文章,在此基础上阅读问题并对问题做回答,答案为训练数据给出的标准答案;正文为单段落或者为多段落,答案的抽取模式为以首尾词定位段落中的一个区域,将这个区域中的句子作为答案。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,步骤S2中第(1)种方案,若一篇阅读理解的正文为多段落,则通过设定的最大段落数K,按顺序保留正文的前K段作为有效文本,其他的丢弃;然后计算有效文本中的各个段落与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落,对于选出的各个段落以及对于一篇阅读理解的正文为单段落时,计算一个段落中各个语句与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,步骤S3中进行加权平均的实现方式具体为:
对于核心词的方式:将核心词的词向量直接进行加权平均;
对于核心句的方式:使用双向循环神经网络将问题句子与正文核心句进行编码,将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的向量表示。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,步骤S4还包括降维处理,具体为:将得到的所有的阅读理解的主题的向量表示进行聚类,由于拼接后的维度可能较高,所以对聚类结果进行降维,以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,步骤S5中常规的机器阅读理解训练所采用的训练系统包括:
嵌入层:采用的是在外部数据上预训练的词向量,或者是基于循环神经网络或者卷积神经网络的从字符到单词的词向量,得到问题和正文段落里面每个单词的上下文无关的表示,将得到的词向量作为训练的输入;
编码层:采用多层的双向循环神经网络得到问题和正文段落的每个词的上下文表示;
预处理层:将嵌入层得到的词向量用于核心词的向量运算;将编码层得到的上下文表示中的首位和尾部的向量表示拼接后作为核心句的向量表示;
主题生成层:若是使用核心词向量,将所有的核心词向量加权平均后作为当前样本的向量表示,接着将所有样本的向量表示聚类,同类向量求得的平均值作为主题向量;若是使用核心句向量,将问题句子与正文核心句进行编码,将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的向量表示将所有核心句的向量表示,然后聚类并且降维,同类向量求得的平均值作为主题向量;
匹配层:得到问题里面的词和正文段落词之间的对应关系,具体是采用注意力的机制实现,得到正文里面每个词的和问题相关的表示;并且,在本层加入了主题向量和段落词之间的对应关系,同样采用注意力机制实现,得到每个词和主题相关的表示,接下来采取以下方法利用这些信息:
(1)将问题向量与主题向量拼接后一同与词向量做注意力机制的加权运算;
(2)分别将问题和主题向量与词向量做注意力机制的加权运算,再求平均;
自匹配层:在得到与问题及主题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示;
输出层:对正文段落里面的每个词预测其是答案开始以及答案结束的概率,从而计算文章段落中答案概率最大的子串输出为答案;
其中,在匹配层中将主题向量考虑进去,具体的方法为:对问题和主题与段落一同做两次attention加权表示,将主题向量与问题向量拼接在一起一同与段落做attention加权表示。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,嵌入层中,将得到的词向量作为训练的输入具体为:将得到的词向量和得到一些特征一起作为训练的输入。
进一步地,在本发明的考虑主题的机器阅读理解模型生成方法中,采用上述任一项所述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。
以往的机器阅读理解的模型训练并没有考虑样本本身的属性特征,仅仅将问题和段落的关系作为抽取答案的标准,这样的做法明显忽略了可以从训练中得到的很多信息。本发明首先通过向量的计算和聚类等方法定出训练样本主题的向量表示,然后将训练样本本身的主题信息融入到模型的训练中,用attention的方法突出和主题更切合的词,来达到提高阅读理解效果的目的。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是考虑主题的机器阅读理解模型生成方法一实施例的原理图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,其为本发明的考虑主题的机器阅读理解模型生成方法一实施例的原理图。本实施例的考虑主题的机器阅读理解模型生成方法包含如下步骤:
S1、获取训练所需的阅读理解数据集,所述阅读理解数据集包含多篇阅读理解,每篇阅读理解作为一个样本由正文、问题及答案三部分组成;训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集,语种为中文或英文;正文、问题及答案指的是在一个机器阅读理解任务中,机器首先需要阅读正文文章,在此基础上阅读问题并对问题做回答,答案为训练数据给出的标准答案;正文为单段落或者为多段落,答案的抽取模式为以首尾词定位段落中的一个区域,将这个区域中的句子作为答案。
S2、对每篇阅读理解样本分别进行预处理,对单篇阅读理解的训练样本进行预处理的方法为下述任意一种。
(1)对样本中的正文进行选择,选取与样本中问题部分更相关的段落;从选取的段落中选取与问题更相关的核心句;
若一篇阅读理解的正文为多段落,则通过设定的最大段落数K,按顺序保留正文的前K段作为有效文本,其他的丢弃;然后计算有效文本中的各个段落与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落,对于选出的各个段落以及对于一篇阅读理解的正文为单段落时,计算一个段落中各个语句与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。
(2)采用语义解析法对问题与正文做预处理,得到语义解析后的词作为核心词。
S3、对预处理选出的核心词或核心句进行向量表示,同时对于每一样本:将核心句的向量表示与问题的向量表示进行加权平均或者是将正文的核心词的向量表示与问题的核心词的向量表示进行加权平均,得到一个能代表这个样本主题的向量表示;其中,在加权平均时,问题的向量表示相对于核心句的向量表示拥有更大的权重,问题的核心词的向量表示相对于正文的核心词的向量表示拥有更大的权重,这是因为问题的核心句和核心词最能体现一个阅读理解样本的主题。具体的,进行加权平均的实现方式具体为:
对于核心词的方式:将核心词的词向量直接进行加权平均;
对于核心句的方式:使用双向循环神经网络(bi-LSTM)将问题句子与正文核心句进行编码(encoder),将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的向量表示。
S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类,类别的数量由对数据集的了解来决定,聚类后将同类向量求平均,得到的向量称为主题向量,多个聚类中心代表多类主题。
在本发明的另一实施例中,步骤S4还包括降维处理,具体为:将得到的所有的阅读理解的主题的向量表示进行聚类,由于拼接后的维度可能较高,所以对聚类结果进行降维,以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。
S5、利用所述阅读理解数据集进行常规的机器阅读理解训练,但在推理层和输出层给予与聚类后的主题向量相似度更高的词(token)更高的权重,从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解。每个主题对应一个机器阅读理解模型,所有主题对应的阅读理解模型可以一起组成一个总模型,当利用总模型进行机器阅读理解时,用主题向量做主题匹配选择合适的model做阅读理解,合适的是指选择一个与其最相近主题。
步骤S5中常规的机器阅读理解训练所采用的训练系统包括:
嵌入层:采用的是在外部数据上预训练的词向量,或者是基于循环神经网络或者卷积神经网络的从字符到单词的词向量,得到问题和正文段落里面每个单词的上下文无关的表示,将得到的词向量作为训练的输入;
编码层:采用多层的双向循环神经网络得到问题和正文段落的每个词的上下文表示;
预处理层:将嵌入层得到的词向量用于核心词的向量运算;将编码层得到的上下文表示中的首位和尾部的向量表示拼接后作为核心句的向量表示;
主题生成层:若是使用核心词向量,将所有的核心词向量加权平均后作为当前样本的向量表示,接着将所有样本的向量表示聚类,同类向量求得的平均值作为主题向量;若是使用核心句向量,将问题句子与正文核心句进行编码,将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的向量表示将所有核心句的向量表示,然后聚类并且降维,同类向量求得的平均值作为主题向量;
匹配层:得到问题里面的词和正文段落词之间的对应关系,具体是采用注意力的机制实现,得到正文里面每个词的和问题相关的表示;并且,在本层加入了主题向量和段落词之间的对应关系,同样采用注意力机制实现,得到每个词和主题相关的表示,接下来采取以下方法利用这些信息:
(1)将问题向量与主题向量拼接后一同与词向量做注意力机制的加权运算;
(2)分别将问题和主题向量与词向量做注意力机制的加权运算,再求平均;
自匹配层:在得到与问题及主题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示;
输出层:对正文段落里面的每个词预测其是答案开始以及答案结束的概率,从而计算文章段落中答案概率最大的子串输出为答案;
其中,在匹配层中将主题向量考虑进去,具体的方法为:对问题和主题与段落一同做两次attention加权表示,将主题向量与问题向量拼接在一起一同与段落做attention加权表示。
在本发明中可以在匹配层中将主体向量考虑进去,具体的方法有,嵌入层中,将得到的词向量作为训练的输入具体为:将得到的词向量和得到一些特征一起作为训练的输入。
本发明还提供了一种与上述方法对应的系统,系统采用上述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。
本发明提取出了训练样本数据中潜在的主题信息,利用这种主题信息对阅读理解模型的训练做监督,从而提高阅读理解模型的效果。也就是说,当我们拿到训练数据时,训练数据时混乱的,其中可能有地质学领域的样本,或者计算机领域的样本等等,样本的领域信息我们也可以将其称为主题信息,传统的机器阅读理解模型忽视了这种主题信息,把他们一视同仁的投入模型的训练,而本发明公开的模型考虑在模型训练之前提取出与训练样本对应的多个主题,并利用样本的主题信息来提高机器阅读理解工作的效果。本方法的基本流程为:对每个训练样本做处理,找出能代表这个样本的向量表示;对样本做聚类并求出同类样本向量的均值作为topic的向量表示;在匹配和输出时利用注意力机制(attention)给向量表示与本样本主题向量相似度更高的词(token)更大的权重。此外,训练数据经过较好的数据清洗后能得到更好的效果,因为降低噪声后我们能得到更好的topic向量表示。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种考虑主题的机器阅读理解模型生成方法,其特征在于,包含如下步骤:
S1、获取训练所需的阅读理解数据集,所述阅读理解数据集包含多篇阅读理解,每篇阅读理解作为一个样本由正文、问题及答案三部分组成;
S2、对每篇阅读理解样本分别进行预处理,对单篇阅读理解的训练样本进行预处理的方法为下述任意一种:
(1)对样本中的正文进行选择,选取与样本中问题部分更相关的段落;从选取的段落中选取与问题更相关的核心句;
(2)采用语义解析法对问题与正文做预处理,得到语义解析后的词作为核心词;
S3、对预处理选出的核心词或核心句进行向量表示,同时对于每一样本:将核心句的向量表示与问题的向量表示进行加权平均或者是将正文的核心词的向量表示与问题的核心词的向量表示进行加权平均,得到一个能代表这个样本主题的向量表示;其中,在加权平均时,问题的向量表示相对于核心句的向量表示拥有更大的权重,问题的核心词的向量表示相对于正文的核心词的向量表示拥有更大的权重;
S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类,聚类后将同类向量求平均,得到的向量称为主题向量,多个聚类中心代表多类主题;
S5、利用所述阅读理解数据集进行常规的机器阅读理解训练,但在输出层给予与聚类后的主题向量相似度更高的词更高的权重,从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解;
步骤S5中常规的机器阅读理解训练所采用的训练系统包括:
嵌入层:采用的是在外部数据上预训练的词向量,或者是基于循环神经网络或者卷积神经网络的从字符到单词的词向量,得到问题和正文段落里面每个单词的上下文无关的表示,将得到的词向量作为训练的输入;
编码层:采用多层的双向循环神经网络得到问题和正文段落的每个词的上下文表示;
预处理层:将嵌入层得到的词向量用于核心词的向量运算;将编码层得到的上下文表示中的首位和尾部的向量表示拼接后作为核心句的向量表示;
主题生成层:若是使用核心词向量,将所有的核心词向量加权平均后作为当前样本的向量表示,接着将所有样本的向量表示聚类,同类向量求得的平均值作为主题向量;若是使用核心句向量,将问题句子与正文核心句进行编码,将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的所有核心句的向量表示,然后聚类并且降维,同类向量求得的平均值作为主题向量;
匹配层:得到问题里面的词和正文段落词之间的对应关系,具体是采用注意力的机制实现,得到正文里面每个词的和问题相关的表示;并且,在本层加入了主题向量和段落词之间的对应关系,同样采用注意力机制实现,得到每个词和主题相关的表示,接下来采取以下任意一种方法利用这些信息:
(1)将问题向量与主题向量拼接后一同与正文段落的词向量做注意力机制的加权运算;
(2)分别将问题和主题向量与正文段落的词向量做注意力机制的加权运算,再求平均;
自匹配层:在得到与问题及主题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示;
输出层:对正文段落里面的每个词预测其是答案开始以及答案结束的概率,从而计算文章段落中答案概率最大的子串输出为答案。
2.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法,其特征在于,步骤S1中,训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集,语种为中文或英文;正文、问题及答案指的是在一个机器阅读理解任务中,机器首先需要阅读正文文章,在此基础上阅读问题并对问题做回答,答案为训练数据给出的标准答案;正文为单段落或者为多段落,答案的抽取模式为以首尾词定位段落中的一个区域,将这个区域中的句子作为答案。
3.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法,其特征在于,步骤S2中第(1)种方案,若一篇阅读理解的正文为多段落,则通过设定的最大段落数K,按顺序保留正文的前K段作为有效文本,其他的丢弃;然后计算有效文本中的各个段落与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落,对于选出的各个段落以及对于一篇阅读理解的正文为单段落时,计算一个段落中各个语句与问题的BLEU-4分数,从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。
4.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法,其特征在于,步骤S3中进行加权平均的实现方式具体为:
对于核心词的方式:将核心词的词向量直接进行加权平均;
对于核心句的方式:使用双向循环神经网络将问题句子与正文核心句进行编码,将首尾位置输出的隐藏层向量拼接,再对这些向量进行加权平均得到最终的向量表示。
5.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法,其特征在于,步骤S4还包括降维处理,具体为:将得到的所有的阅读理解的主题的向量表示进行聚类,由于拼接后的维度可能较高,所以对聚类结果进行降维,以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。
6.一种考虑主题的机器阅读理解模型生成系统,其特征在于,采用如权利要求1-5任一项所述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211906.0A CN110096698B (zh) | 2019-03-20 | 2019-03-20 | 一种考虑主题的机器阅读理解模型生成方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211906.0A CN110096698B (zh) | 2019-03-20 | 2019-03-20 | 一种考虑主题的机器阅读理解模型生成方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096698A CN110096698A (zh) | 2019-08-06 |
CN110096698B true CN110096698B (zh) | 2020-09-29 |
Family
ID=67443911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910211906.0A Expired - Fee Related CN110096698B (zh) | 2019-03-20 | 2019-03-20 | 一种考虑主题的机器阅读理解模型生成方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096698B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457710B (zh) * | 2019-08-19 | 2022-08-02 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
CN111027327B (zh) * | 2019-10-29 | 2022-09-06 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN111160568B (zh) | 2019-12-27 | 2021-04-06 | 北京百度网讯科技有限公司 | 机器阅读理解模型训练方法、装置、电子设备和存储介质 |
CN111241848B (zh) * | 2020-01-15 | 2020-12-01 | 江苏联著实业股份有限公司 | 一种基于机器学习的文章阅读理解答案检索方法及装置 |
CN111274789B (zh) * | 2020-02-06 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 文本预测模型的训练方法及装置 |
CN111309891B (zh) * | 2020-03-16 | 2022-05-31 | 山西大学 | 一种阅读机器人进行自动问答的系统及其应用方法 |
CN113536801A (zh) * | 2020-04-16 | 2021-10-22 | 北京金山数字娱乐科技有限公司 | 阅读理解模型的训练方法及装置、阅读理解方法及装置 |
CN111858879B (zh) * | 2020-06-18 | 2024-04-05 | 达观数据有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN113076431B (zh) * | 2021-04-28 | 2022-09-02 | 平安科技(深圳)有限公司 | 机器阅读理解的问答方法、装置、计算机设备及存储介质 |
CN114444488B (zh) * | 2022-01-26 | 2023-03-24 | 中国科学技术大学 | 一种少样本机器阅读理解方法、系统、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033068B (zh) * | 2018-06-14 | 2022-07-12 | 北京慧闻科技(集团)有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109460553B (zh) * | 2018-11-05 | 2023-05-16 | 中山大学 | 一种基于门限卷积神经网络的机器阅读理解方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
-
2019
- 2019-03-20 CN CN201910211906.0A patent/CN110096698B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110096698A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096698B (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN107247702A (zh) | 一种文本情感分析处理方法和系统 | |
Theeramunkong et al. | Non-dictionary-based Thai word segmentation using decision trees | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN114239599A (zh) | 一种机器阅读理解的实现方法、系统、设备及介质 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
CN110610006B (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN114461779A (zh) | 一种案件笔录要素抽取方法 | |
CN112507723A (zh) | 基于多模型融合的新闻情感分析方法 | |
CN113011141A (zh) | 佛经注解模型训练方法、佛经注解生成方法及相关设备 | |
CN113407683A (zh) | 一种文本信息处理方法、装置、电子设备及存储介质 | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200929 |