CN110866098B - 基于transformer和lstm的机器阅读方法、装置及可读存储介质 - Google Patents
基于transformer和lstm的机器阅读方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN110866098B CN110866098B CN201911037790.XA CN201911037790A CN110866098B CN 110866098 B CN110866098 B CN 110866098B CN 201911037790 A CN201911037790 A CN 201911037790A CN 110866098 B CN110866098 B CN 110866098B
- Authority
- CN
- China
- Prior art keywords
- text
- lstm
- probability
- matrix
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提出一种基于transformer和lstm的机器阅读方法、装置以及可存储介质,其中的方法包括:通过glove词向量训练模型获取词向量;采用字符级卷积神经网络获取字段嵌入;将词向量和字段嵌入进行拼接形成输入向量;通过lstm和transformer对输入向量进行特征的提取,获取具有局部特征和整体特征的文本;通过Bidirectional Attention Flow模型以及transformer对获取的文本进行处理,获取文本中问题与答案所有关联信息;通过lstm对获取的文本中问题与答案所有关联信息进行处理,将概率最高的一句话作为文本中问题的答案。本发明通过将transformer和lstm模型相互结合形成的新的机器阅读网络结构,解决目前不能同时获取句子的整体相关性和局部相关性的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于transformer和lstm的机器阅读方法、电子装置及可读存储介质。
背景技术
机器阅读是自然语言处理的一个分支,主要的作用是根据用户提出的问题和文本,带着问题去文本中寻找答案。目前机器阅读的技术从最初的根据机器翻译的seq2seq到Bidaf、mlstm和r-net等依靠RNN为基础的模型到依靠transformer的QAnet和BERT模型,都为机器阅读做出了巨大的贡献。
目前著名的机器阅读的数据集,英文的有斯坦福大学的SQuAD和微软的MS MARCO,中文的有百度的dureader。总的来说大部分技术的研究是基于SQuAD的数据集。目前流行的Bidaf、QAnet和BERT都是在SQuAD数据集上取得了巨大的进展,其中,目前的机器阅读模型都是基于RNN,如mlstm和bidaf或者transformer框架等等,虽然有的模型可以体现文本的上下文关系,有的模型可以提取句子的整体相关性,但是目前还没有一种方法,能够同时获取句子的整体性相关性和局部相关性。
为了解决上述问题,亟需一种可以同时让句子获得整体相关性和局部相关性的方法。
发明内容
本发明提供一种基于transformer和lstm的机器阅读方法、电子装置及计算机可读存储介质,其主要目的在于通过将transformer和lstm模型相互结合形成的新的机器阅读网络结构,解决目前不能同时获取句子的整体相关性和局部相关性的问题。
为实现上述目的,本发明提供一种基于transformer和lstm的机器阅读方法,包括:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
优选地,所述glove词向量训练模型公式为:
其中,Pij为共现概率;υi、υj为词向量;f为权重函数。
优选地,所述字段嵌入为:
Cθ∈B×D
其中,Cθ表示任意一个经过嵌入处理的字符向量,其维度满足B x D。
优选地,所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,其公式如下:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
优选地,所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被所述处理器执行时实现如下步骤:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
优选地,所述glove词向量训练模型公式为:
其中,Pij为共现概率;υi、υj为词向量;f为权重函数。
优选地,所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
优选地,所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被处理器执行时,实现如上所述的基于transformer和lstm的机器阅读方法中的任意步骤。
本发明提出的基于transformer和lstm的机器阅读方法、电子装置及计算机可读存储介质,通过transformer和lstm构建一个器阅读网络结构,在网络结构中,通过lstm获取文本中的局部信息,通过transformer获取文本中的整体信息,因此,本发明的构建的器阅读网络结构,解决目前不能同时获取句子的整体相关性和局部相关性的问题。
附图说明
图1为本发明基于transformer和lstm的机器阅读方法较佳实施例的应用环境示意图;
图2为图1中基于transformer和lstm的机器阅读程序较佳实施例的模块示意图;
图3为本发明基于transformer和lstm的机器阅读方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于transformer和lstm的机器阅读方法,应用于一种电子装置1。参照图1所示,为本发明基于transformer和lstm的机器阅读方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于transformer和lstm的机器阅读程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如基于transformer和lstm的机器阅读程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于transformer和lstm的机器阅读程序10;处理器12执行存储器11中存储的基于transformer和lstm的机器阅读程序10时实现如下步骤:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
优选地,所述glove词向量训练模型公式为:
其中,Pij为共现概率;υi、υj为词向量;f为权重函数。
优选地,所述字段嵌入为:
Cθ∈B×D
其中,Cθ表示任意一个经过embedded的字符向量,其维度满足B x D。
优选地,所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,其公式如下:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
优选地,所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
上述实施例提出的电子装置1,通过transformer和lstm构建一个器阅读网络结构,在网络结构中,通过lstm获取文本中的局部信息,通过transformer获取文本中的整体信息,因此,本发明的构建的器阅读网络结构,解决目前不能同时获取句子的整体相关性和局部相关性的问题。
在其他实施例中,基于transformer和lstm的机器阅读程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于transformer和lstm的机器阅读程序10较佳实施例的程序模块图。所述基于transformer和lstm的机器阅读程序10可以被分割为:词向量获取模块110、字段嵌入获取模块120、输入向量形成模块130、局部特征和整体特征获取模块140、关联信息获取模块150和答案获取模块160。所述模块110-160所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
词向量获取模块110,用于采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
字段嵌入获取模块120,用于采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
输入向量形成模块130,用于将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
局部特征和整体特征获取模块140,用于通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
关联信息获取模块150,用于通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
答案获取模块160,用于采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
此外,本发明还提供一种基于transformer和lstm的机器阅读方法。参照图3所示,为本发明基于transformer和lstm的机器阅读方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于transformer和lstm的机器阅读方法包括:步骤S10-步骤S60。
步骤S10:采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
步骤S20:采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
步骤S30:将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
步骤S40:通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
步骤S50:通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
步骤S60:采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
在步骤S10中,采用glove对词向量进行预训练得到所有单词的word-embedding(单词向量化),We∈B×H,这里B为单词个数,H为embedding向量的维度大小;We表示一个单词的词向量,此词向量的维度是B x H。
具体地,基于统计的词向量模型和基于预测的词向量模型。前者以基于SVD分解技术的LSA模型为代表,但是这类模型得到的语义向量往往很难把握词与词之间的线性关系(例如著名的King、Queen、Man、Woman等式)。后者则以基于神经网络的Skip-gram模型为代表,通过预测一个词出现在上下文里的概率得到embedding词向量。这类模型的缺陷在于其对统计信息的利用不充分,训练时间与语料大小息息相关,因此在很多任务上的表现都要略优于SVD模型。
其中,对于glove模型来说,首先利用Skip-gram模型能够挖掘出词与词之间线性关系的背后成因,然后通过在共现矩阵上构造相似的条件,得到一个基于全局信息的词向量模型——glove词向量训练模型,glove词向量训练模型公式为:
其中,Pij为共现概率;υi、υj为词向量;f为权重函数。
在步骤S20中,将glove预训练的字向量用char-CNN(字符级卷积神经网络)进行处理,这里选择了一个尺寸为:[H=5,W=一个字的embedding的维度,OC=64]的filter,这里H为filter的高度,W为一个字embedding的维度,OC为输出通道,最后得到的char-embedding,Ce∈B×D,其中,Ce表示任意一个经过embedded(嵌入处理)的字符向量,其维度满足B x D。
其中,在本发明的实施例中,使用了两个颗粒度的嵌入操作:
1.直接在单词维度计算的word embedding词向量;
2.char-embedding是基于每个单词的字母进行embedding,在得到一个单词的所有字母向量后加权平均得到这个单词的词向量。
在步骤S30中,对输入向量进行拼接,输入向量由前置位置的词向量加上后置位置语境词向量拼接而成。其作为模型的输入。
具体地,将步骤S20得到的char-embedding和glove预训练的word-embedding进行拼接产生一个contextual embedding,Conte∈B×(H+D)。再用一个highway层对contextual embedding进行处理防止其梯度爆炸或者梯度消失。
highway层就是非线性转换层,用于避免输入权重更新后的梯度爆炸和梯度消失的情况。模型结构优化,在contextual embedding层后接入highway非线性转换层避免在BP过程中的梯度消失或梯度爆炸的问题。但是后续接入的机器阅读的经典模型bidaf结构是一样的。
在步骤S40中,同时用一个lstm和一个transformer对contextual embedding进行编码,再将其拼接起来,也就说,lstm进行了一个局部的特征提取,transformer进行了一个整体的特征提取,所以一个融合了局部特征和整体特征的contextual embedding就完成了,针对内容的contextual embedding是H_t(t*d的矩阵),针对问题的contextualembedding是U_j(j*d的矩阵)。
在本发明的实施例中,局部特征是问句利用三个维度的特征向量对问句本身进行一个特征强化。整体特征是用于问句和原文之间的表征提取。
此外,局部特征和整体特征通过加权求平均的方式或者串联的方式拼接在一起。在此步骤中,通过lstm能够很好的提取文本的上下文关系,transformer可以提取句子的整体相关性。
在步骤S50中,文本中的问题与答案句子向量经过交叉表征。提升句中关键词在句子向量中的特征强度。
其中,Bidirectional AttentionFlow模型,简称为:BiDAF模型,是一种经典的阅读理解模型,BiDAF模型最大的特点是在interaction层引入了双向注意力机制,计算Query2Context和Context2Query两种注意力,并基于注意力计算query-aware的原文表示。具体地,第一步:通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,具体公式如下,
t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值。
第二步:at=softmax(St:)求出每一个问题的字在每一个答案中的权重,
第四步:再选择出对于内容中每个词,问题哪个词最重要所以有了b=softmax(maxrow(S)),它是一个问题对内容的向量为d的attention,这意味着,对于问题来说,它已经抓住了内容中对于它最重要的词,再将复制扩大为一个的矩阵。将前面的Ht:,用一个G函数进行融合得到一个维度为t*4d的矩阵,此矩阵包含了融合了问题对内容和内容对问题的所有关联信息。其中对于需要对其进行一个lstm编码。
也就是说,该层的输入是原文H和问句U向量,输出是context words的query-aware vector,以及上一层传下来的contextual-embeddings。
具体地,步骤一:做context-to-query以及query-to-context两个方向的‘attention’,先计算相似度矩阵S;
步骤二:再归一化计算attention分数at,根据得到的at进行加权平均。
也就是说,每个时刻的注意力向量都与其之前层的嵌入相关,且都可以流向之后的网络层。这种设计方案可以减缓由于过早归纳总结而导致的信息缺失。
步骤三:使用表征提取后的H和加权计算得到的U拼接起来得到G。G中每个列向量可以视为每个contex word的query-aware表征。
在步骤S60中,将F矩阵通过一个transformer层之后通过一个lstm进行开始概率输出,再根据开始概率和前层lstm结果对结束概率位置输出。最后将开始概率和结束概率相乘,取出概率最高的那一句话作为答案。
具体地,对decoder解码层的模型结构进行升级。首先使用单层双向LSTM后进行softmax得到开始概率和结束概率。再根据开始概率和前层lstm结果对结束概率位置输出。最后将开始概率和结束概率相乘,取出概率最高的那一句话作为答案。
其中,步骤S60还包括如下步骤:
步骤一:建模层
首先将步骤S50中得到的注意力矩阵G输入一个双向lstm得到一个捕捉的是在给定query下contexwords之间的关系的矩阵M。
步骤二:decoder层,其中第二步的过程如下:
第一步:decoder层的输入参数G即context中单词的query-awarerepresentation结果),与上述步骤中得到的query-contextword矩阵进行拼接,作为decoder层的首次输入;
第二步:将拼接后的矩阵输入单向lstm,再对结果做softmax这一步是为了得到答案文本中答案的开始位置的最大概率的P1;
第三步:随后将最大概率的位置与从S150得到的G矩阵以及S161得到的M矩阵作为输入参数,放入新的单向lstm层找到答案结束位置;使用的单向的原因是,机器翻译答案的搜寻应该符合人类阅读习惯,从前到后顺序寻找。
第四步:再根据开始概率和前层lstm结果对结束概率位置输出P2;
第五步:最后将开始概率和结束概率相乘,取出概率最高的那一句话作为答案。
其中,输出层是面向具体任务的,所以可以根据具体任务而做相应修改。预测开始位置p1和结束位置p2,具体公式如下:
也就是,使用单向LTSM结构对解码器输出的句子向量进行表征整合,得到的是文本中每一个单词对于问句的影响强度(与答案相关的概率)再通过softmax得到概率最大(答案相关性最高的单词)作为答案从该文本中词语开始的概率。同理生成结束概率,开始概率和输出位置概率,整个的训练原理是相同的,通过已标注好的数据集进行监督学习,让模型学会去寻找针对问句的文本中答案的位置。
在本发明的实施例中,使用单向lstm的原因有两个:
1.在略微降低准确率的情况下使得计算量(相对双层lstm)减半。
2.基于设计目的,是为了从文本中找到答案,因此更注重文本中的词语对问句的相关性(单向)。
综上所述,本发明提出的基于transformer和lstm的机器阅读网络结构。在本网络结构中,最开始用lstm和transformer联合编码contextual embedding,再经过bidirectional attention的处理以后,用一个transformer去融合所有信息,再用lstm去输出开始和结束概率。所以,最后的输出不止考虑了文本局部的相关性,也考虑了文本整体的相关性。
上述实施例提出的基于transformer和lstm的机器阅读方法,通过transformer和lstm构建一个器阅读网络结构,在网络结构中,通过lstm获取文本中的局部信息,通过transformer获取文本中的整体信息,因此,本发明的构建的器阅读网络结构,解决目前不能同时获取句子的整体相关性和局部相关性的问题。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被处理器执行时实现如下操作:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
优选地,所述glove词向量训练模型公式为:
其中,Pij为共现概率;υi、υj为词向量;f为权重函数。
优选地,所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
优选地,所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
本发明之计算机可读存储介质的具体实施方式与上述基于transformer和lstm的机器阅读方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于transformer和lstm的机器阅读方法,应用于电子装置,其特征在于,所述方法包括:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用所述lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
3.根据权利要求1所述的基于transformer和lstm的机器阅读方法,其特征在于,所述字段嵌入为:
Cθ∈B×D
其中,Cθ表示任意一个经过嵌入处理的字符向量,其维度满足B x D。
4.根据权利要求1所述的基于transformer和lstm的机器阅读方法,其特征在于,
所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,其公式如下:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;Ht:表示文本的隐向量编码;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
5.根据权利要求4所述的基于transformer和lstm的机器阅读方法,其特征在于,
所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被所述处理器执行时实现如下步骤:
采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;
采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;
将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;
通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;
通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;
采用所述lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。
8.根据权利要求6所述的电子装置,其特征在于,
所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:
其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;Ht:表示文本的隐向量编码;
计算出每一个问题的字在每一个答案中的权重,其公式如下:
at=softmax(St:)
9.根据权利要求8所述的电子装置,其特征在于,
所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:
将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;
将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;
将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;
将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;
将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被处理器执行时,实现如权利要求1至5中任一项所述的基于transformer和lstm的机器阅读方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037790.XA CN110866098B (zh) | 2019-10-29 | 2019-10-29 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
PCT/CN2019/118501 WO2021082086A1 (zh) | 2019-10-29 | 2019-11-14 | 机器阅读方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037790.XA CN110866098B (zh) | 2019-10-29 | 2019-10-29 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866098A CN110866098A (zh) | 2020-03-06 |
CN110866098B true CN110866098B (zh) | 2022-10-28 |
Family
ID=69652976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911037790.XA Active CN110866098B (zh) | 2019-10-29 | 2019-10-29 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110866098B (zh) |
WO (1) | WO2021082086A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
CN111582020B (zh) * | 2020-03-25 | 2024-06-18 | 平安科技(深圳)有限公司 | 信号处理方法、装置、计算机设备及存储介质 |
CN111858883A (zh) * | 2020-06-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 三元组样本的生成方法、装置、电子设备及存储介质 |
CN112100328B (zh) * | 2020-08-31 | 2023-05-30 | 广州探迹科技有限公司 | 一种基于多轮对话的意向判断方法 |
CN113536798B (zh) * | 2021-07-16 | 2024-05-31 | 北京易道博识科技有限公司 | 一种多实例文档关键信息抽取方法和系统 |
CN113743118B (zh) * | 2021-07-22 | 2024-06-21 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN113850078B (zh) * | 2021-09-29 | 2024-06-18 | 平安科技(深圳)有限公司 | 基于机器学习的多意图识别方法、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540967B2 (en) * | 2016-11-14 | 2020-01-21 | Xerox Corporation | Machine reading method for dialog state tracking |
US11501076B2 (en) * | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
CN109460553B (zh) * | 2018-11-05 | 2023-05-16 | 中山大学 | 一种基于门限卷积神经网络的机器阅读理解方法 |
CN109933661B (zh) * | 2019-04-03 | 2020-12-18 | 上海乐言信息科技有限公司 | 一种基于深度生成模型的半监督问答对归纳方法和系统 |
CN110222152B (zh) * | 2019-05-29 | 2021-05-14 | 北京邮电大学 | 一种基于机器阅读理解的问题答案获取方法及系统 |
-
2019
- 2019-10-29 CN CN201911037790.XA patent/CN110866098B/zh active Active
- 2019-11-14 WO PCT/CN2019/118501 patent/WO2021082086A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
Non-Patent Citations (1)
Title |
---|
基于双线性函数注意力Bi-LSTM 模型的机器阅读理解;刘飞龙等;《计算机科学》;20170630;第44卷(第6期);第92-96页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021082086A1 (zh) | 2021-05-06 |
CN110866098A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN110532381B (zh) | 一种文本向量获取方法、装置、计算机设备及存储介质 | |
CN113051371B (zh) | 中文机器阅读理解方法、装置、电子设备及存储介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110442711B (zh) | 文本智能化清洗方法、装置及计算机可读存储介质 | |
US20230386238A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN110765765A (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN113887229A (zh) | 地址信息的识别方法、装置、计算机设备及存储介质 | |
JP2022145623A (ja) | ヒント情報を提示する方法及び装置並びにコンピュータプログラム | |
CN113807512B (zh) | 机器阅读理解模型的训练方法、装置及可读存储介质 | |
WO2021139076A1 (zh) | 智能化文本对话生成方法、装置及计算机可读存储介质 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN115455169A (zh) | 一种基于词汇知识和语义依存的知识图谱问答方法和系统 | |
CN110222144B (zh) | 文本内容提取方法、装置、电子设备及存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN111523312A (zh) | 一种基于释义消歧的查词显示方法、装置和计算设备 | |
CN115033683A (zh) | 摘要生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40017601 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |