CN108932224A - 实现独立于注意力机制的拷贝机制的方法及设备 - Google Patents

实现独立于注意力机制的拷贝机制的方法及设备 Download PDF

Info

Publication number
CN108932224A
CN108932224A CN201810480410.9A CN201810480410A CN108932224A CN 108932224 A CN108932224 A CN 108932224A CN 201810480410 A CN201810480410 A CN 201810480410A CN 108932224 A CN108932224 A CN 108932224A
Authority
CN
China
Prior art keywords
vector
unit
word
state
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810480410.9A
Other languages
English (en)
Other versions
CN108932224B (zh
Inventor
章乐
陆晨昱
舒畅
何永
李传丰
武拥珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semantic Intelligent Technology Guangzhou Co ltd
Original Assignee
Yi Language Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yi Language Intelligent Technology (shanghai) Co Ltd filed Critical Yi Language Intelligent Technology (shanghai) Co Ltd
Priority to CN201810480410.9A priority Critical patent/CN108932224B/zh
Publication of CN108932224A publication Critical patent/CN108932224A/zh
Application granted granted Critical
Publication of CN108932224B publication Critical patent/CN108932224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

本发明的目的是提供一种实现独立于注意力机制的拷贝机制的方法及设备,本发明依次通过语境编码、过滤编码、解码‑准备输入、解码‑生成输、解码‑拷贝调制、解码‑拷贝概率图解码‑加权输出,本发明的拷贝机制相对独立与注意力机制,尤其是其概率分布独立于注意力机制的概率分布,有利于拷贝机制发挥其效能。

Description

实现独立于注意力机制的拷贝机制的方法及设备
技术领域
本发明涉及计算机领域,尤其涉及一种实现独立于注意力机制的拷贝机制的方法及设备。
背景技术
在传统的拷贝机制中原文中拷贝概率分布来自于注意力机制,会让拷贝的词达到超过95%,而实际上统计发现这一比例正常情况下应该只在60%左右,而且这95%以上的拷贝很多还是错的,所以传统的拷贝机制亟需提高。
发明内容
本发明的一个目的是提供一种实现独立于注意力机制的拷贝机制的方法及设备。
根据本发明的一个方面,提供了一种实现独立于注意力机制的拷贝机制的方法,该方法包括:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
进一步的,上述方法中,把长度为N个单位长文本进行编码,包括:
采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。
进一步的,上述方法中,将所述结果输入一个激活函数生成一个新的向量,包括:
将所述结果输入一个sigmoid激活函数生成一个新的向量。
进一步的,上述方法中,将第M(j-1)个字和所述注意力向量输入到一个神经元中,包括:
将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。
根据本发明的另一方面,还提供了一种实现独立于注意力机制的拷贝机制设备,该设备包括:
语境编码装置,用于把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
过滤编码装置,用于把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码-准备输入装置,用于解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
解码拷贝调制装置,用于将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
解码拷贝概率装置,用于把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
解码加权输出装置,用于把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
进一步的,上述设备中,所述语境编码装置,用于采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。
进一步的,上述设备中,所述过滤编码装置,用于将所述结果输入一个sigmoid激活函数生成一个新的向量。
进一步的,上述设备中,所述解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。
根据本发明的另一面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
根据本发明的另一面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
与现有技术相比,本发明依次通过语境编码、过滤编码、解码-准备输入、解码-生成输、解码-拷贝调制、解码-拷贝概率图解码-加权输出,本发明的拷贝机制相对独立与注意力机制,尤其是其概率分布独立于注意力机制的概率分布,有利于拷贝机制发挥其效能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一实施例的实现独立于注意力机制的拷贝机制的方法的流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
设已有:长度为N个单位(字或词,下同)的长文本,一个起始解码符号START,一个词汇量为V的单词表;
需要生成:长度为M个单位的摘要(M<N);
如图1所示,本发明提供一种实现独立于注意力机制的拷贝机制的方法,该方法包括:
步骤S1,语境编码:首先把长度为N个单位的长文本进行编码(比如使用双向的RNN或CNN的编码方式,其中,双向RNN可以包含文本前后的信息)生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
步骤S2,过滤编码:把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数(如sigmoid函数)生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
步骤S3,解码-准备输入:解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量,其中,该注意力向量代表所有注意到的单元的意思,这就是注意力机制,Softmax就是用来根据权重得到一个概率分布;
步骤S4,解码-生成输出:将第M(j-1)个字和所述注意力向量输入到一个神经元中,如LSTM或者GRU的神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
步骤S5,解码-拷贝调制:将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C,在此,本步骤实现了独立的拷贝机制;
步骤S6,解码-拷贝概率:把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
步骤S7,解码-加权输出:把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
本发明依次通过语境编码、过滤编码、解码-准备输入、解码-生成输、解码-拷贝调制、解码-拷贝概率图解码-加权输出,本发明的拷贝机制相对独立与注意力机制,尤其是其概率分布独立于注意力机制的概率分布,有利于拷贝机制发挥其效能。
根据本发明的另一方面,还提供了一种实现独立于注意力机制的拷贝机制设备,该设备包括:
语境编码装置,用于把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
过滤编码装置,用于把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码-准备输入装置,用于解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
解码拷贝调制装置,用于将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
解码拷贝概率装置,用于把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
解码加权输出装置,用于把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
进一步的,上述设备中,所述语境编码装置,用于采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。
进一步的,上述设备中,所述过滤编码装置,用于将所述结果输入一个sigmoid激活函数生成一个新的向量。
进一步的,上述设备中,所述解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。
根据本发明的另一面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
根据本发明的另一面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种实现独立于注意力机制的拷贝机制的方法,其中,该方法包括:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
2.根据权利要求1所述的方法,其中,把长度为N个单位长文本进行编码,包括:
采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。
3.根据权利要求1所述的方法,其中,将所述结果输入一个激活函数生成一个新的向量,包括:
将所述结果输入一个sigmoid激活函数生成一个新的向量。
4.根据权利要求1所述的方法,其中,将第M(j-1)个字和所述注意力向量输入到一个神经元中,包括:
将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。
5.一种现独立于注意力机制的拷贝机制设备,其中,该设备包括:
语境编码装置,用于把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
过滤编码装置,用于把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码-准备输入装置,用于解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
解码拷贝调制装置,用于将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
解码拷贝概率装置,用于把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
解码加权输出装置,用于把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
6.根据权利要求5所述的设备,其中,所述语境编码装置,用于采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。
7.根据权利要求6所述的设备,其中,所述过滤编码装置,用于将所述结果输入一个sigmoid激活函数生成一个新的向量。
8.根据权利要求5所述的设备,其中,所述解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。
9.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);
把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;
解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;
将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;
将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;
把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;
把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。
CN201810480410.9A 2018-05-18 2018-05-18 实现独立于注意力机制的拷贝机制的方法及设备 Active CN108932224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810480410.9A CN108932224B (zh) 2018-05-18 2018-05-18 实现独立于注意力机制的拷贝机制的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810480410.9A CN108932224B (zh) 2018-05-18 2018-05-18 实现独立于注意力机制的拷贝机制的方法及设备

Publications (2)

Publication Number Publication Date
CN108932224A true CN108932224A (zh) 2018-12-04
CN108932224B CN108932224B (zh) 2022-04-29

Family

ID=64449123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810480410.9A Active CN108932224B (zh) 2018-05-18 2018-05-18 实现独立于注意力机制的拷贝机制的方法及设备

Country Status (1)

Country Link
CN (1) CN108932224B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110219208A1 (en) * 2010-01-08 2011-09-08 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
CN107133224A (zh) * 2017-04-25 2017-09-05 中国人民大学 一种基于主题词的语言生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110219208A1 (en) * 2010-01-08 2011-09-08 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
CN107133224A (zh) * 2017-04-25 2017-09-05 中国人民大学 一种基于主题词的语言生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENYUAN ZENG等: "EFFICIENT SUMMARIZATION WITH READ-AGAIN AND COPY MECHANISM", 《ICLR 2017》 *
周健 等: "基于改进Sequence-to-Sequence模型的文本摘要生成方法", 《计算机工程与应用》 *

Also Published As

Publication number Publication date
CN108932224B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Chen et al. Extending context window of large language models via positional interpolation
AU2018271931B2 (en) Attention-based sequence transduction neural networks
CN110019793A (zh) 一种文本语义编码方法及装置
CN109558479A (zh) 一种规则匹配方法、装置、设备及存储介质
WO2014062948A2 (en) Ranking for inductive synthesis of string transformations
RU2008106651A (ru) Векторное квантование с использованием единой кодовой книги для многоскоростных применений
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN112200713A (zh) 一种联邦学习中的业务数据处理方法、装置以及设备
JP7398761B2 (ja) 短期時系列予測に向けた予期的学習方法及びシステム
CN116310667B (zh) 联合对比损失和重建损失的自监督视觉表征学习方法
Alhazov et al. P systems with anti-matter
CN109344268A (zh) 图形数据库写入的方法、电子设备及计算机可读存储介质
CN113157941B (zh) 业务特征数据处理、文本生成方法、装置及电子设备
US11216431B2 (en) Providing a compact representation of tree structures
CN108932224A (zh) 实现独立于注意力机制的拷贝机制的方法及设备
CN115496162A (zh) 一种模型的训练方法、装置以及设备
WO2022068197A1 (zh) 一种对话生成方法、装置、设备及可读存储介质
CN109241522A (zh) 编码解码方法及设备
CN106610922A (zh) 反序列化方法及装置
CN109190091B (zh) 编码解码方法及设备
CN114880485A (zh) 阅读理解答案生成的方法、装置、计算机设备和存储介质
CN108304513A (zh) 增加生成式对话模型结果多样性的方法及设备
EP4295276A1 (en) Accelerated execution of convolution operation by convolutional neural network
WO2021053457A1 (en) Language statement processing in computing system
US20190304476A1 (en) Coding device, decoding device, and method and program thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230921

Address after: No. 106 Fengze East Road, Nansha District, Guangzhou City, Guangdong Province, 511457 (self made Building 1) X1301-B4056 (cluster registration) (JM)

Patentee after: Semantic Intelligent Technology (Guangzhou) Co.,Ltd.

Address before: 201203 Shanghai Pudong New Area free trade trial area, 1 spring 3, 400 Fang Chun road.

Patentee before: YIYU INTELLIGENT TECHNOLOGY (SHANGHAI) CO.,LTD.

TR01 Transfer of patent right