CN109284509B - 一种文本处理方法、系统和一种用于文本处理的装置 - Google Patents

一种文本处理方法、系统和一种用于文本处理的装置 Download PDF

Info

Publication number
CN109284509B
CN109284509B CN201710602813.1A CN201710602813A CN109284509B CN 109284509 B CN109284509 B CN 109284509B CN 201710602813 A CN201710602813 A CN 201710602813A CN 109284509 B CN109284509 B CN 109284509B
Authority
CN
China
Prior art keywords
window
local attention
text
source
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710602813.1A
Other languages
English (en)
Other versions
CN109284509A (zh
Inventor
程善伯
王宇光
姜里羊
陈伟
王砚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710602813.1A priority Critical patent/CN109284509B/zh
Publication of CN109284509A publication Critical patent/CN109284509A/zh
Application granted granted Critical
Publication of CN109284509B publication Critical patent/CN109284509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文本处理方法、系统和一种用于文本处理的装置,该方法包括:接收源文本,所述源文本具有多个源词;调用编码器将多个源词编码为多个向量;当解码第t个目标词时,根据源文本计算局部注意力窗口的中心偏差值;采用中心偏差值确定局部注意力窗口;调用解码器依据位于局部注意力窗口中源词,将向量解码出所述第t个目标词。自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。

Description

一种文本处理方法、系统和一种用于文本处理的装置
技术领域
本发明涉及语言处理的技术领域,特别是涉及一种文本处理方法、一种文本处理系统和一种用于文本处理的装置。
背景技术
机器翻译又被称为自动翻译技术,通过利用计算机的编程能力,把一种语言自动转化成另一种语言,前者称为源语言,后者称作目标语言。
目前,机器翻译常用局部注意力模型,局部注意力模型是基于注意力模型的改进,在已有的局部注意力机制方法中,在预测每个目标语言的词时,使用了一个前馈神经网络预测一个注意力的中心,在该中心点周围取一个窗口大小的注意力来进行计算目标语言的词。
但是,窗口通常是人工指定大小的,即大小固定,但是,每个需要翻译的句子有所不同,固定大小的窗口适应性差,若翻译的句子过长,窗口中的注意力过于集中,若翻译的句子过短,窗口中的注意力过于分散,导致翻译的质量差。
发明内容
鉴于上述问题,为了解决上述固定大小的窗口适应性差,注意力或过于集中或过于分散的问题,本发明实施例提出了一种文本处理方法和相应的一种文本处理系统、一种用于文本处理的装置。
为了解决上述问题,本发明实施例公开了一种文本处理方法,包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
采用所述中心偏差值确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例还公开了一种文本处理方法,包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
采用所述起始点和所述窗口长度确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例还公开了一种文本处理系统,包括:
源文本接收模块,用于接收源文本,所述源文本具有多个源词;
向量编码模块,用于调用编码器将所述多个源词编码为多个向量;
中心偏差值确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
局部注意力窗口确定模块,用于采用所述中心偏差值确定局部注意力窗口;
向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例还公开了一种文本处理系统,包括:
源文本接收模块,用于接收源文本,所述源文本具有多个源词;
向量编码模块,用于调用编码器将所述多个源词编码为多个向量;
窗口参数确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
局部注意力窗口确定模块,用于采用所述起始点和所述窗口长度确定局部注意力窗口;
向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例还公开了一种用于文本处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
采用所述中心偏差值确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例还公开了一种用于文本处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
采用所述起始点和所述窗口长度确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
本发明实施例包括以下优点:
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的中心偏差值,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的起始点和窗口长度,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
附图说明
图1是本发明的一个实施例的一种文本处理方法的步骤流程图;
图2是本发明的一个实施例的另一种文本处理方法的步骤流程图;
图3是本发明的一个实施例的一种文本处理系统的结构框图;
图4是本发明的一个实施例的另一种文本处理系统的结构框图;
图5是根据一示例性实施例示出的一种用于文本处理的装置的框图;
图6是本发明实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一个实施例的一种文本处理方法的步骤流程图,具体可以包括如下步骤:
步骤101,接收源文本。
源文本为待进行业务处理的文本,一般情况下,源文本具有多个源词。
相对而言,进行业务处理之后的词称之为目标词。
需要说明的是,源词、目标词是相对于业务处理而言的,均表示一个单位的词,一个标点符号、一个数字、一个汉字、一个词组、一个英文单词均可以称为一个单位的词。
步骤102,调用编码器将所述多个源词编码为多个向量。
在具体实现中,本发明实施例可以应用Encoder-Decoder(编码-解码)框架。
在Encoder-Decoder框架中具有编码器和解码器,编码器可以用于将输入序列转化成一个固定长度的向量,解码器可以用于将固定向量再转化成输出序列。
Encoder-Decoder框架可以应用于翻译、文档摘取、问答系统等业务处理,例如,在翻译中,输入序列(即源文本)是属于待翻译的、属于第一语言的文本,输出序列(即目标词)是翻译后、属于第二语言的文本;在问答系统中,输入序列是提出的问题,输出序列是答案。
需要说明的是,编码器和解码器具体使用的模型,可以由本领域技术人员根据实际情况进行设置,例如,CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Networks,循环神经网络)、BiRNN(Bidirectional recurrent neuralnetworks,双向循环神经网络)、GRU(Gated Rucurrent Unit,门控循环单元)、LSTM(LongShort-Term Memory,时间递归神经网络)、Deep LSTM(深度时间递归神经网络)等,这些模型也可以由本领域技术人员根据实际情况进行组合,例如,编码器使用CNN、解码器使用RNN,编码器使用RNN、解码器使用RNN,等等,本发明实施例对此不加以限制。
步骤103,当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值。
在本发明实施例中,在Encoder-Decoder框架中引入局部注意力模型,局部注意力模型是注意力模型(Attention model)的变种。
注意力模型是一种软对齐模型,在业务处理(如翻译)过程中,每生成一个目标词之前,计算注意力对齐模型,该对齐模型表示了在生成当前目标词的时候,“注意力”集中于源文本中的某些源词(权值矩阵中相应的部分,概率值大)。
在注意力模型中,生成每个目标词时,虽然会“注意”于某些源词,但对源文本的其他源词也都有对应的概率,这就可能导致注意力还不够集中。而局部注意力模型将窗口之外的源词忽略,从而使得注意力更加集中。
需要说明的是,局部注意力模型不再要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反,此时编码器需要将输入编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。
在具体实现中,若解码器解码第t(t为正整数)个目标词,即在t时刻,可以自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,即偏离局部注意力窗口的中心点的值。
在本发明的一个实施例中,步骤103可以包括如下子步骤:
子步骤S11,获取在解码所述第t个目标词时、解码器的隐层状态。
在本发明实施例中,在解码第t个目标词时、解码器的第二隐层状态,可以表示在解码第t个目标词时的解码状态,有利于在源文本中查找适于在解码第t个目标词时的注意力集中的位置。
在具体实现中,可以提取在解码第t-1个目标词时的编码器的第一隐层状态、第t-1个目标词和内容向量,通过函数转换即可获得在解码第t个目标词时的解码状态。
其中,向量内容由编码时的隐藏向量序列按权重相加得到。
子步骤S12,依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
在本发明实施例中,考虑编码器的隐层状态,确定在源文本中注意力集中的位置,作为局部注意力窗口的中心偏差值。
在本发明实施例的一个示例中,子步骤S12进一步可以包括如下子步骤:
子步骤S121,对所述隐层状态配置权值矩阵。
子步骤S122,对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息。
子步骤S123,对所述激活信息进行非线性变换,获得特征值。
子步骤S124,对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
在具体实现中,可以通过如下公式计算局部注意力窗口的中心偏差值:
Figure BDA0001357576700000071
其中,w表示中心偏差值,Ceiling()函数用于向上取整,|S|表示源文本的词长度,sigmoid函数用于进行非线性变换,tanh函数用于进行非线性激活,
Figure BDA0001357576700000072
和Ww分别表示两个权值矩阵,ht指t时刻(即解码第t个目标词)解码器的隐层状态。
进一步而言,对于上述计算局部注意力窗口的中心偏差值的公式,由于sigmoid函数是将任意实数转换成(0,1)之间的实数,因此,中心偏差值w是在(1,0.5*|S|)之间的整数。
步骤104,采用所述中心偏差值确定局部注意力窗口。
在具体实现中,可以确定在解码第t个目标词时、局部注意力窗口的中心点,即注意力集中的中心。
一方面,将中心点与中心偏差值之间的差值,设置为第一端点值。
另一方面,将中心点与中心偏差值之间的和值,设置为第二端点值。
将第一端点值与第二端点值之间的区域,设置为局部注意力窗口。
假设中心点为mid,中心偏差值为w,则局部注意力窗口为:
[mid-w,mid+w]
步骤105,调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
在局部注意力模型中,可以对位于局部注意力窗口中的源词计算对于第t个目标词的注意力,调用解码器依据位于局部注意力窗口中、且配置注意力的源词,将向量解码出第t个目标词。
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的中心偏差值,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
为使本领域技术人员更好地理解本发明实施例,以下通过翻译的示例进行说明。
假设源文本为中文句子“我|是|中国|人|,|喜欢|吃|中国|菜|。”,其中,“|”为源词之间的分隔符,则该源文本中连同标点共有10个词。
若人工翻译,翻译为英文句子“I am a Chinese,I like eating Chinese food.”
若应用传统的局部注意力模型,生成了如下翻译:
I am a Chinese,eating food.
在第6时刻,即生成“eating”的时候,计算注意力窗口的中心点为7(即“吃”),布局注意力窗口的中心偏离值固定为3,则局部注意力模窗口的注意力集中在“人|,|喜欢|吃|中国|菜|。”
此时,注意力较为分散,所以生成了“eating”之后,覆盖了较大周围的词,对后续生成的词造成了负面影响。
若应用本发明实施例的局部注意力模型,生成了如下翻译:
I am a Chinese,like eating Chines food.
在第6时刻,即生成“like”的时候,计算注意力窗口的中心点为7(即“吃”),对该源文本计算布局注意力窗口的中心偏离值固定为1,则局部注意力模窗口的注意力集中在“|喜欢|吃|中国|”。
此时,注意力更为集中,所以生成了“eating”之后,后续翻译还会注意周围的词,翻译也更准确。
参照图2,示出了本发明一个实施例的另一种文本处理方法的步骤流程图,具体可以包括如下步骤:
步骤201,接收源文本。
源文本为待进行业务处理的文本,一般情况下,源文本具有多个源词。
相对而言,进行业务处理之后的词称之为目标词。
需要说明的是,源词、目标词是相对于业务处理而言的,均表示一个单位的词,一个标点符号、一个数字、一个汉字、一个词组、一个英文单词均可以称为一个单位的词。
步骤202,调用编码器将所述多个源词编码为多个向量。
在具体实现中,本发明实施例可以应用Encoder-Decoder(编码-解码)框架。
在Encoder-Decoder框架中具有编码器和解码器,编码器可以用于将输入序列转化成一个固定长度的向量,解码器可以用于将固定向量再转化成输出序列。
Encoder-Decoder框架可以应用于翻译、文档摘取、问答系统等业务处理,例如,在翻译中,输入序列(即源文本)是属于待翻译的、属于第一语言的文本,输出序列(即目标词)是翻译后、属于第二语言的文本;在问答系统中,输入序列是提出的问题,输出序列是答案。
需要说明的是,编码器和解码器具体使用的模型,可以由本领域技术人员根据实际情况进行设置,例如,CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Networks,循环神经网络)、BiRNN(Bidirectional recurrent neuralnetworks,双向循环神经网络)、GRU(Gated Rucurrent Unit,门控循环单元)、LSTM(LongShort-Term Memory,时间递归神经网络)、Deep LSTM(深度时间递归神经网络)等,这些模型也可以由本领域技术人员根据实际情况进行组合,例如,编码器使用CNN、解码器使用RNN,编码器使用RNN、解码器使用RNN,等等,本发明实施例对此不加以限制。
步骤203,当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度。
在本发明实施例中,在Encoder-Decoder框架中引入局部注意力模型,局部注意力模型是注意力模型(Attention model)的变种。
注意力模型是一种软对齐模型,在业务处理(如翻译)过程中,每生成一个目标词之前,计算注意力对齐模型,该对齐模型表示了在生成当前目标词的时候,“注意力”集中于源文本中的某些源词(权值矩阵中相应的部分,概率值大)。
在注意力模型中,生成每个目标词时,虽然会“注意”于某些源词,但对源文本的其他源词也都有对应的概率,这就可能导致注意力还不够集中。而局部注意力模型将窗口之外的源词忽略,从而使得注意力更加集中。
需要说明的是,局部注意力模型不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反,此时编码器需要将输入编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。
在具体实现中,若解码器解码第t(t为正整数)个目标词,即在t时刻,可以自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的起始点和窗口长度。
在本发明的一个实施例中,步骤203可以包括如下子步骤:
子步骤S21,获取在解码所述第t个目标词时、解码器的隐层状态。
在本发明实施例中,在解码第t个目标词时、解码器的第二隐层状态,可以表示在解码第t个目标词时的解码状态,有利于在源文本中查找适于在解码第t个目标词时的注意力集中的位置。
在具体实现中,可以提取在解码第t-1个目标词时的编码器的第一隐层状态、第t-1个目标词和内容向量,通过函数转换即可获得在解码第t个目标词时的解码状态。
其中,向量内容由编码时的隐藏向量序列按权重相加得到。
子步骤S22,依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点。
在本发明实施例中,考虑编码器的隐层状态,确定在源文本中注意力开始集中的位置,作为局部注意力窗口的起始点。
在本发明实施例的一个示例中,子步骤S22进一步可以包括如下子步骤:
子步骤S221,对所述隐层状态配置权值矩阵。
子步骤S222,对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息。
子步骤S223,对所述激活信息进行非线性变换,获得特征值。
子步骤S224,对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
在具体实现中,可以通过如下公式计算局部注意力窗口的起始点:
Figure BDA0001357576700000111
其中,start为起始点,Floor()函数用于向下取整,|S|表示源文本的词长度,sigmoid函数用于进行非线性变换,tanh函数用于进行非线性激活,
Figure BDA0001357576700000112
Wst分别表示两个权值矩阵,ht指t时刻(即解码第t个目标词)解码器的隐层状态。
进一步而言,对于上述计算局部注意力窗口的起始点的公式,由于sigmoid函数是将任意实数转换成(0,1)之间的实数,因此,起始点start是在[0,|S|]之间的整数。
子步骤S23,依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
在本发明实施例中,考虑编码器的隐层状态,在源文本中注意力开始集中的位置之后,确定注意力集中的位置,作为局部注意力窗口的窗口长度。
在本发明实施例的一个示例中,子步骤S23进一步可以包括如下子步骤:
子步骤S231,对所述隐层状态配置权值矩阵。
子步骤S232,对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息。
子步骤S233,对所述激活信息进行非线性变换,获得特征值。
子步骤S234,对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度。
其中,剩余长度与述源文本的文本长度与起始点之间差值。
在具体实现中,可以通过如下公式计算局部注意力窗口的窗口长度:
Figure BDA0001357576700000121
其中,len为窗口长度,start为起始点,Floor()函数用于向下取整,|S|表示源文本的词长度,sigmoid函数用于进行非线性变换,tanh函数用于进行非线性激活,
Figure BDA0001357576700000122
Wl分别表示两个权值矩阵,ht指t时刻(即解码第t个目标词)解码器的隐层状态。
进一步而言,对于上述计算局部注意力窗口的窗口长度的公式,由于sigmoid函数是将任意实数转换成(0,1)之间的实数,因此,起始点start是在[0,|S|-start]之间的整数。
步骤204,采用所述起始点和所述窗口长度确定局部注意力窗口。
在具体实现中,将起始点设置为第一端点值,将起始点与窗口长度之间的和值,设置为第二端点值。
将第一端点值与第二端点值之间的区域,设置为局部注意力窗口。
假设起始点为start,窗口长度为len,则局部注意力窗口为:
[start,start+len]
步骤205,调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
在局部注意力模型中,可以对位于局部注意力窗口中的源词计算对于第t个目标词的注意力,调用解码器依据位于局部注意力窗口中、且配置注意力的源词,将向量解码出第t个目标词。
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的起始点和窗口长度,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
为使本领域技术人员更好地理解本发明实施例,以下通过翻译的示例进行说明。
假设源文本为中文句子“我|是|中国|人|,|喜欢|吃|中国|菜|。”,其中,“|”为源词之间的分隔符,则该源文本中连同标点共有10个词。
若人工翻译,翻译为英文句子“I am a Chinese,I like eating Chinese food.”
若应用传统的局部注意力模型,生成了如下翻译:
I am a Chinese,eating food.
在第6时刻,即生成“eating”的时候,计算注意力窗口的中心点为7(即“吃”),布局注意力窗口的中心偏离值固定为3,则局部注意力模窗口的注意力集中在“人|,|喜欢|吃|中国|菜|。”
此时,注意力较为分散,所以生成了“eating”之后,覆盖了较大周围的词,对后续生成的词造成了负面影响。
若应用本发明实施例的局部注意力模型,生成了如下翻译:
I am a Chinese,like eating Chines food.
在第6时刻,即生成“like”的时候,计算注意力窗口的起始点为6(即“喜欢”)及窗口长度为3(即“中国”),则局部注意力模窗口的注意力集中在“|喜欢|吃|中国|”。
此时,注意力更为集中,所以生成了“eating”之后,后续翻译还会注意周围的词,翻译也更准确。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明一个实施例的一种文本处理系统的结构框图,具体可以包括如下模块:
源文本接收模块301,用于接收源文本,所述源文本具有多个源词;
向量编码模块302,用于调用编码器将所述多个源词编码为多个向量;
中心偏差值确定模块303,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
局部注意力窗口确定模块304,用于采用所述中心偏差值确定局部注意力窗口;
向量解码模块305,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
在本发明的一个实施例中,所述中心偏差值确定模块303包括:
隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;
位置半值确定子模块,用于依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
在本发明的一个实施例中,所述位置半值确定子模块包括:
权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
向上取整单元,用于对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
在本发明的一个实施例中,所述局部注意力窗口确定模块304包括:
中心点确认子模块,用于确定在解码所述第t个目标词时、局部注意力窗口的中心点;
第一端点值设置子模块,用于将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;
第二端点值设置子模块,用于将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;
局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的中心偏差值,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
参照图4,示出了本发明一个实施例的另一种文本处理系统的结构框图,具体可以包括如下模块:
源文本接收模块401,用于接收源文本,所述源文本具有多个源词;
向量编码模块402,用于调用编码器将所述多个源词编码为多个向量;
窗口参数确定模块403,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
局部注意力窗口确定模块404,用于采用所述起始点和所述窗口长度确定局部注意力窗口;
向量解码模块405,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
在本发明的一个实施例中,所述窗口参数确定模块403包括:
隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;
起始点确定子模块,用于依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;
窗口长度确定子模块,用于依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
在本发明的一个实施例中,所述起始点确定子模块包括:
第一权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
第一非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
第一非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
第一向下取整单元,用于对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
在本发明的一个实施例中,所述窗口长度确定子模块包括:
第二权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
第二非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
第二非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
第二向下取整单元,用于对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;
其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。
在本发明的一个实施例中,所述局部注意力窗口确定模块404包括:
第一端点值设置子模块,用于将所述起始点设置为第一端点值;
第二端点值设置子模块,用于将所述起始点与所述窗口长度之间的和值,设置为第二端点值;
局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例在编码-解码架构中引入局部注意力模型,调用编码器对于接收的源文本中的多个源词编码为多个向量,当解码第t个目标词时,根据源文本确定局部注意力窗口的起始点和窗口长度,据此确定局部注意力窗口,调用解码器依据位于局部注意力窗口中的向量解码出第t个目标词,自适应源文本的情况,通过数据训练的方式确定局部注意力窗口的中心偏差值,使得可以基于源文本的情况合理地调整局部注意力窗口的大小,源文本与局部注意力窗口相适配,合理地在局部注意力窗口中集中注意力,避免局部注意力窗口中注意力过于集中或过于分散,从而提高了诸如翻译等业务处理的质量。
图5是根据一示例性实施例示出的一种用于文本处理的装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本处理的方法,所述方法包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
采用所述中心偏差值确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
可选地,所述根据所述源文本计算局部注意力窗口的中心偏差值的步骤包括:
获取在解码所述第t个目标词时、解码器的隐层状态;
依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
可选地,所述依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
可选地,所述采用所述中心偏差值确定局部注意力窗口的步骤包括:
确定在解码所述第t个目标词时、局部注意力窗口的中心点;
将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;
将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;
将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种文本处理的方法,所述方法包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
采用所述起始点和所述窗口长度确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。
可选地,所述根据所述源文本计算局部注意力窗口的起始点和窗口长度的步骤包括:
获取在解码所述第t个目标词时、解码器的隐层状态;
依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;
依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
可选地,所述依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
可选地,所述依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;
其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。
可选地,所述采用所述起始点和所述窗口长度确定局部注意力窗口的步骤包括:
将所述起始点设置为第一端点值;
将所述起始点与所述窗口长度之间的和值,设置为第二端点值;
将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明实施例公开了A1、一种文本处理方法,包括:接收源文本,所述源文本具有多个源词;调用编码器将所述多个源词编码为多个向量;当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;采用所述中心偏差值确定局部注意力窗口;调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。A2、根据A1所述的方法,所述根据所述源文本计算局部注意力窗口的中心偏差值的步骤包括:获取在解码所述第t个目标词时、解码器的隐层状态;依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。A3、根据A2所述的方法,所述依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值的步骤包括:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。A4、根据A1或A2或A3所述的方法,所述采用所述中心偏差值确定局部注意力窗口的步骤包括:确定在解码所述第t个目标词时、局部注意力窗口的中心点;将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
本发明实施例还公开了B5、一种文本处理方法,包括:接收源文本,所述源文本具有多个源词;调用编码器将所述多个源词编码为多个向量;当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;采用所述起始点和所述窗口长度确定局部注意力窗口;调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。B6、根据B5所述的方法,所述根据所述源文本计算局部注意力窗口的起始点和窗口长度的步骤包括:获取在解码所述第t个目标词时、解码器的隐层状态;依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。B7、根据B6所述的方法,所述依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点的步骤包括:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。B8、根据B6或B7所述的方法,所述依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度的步骤包括:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。B9、根据B5或B6或B7或B8所述的方法,所述采用所述起始点和所述窗口长度确定局部注意力窗口的步骤包括:将所述起始点设置为第一端点值;将所述起始点与所述窗口长度之间的和值,设置为第二端点值;将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
本发明实施例还公开了C10、一种文本处理系统,包括:源文本接收模块,用于接收源文本,所述源文本具有多个源词;向量编码模块,用于调用编码器将所述多个源词编码为多个向量;中心偏差值确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;局部注意力窗口确定模块,用于采用所述中心偏差值确定局部注意力窗口;向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。C11、根据C10所述的系统,所述中心偏差值确定模块包括:隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;位置半值确定子模块,用于依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。C12、根据C11所述的系统,所述位置半值确定子模块包括:权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;向上取整单元,用于对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。C13、根据C10或C11或C12所述的系统,所述局部注意力窗口确定模块包括:中心点确认子模块,用于确定在解码所述第t个目标词时、局部注意力窗口的中心点;第一端点值设置子模块,用于将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;第二端点值设置子模块,用于将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
本发明实施例还公开了D14、一种文本处理系统,包括:源文本接收模块,用于接收源文本,所述源文本具有多个源词;向量编码模块,用于调用编码器将所述多个源词编码为多个向量;窗口参数确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;局部注意力窗口确定模块,用于采用所述起始点和所述窗口长度确定局部注意力窗口;向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。D15、根据D14所述的系统,所述窗口参数确定模块包括:隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;起始点确定子模块,用于依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;窗口长度确定子模块,用于依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。D16、根据D15所述的系统,所述起始点确定子模块包括:第一权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;第一非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;第一非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;第一向下取整单元,用于对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。D17、根据D15或D16所述的系统,所述窗口长度确定子模块包括:第二权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;第二非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;第二非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;第二向下取整单元,用于对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。D18、根据D14或D15或D16或D17所述的系统,所述局部注意力窗口确定模块包括:第一端点值设置子模块,用于将所述起始点设置为第一端点值;第二端点值设置子模块,用于将所述起始点与所述窗口长度之间的和值,设置为第二端点值;局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
本发明实施例还公开了E19、一种用于文本处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收源文本,所述源文本具有多个源词;调用编码器将所述多个源词编码为多个向量;当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;采用所述中心偏差值确定局部注意力窗口;调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。E20、根据E19所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取在解码所述第t个目标词时、解码器的隐层状态;依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。E21、根据E20所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。E22、根据E19或E20或E21所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定在解码所述第t个目标词时、局部注意力窗口的中心点;将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
本发明实施例还公开了F23、一种用于文本处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收源文本,所述源文本具有多个源词;调用编码器将所述多个源词编码为多个向量;当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;采用所述起始点和所述窗口长度确定局部注意力窗口;调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词。F24、根据F23所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取在解码所述第t个目标词时、解码器的隐层状态;依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。F25、根据F24所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。F26、根据F24或F25所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。F27、根据F23或F24或F25或F26所述的装置,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将所述起始点设置为第一端点值;将所述起始点与所述窗口长度之间的和值,设置为第二端点值;将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。

Claims (23)

1.一种文本处理方法,其特征在于,包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
采用所述中心偏差值确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,所述根据所述源文本计算局部注意力窗口的中心偏差值的步骤包括:
获取在解码所述第t个目标词时、解码器的隐层状态;
依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
2.根据权利要求1所述的方法,其特征在于,所述依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
3.根据权利要求1或2所述的方法,其特征在于,所述采用所述中心偏差值确定局部注意力窗口的步骤包括:
确定在解码所述第t个目标词时、局部注意力窗口的中心点;
将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;
将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;
将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
4.一种文本处理方法,其特征在于,包括:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
采用所述起始点和所述窗口长度确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,所述根据所述源文本计算局部注意力窗口的起始点和窗口长度的步骤包括:
获取在解码所述第t个目标词时、解码器的隐层状态;
依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;
依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
5.根据权利要求4所述的方法,其特征在于,所述依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
6.根据权利要求4或5所述的方法,其特征在于,所述依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度的步骤包括:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。
7.根据权利要求4-5任一项所述的方法,其特征在于,所述采用所述起始点和所述窗口长度确定局部注意力窗口的步骤包括:
将所述起始点设置为第一端点值;
将所述起始点与所述窗口长度之间的和值,设置为第二端点值;
将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
8.一种文本处理系统,其特征在于,包括:
源文本接收模块,用于接收源文本,所述源文本具有多个源词;
向量编码模块,用于调用编码器将所述多个源词编码为多个向量;
中心偏差值确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
局部注意力窗口确定模块,用于采用所述中心偏差值确定局部注意力窗口;
向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,所述中心偏差值确定模块包括:
隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;
位置半值确定子模块,用于依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
9.根据权利要求8所述的系统,其特征在于,所述位置半值确定子模块包括:
权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
向上取整单元,用于对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
10.根据权利要求8-9任一项所述的系统,其特征在于,所述局部注意力窗口确定模块包括:
中心点确认子模块,用于确定在解码所述第t个目标词时、局部注意力窗口的中心点;
第一端点值设置子模块,用于将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;
第二端点值设置子模块,用于将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;
局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
11.一种文本处理系统,其特征在于,包括:
源文本接收模块,用于接收源文本,所述源文本具有多个源词;
向量编码模块,用于调用编码器将所述多个源词编码为多个向量;
窗口参数确定模块,用于当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
局部注意力窗口确定模块,用于采用所述起始点和所述窗口长度确定局部注意力窗口;
向量解码模块,用于调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,所述窗口参数确定模块包括:
隐层状态获取子模块,用于获取在解码所述第t个目标词时、解码器的隐层状态;
起始点确定子模块,用于依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;
窗口长度确定子模块,用于依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
12.根据权利要求11所述的系统,其特征在于,所述起始点确定子模块包括:
第一权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
第一非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
第一非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
第一向下取整单元,用于对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
13.根据权利要求11或12所述的系统,其特征在于,所述窗口长度确定子模块包括:
第二权值矩阵配置单元,用于对所述隐层状态配置权值矩阵;
第二非线性激活单元,用于对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
第二非线性变换单元,用于对所述激活信息进行非线性变换,获得特征值;
第二向下取整单元,用于对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。
14.根据权利要求11-12任一项所述的系统,其特征在于,所述局部注意力窗口确定模块包括:
第一端点值设置子模块,用于将所述起始点设置为第一端点值;
第二端点值设置子模块,用于将所述起始点与所述窗口长度之间的和值,设置为第二端点值;
局部注意力窗口设置子模块,用于将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
15.一种用于文本处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的中心偏差值;
采用所述中心偏差值确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取在解码所述第t个目标词时、解码器的隐层状态;
依据所述隐层状态确定在所述源文本中注意力集中的位置的一半,作为局部注意力窗口的中心偏差值。
16.根据权利要求15所述的装置,其特征在于,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对所述隐层状态配置权值矩阵;
对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;
对所述激活信息进行非线性变换,获得特征值;
对所述源文本的文本长度与所述特征值之间乘积的一半向上取整,获得局部注意力窗口的中心偏差值。
17.根据权利要求15-16任一项所述的装置,其特征在于,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定在解码所述第t个目标词时、局部注意力窗口的中心点;
将所述中心点与所述中心偏差值之间的差值,设置为第一端点值;
将所述中心点与所述中心偏差值之间的和值,设置为第二端点值;
将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
18.一种用于文本处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源文本,所述源文本具有多个源词;
调用编码器将所述多个源词编码为多个向量;
当解码第t个目标词时,根据所述源文本计算局部注意力窗口的起始点和窗口长度;
采用所述起始点和所述窗口长度确定局部注意力窗口;
调用解码器依据位于所述局部注意力窗口中源词,将所述向量解码出所述第t个目标词;
其中,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取在解码所述第t个目标词时、解码器的隐层状态;依据所述隐层状态确定在所述源文本中注意力开始集中的位置,作为局部注意力窗口的起始点;依据所述隐层状态确定在所述起始点之后注意力集中的位置,作为局部注意力窗口的窗口长度。
19.根据权利要求18所述的装置,其特征在于,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对所述源文本的文本长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的起始点。
20.根据权利要求18或19所述的装置,其特征在于,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对所述隐层状态配置权值矩阵;对所述配置权值矩阵的隐层状态进行非线性激活并配置权值矩阵,获得激活信息;对所述激活信息进行非线性变换,获得特征值;对剩余长度与所述特征值之间的乘积向下取整,获得局部注意力窗口的窗口长度;其中,所述剩余长度与所述源文本的文本长度与所述起始点之间差值。
21.根据权利要求18-19任一项所述的装置,其特征在于,还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将所述起始点设置为第一端点值;将所述起始点与所述窗口长度之间的和值,设置为第二端点值;将所述第一端点值与所述第二端点值之间的区域,设置为局部注意力窗口。
22.一种存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如方法权利要求1-3中一个或多个所述的文本处理的方法。
23.一种存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如方法权利要求4-7中一个或多个所述的文本处理的方法。
CN201710602813.1A 2017-07-21 2017-07-21 一种文本处理方法、系统和一种用于文本处理的装置 Active CN109284509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710602813.1A CN109284509B (zh) 2017-07-21 2017-07-21 一种文本处理方法、系统和一种用于文本处理的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710602813.1A CN109284509B (zh) 2017-07-21 2017-07-21 一种文本处理方法、系统和一种用于文本处理的装置

Publications (2)

Publication Number Publication Date
CN109284509A CN109284509A (zh) 2019-01-29
CN109284509B true CN109284509B (zh) 2022-10-14

Family

ID=65185305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710602813.1A Active CN109284509B (zh) 2017-07-21 2017-07-21 一种文本处理方法、系统和一种用于文本处理的装置

Country Status (1)

Country Link
CN (1) CN109284509B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111238A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的极端行为识别方法与装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620666A (zh) * 2001-12-20 2005-05-25 西门子公司 借助功能性磁共振层析成像所获得的脑图像的分析处理
CN104216993A (zh) * 2014-09-10 2014-12-17 武汉科技大学 一种标签共现的标签聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203811A (ja) * 2010-03-24 2011-10-13 Fujifilm Corp 画像処理装置、画像処理方法、画像処理プログラム、及び複眼デジタルカメラ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620666A (zh) * 2001-12-20 2005-05-25 西门子公司 借助功能性磁共振层析成像所获得的脑图像的分析处理
CN104216993A (zh) * 2014-09-10 2014-12-17 武汉科技大学 一种标签共现的标签聚类方法

Also Published As

Publication number Publication date
CN109284509A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
US20210042474A1 (en) Method for text recognition, electronic device and storage medium
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
CN107692997B (zh) 心率检测方法及装置
CN110619350B (zh) 图像检测方法、装置及存储介质
CN110889469A (zh) 图像处理方法及装置、电子设备和存储介质
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN110941966A (zh) 机器翻译模型的训练方法、装置及系统
CN108881952B (zh) 视频生成方法及装置、电子设备和存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
CN110781813A (zh) 图像识别方法及装置、电子设备和存储介质
CN107801282B (zh) 台灯、台灯控制方法及装置
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN106782576B (zh) 音频混音方法及装置
CN111382748A (zh) 图像翻译方法、装置及存储介质
CN109992754B (zh) 文档处理方法及装置
CN109284509B (zh) 一种文本处理方法、系统和一种用于文本处理的装置
CN110955800A (zh) 视频检索方法及装置
CN109887492B (zh) 一种数据处理方法、装置和电子设备
CN109284510B (zh) 一种文本处理方法、系统和一种用于文本处理的装置
CN110121115B (zh) 精彩视频片段的确定方法及装置
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN108024005B (zh) 信息处理方法、装置、智能终端、服务器和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant