数据处理方法和系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种数据处理方法和系统。
背景技术
随着科学技术的不断发展,人们对于智能技术的依赖也越来越深。特别是在智慧教育这一领域,人工智能也发挥着越来越重要的作用。
人们希望利用解题机器人来对选择型阅读理解题进行准确作答。在选择型阅读理解题中,试题会提供阅读理解文本,并针对该阅读理解问题列出几个问题,每个问题可以具有多个选项,人们希望解题机器人可以从多个选项中选择出该问题的正确答案。
但是,选择型阅读理解题的问题一般是基于阅读理解文本的概括推理问题,如果简单的将选项的词向量与阅读理解文本的词向量进行匹配的方式来选择正确答案,往往会存在答题错误的问题。
因此,相关技术中的解题机器人难以对选择型阅读理解题进行准确作答。
发明内容
本发明提供了一种数据处理方法和系统,以解决相关技术中的解题机器人难以对选择型阅读理解题进行准确作答的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种数据处理方法,包括:
接收阅读理解文本、与所述阅读理解文本对应的题干文本、与所述题干文本对应的多个选项文本;
根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系;
根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
根据本发明的另一方面,本发明还公开了一种数据处理系统,包括:
接收模块,用于接收阅读理解文本、与所述阅读理解文本对应的题干文本、与所述题干文本对应的多个选项文本;
第一识别模块,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系;
第二识别模块,用于根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
根据本发明的再一方面,本发明还公开了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上述任一项所述的数据处理方法的步骤。
根据本发明的又一方面,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上述任一项所述的数据处理方法中的步骤。
与现有技术相比,本发明包括以下优点:
这样,本发明实施例依据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系,从而将文本匹配转换到了向量空间之间的匹配,并根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出,能够利用选项、题干、篇章之间在高维向量空间的匹配关系,结合端到端的深度学习方法,提升对选择型阅读理解题的作答准确度。
附图说明
图1是本发明的一种数据处理系统实施例的结构框图;
图2是本发明的一种数据处理方法实施例的步骤流程图;
图3是本发明的一种向量表示模块实施例的工作流程图;
图4是本发明的一种向量匹配计算模块实施例的工作流程图;
图5是本发明的一种答案计算模块实施例的工作流程图;
图6是本发明的另一种数据处理系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种数据处理系统实施例的结构框图,具体可以包括如下模块:
向量表示模块,用于将外部输入的文本转化成向量表示。
其中,输入的文本可以包括阅读理解文本(即下文的“篇章”)、与所述阅读理解文本对应的题干文本(即下文的“问题”)、与所述题干文本对应的多个选项文本(多个选项文本中的任意一个选项文本即下文的“选项”)。
举例来说,当输入问题的文本,通过该向量表示模块的处理,就可以得到问题文本的向量表示。
向量匹配计算模块,用于识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系;
答案计算模块,用于根据至少两个语义匹配关系,识别每个选项作为问题的正确答案的概率,并输出正确选项。
参照图2,示出了本发明的一种数据处理方法实施例的步骤流程图,这里结合图1所示的数据处理系统,来对本发明实施例的数据处理方法进行详细阐述,该方法具体可以包括如下步骤:
向量表示模块用于执行步骤101和步骤102。
步骤101,接收阅读理解文本、与所述阅读理解文本对应的题干文本、与所述题干文本对应的多个选项文本;
其中,可以将待作答的选择型阅读理解题的阅读理解文本(即篇章)、该篇章的问题、针对该问题的多个选项,分别输入至向量表示模块,这样,向量表示模块就可以分别接收到阅读理解文本、与所述阅读理解文本对应的题干文本、与所述题干文本对应的多个选项文本。其中,需要注意的是输入到向量表示模块的文本都是TXT文本。
另外,本发明实施例的作答的选择型阅读理解题可以是中文也可以是英文,本发明对于选择型阅读理解题的语种并不做限制。
可选地,步骤102,获取所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征;
其中,一个文本的文本特征可以是该文本中的各个词的原始词向量而构成的向量,也可以是由包含上下文信息的词向量而构成的向量。
其中,该文本可以是上述阅读理解文本、题干文本、任意一个选项文本这三者中的任意一个。
在本发明实施例中,第一文本特征可以记为第一篇章向量HS,第二文本特征可以记为第一问题向量HQ,所述多个选项文本中的任意一个选项文本的第三文本特征可以记为第一选项向量HC;
其中,向量表示模块可以对接收到任意一个TXT文本,来获取该TXT文本的向量表示。
可选地,在一个实施例中,在执行步骤102时,可以通过S601来实现:
S601,获取所述阅读理解文本的第一词向量、所述题干文本的第二词向量、所述多个选项文本中的任意一个选项文本的第三词向量。
这里的第一词向量即为第一篇章向量HS,第二词向量即为第一问题向量HQ,第三词向量即为第一选项向量HC。该步骤的具体阐述参见下述实施例的S601的阐述,这里不再赘述。
可选地,在另一个实施例中,在执行步骤102时,还可以通过S601和S602来实现:
S601,获取所述阅读理解文本的第一词向量、所述题干文本的第二词向量、所述多个选项文本中的任意一个选项文本的第三词向量;
其中,第一词向量包括阅读理解文本中每个分词的原始词向量;
第二词向量包括题干文本中每个分词的原始词向量;
第三词向量包括上述任意一个选项文本中每个分词的原始词向量。
其中,本发明实施例可以采用任意一种词向量提取方法来执行S601,这样,就可以提取到篇章、问题及选项的原始词向量。
本发明对于原始词向量表示方法不做过多限制,可使用one-hot或词嵌入方法等方法;此外,本发明对于向量单元也不做过多限制,可使用词向量单元、字符向量单元。
参照图3,本实施例以词嵌入方法为例来对获取文本的原始词向量进行说明。
首先,本发明实施例预先可以统计出词表,该词表中为每个词(包括标点符号)进行ID编号(即编号index),此外,本发明实施例还预先生成有词嵌入表,该词嵌入表包括词表中每个ID编号的词对应的词向量。
当文本(篇章、问题及选项中的任意一种)输入到向量表示模块后(其中,输入到向量表示模块的文本可以是经过分词处理的多个分词,也可以是未经过分词处理的TXT文本),向量表示模块在接收到输入文本后,如果输入的文本未经过分词处理,则对其进行分词处理,得到文本的多个分词,如图3所示的多个分词W1、W2、W3、W4;
需要说明的是,这里的分词并非指代语法意义的“介词、动词、分词”中的分词,而是从文本中拆分出的单个词。
然后,向量表示模块通过查找词表,来将每个分词转化为对应词的ID编号,多个分词W1、W2、W3、W4的ID编号依次为1、2、3、4;接着,向量表示模块再从词嵌入列表中查找对应的ID编号,从而获取每个分词对应的原始词向量。
例如,输入的问题为“what dose the passage mainly talk about?”,其分词处理后的多个分词分别为“what”、“dose”、“the”、“passage”、“mainly”、“talk”、“about”、“?”。首先通过词表(词表中存放着[词-ID]对)将每个词转变成对应的编号index,例如Vindex=[2,4,5,6,8,10,7,3],Vindex的每个编号index代表每个词在词表中的位置,下一步通过词嵌入列表(词嵌入列表中存放着[index-向量]对)将Vindex中的每个编号index转换成对应的原始词向量v,得到这个问题文本的原始词向量V={v1,v2,v3,...,v8},同理可得篇章的原始词向量,以及该问题的任意一个选项的原始词向量。
例如输入的篇章的原始词向量可以表示为VS={v1,v2,v3 .. vi .. vs},问题的原始词向量可以表示为VQ={v1,v2,v3 .. vj .. vq},该问题的某个选项的原始词向量可以表示为VC={v1,v2,v3 .. vk .. vc},其中vi,vj,vk分别表示篇章、问题及选项中每个分词的原始词向量,s表示篇章的长度(即,篇章中所包含的分词总数量),q表示问题的长度(即,问题中所包含的分词总数量),c表示选项的长度(即,选项中所包含的分词总数量),S、Q及C分别表示篇章、问题及选项。后续下文中对于长度的定义同这里的描述,因此后续不再赘述。
其中,经过S601转换得到的每个分词的词向量都是p维度的,即词向量大小为p。那么篇章的原始词向量(即第一词向量)为大小为(s,p)的矩阵,其中s代表篇章的长度,p表示词向量的维度;问题的原始词向量(即第二词向量)为大小为(q,p)的矩阵,其中q代表问题的长度,p表示词向量的维度;任意一个选项的原始词向量(即第三词向量)为大小为(c,p)的矩阵,其中c代表选项的长度,p表示词向量的维度。
S602,将所述第一词向量、所述第二词向量、所述第三词向量,分别输入至预先经过训练的循环神经网络模型,得到所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征;
具体而言,可以将文本的多个分词的多个原始词向量,按照所述多个分词在所述文本中的排列顺序,依次输入至预先经过训练的循环神经网络模型,得到包含所述文本的上下文信息的多个目标词向量,其中,所述多个目标词向量的集合为表示所述文本的文本特征;
其中,当所述文本为所述阅读理解文本时,即所述多个原始词向量为第一词向量,那么所述多个目标词向量的集合为所述阅读理解文本的第一文本特征,记为第一篇章向量HS;
当所述文本为所述题干文本时,即所述多个原始词向量为第二词向量,那么所述多个目标词向量的集合为所述题干文本的第二文本特征,记为第一问题向量HQ;
当所述文本为所述多个选项文本中的任意一个选项文本时,即所述多个原始词向量为第三词向量,所述多个目标词向量的集合为所述选项文本第三文本特征,记为第一选项向量HC。
由于S601得到的每个分词的原始词向量只是某个词的向量表示,该向量表示并没有体现出该分词的上下文信息,因此,S602需要对原始词向量进行进一步向量转换,使得转换后的每个词向量包括上下文信息。
具体如图3所示,可以将S601得到的篇章、问题及选项的原始词向量分别输入循环神经网络,从而输出得到篇章的包含上下文信息的新的向量表示,问题的包含上下文信息的新的向量表示,以及选项的包含上下文信息的新的向量表示。
以篇章为例,向预先经过训练的循环神经网络(RNN)输入篇章的原始词向量VS,即大小为(s,p)的矩阵,其中s代表篇章的长度,p表示词向量的维度。
篇章中每个词的词向量通过RNN(训练过的)都会得到一个新的向量表示,该新的向量表示包含前面已经输入的词的信息(上文信息)。
RNN对输入的任意一个原始词向量的计算方法为利用公式1进行计算:
Hi=Wh*Hi-1+Wp*vi+b1,公式1;
其中,Hi-1是上个输出的隐藏状态,Wh为RNN的大小为(h,h)的权值矩阵,Wp为RNN的大小为(p,p)的权值矩阵,其中,p为原始词向量的维度,h为新的词向量的维度,b1为偏置值;RNN经过训练上述两个权值矩阵以及偏置b1设置有合适的数值,vi是当前的输入的一个分词的原始词向量;篇章中所有分词的原始词向量都按照多个分词在所述篇章中的排列顺序依次输入到RNN后,经过RNN按照公式1计算可以得到并输出篇章的新的向量表示HS={H1,H2,H3,...,Hi,...Hs},其中Hi为篇章中每个分词的新的向量表示(即目标词向量),HS大小为(s,h),HS为多个目标词向量的集合。经过S602,每个分词的新的词向量的维度从p变为h。
同理,问题以及选项的原始词向量通过循环神经网络也可以得到包含上下文信息的新的向量表示HQ,HC,它们的大小分别为(q,h)、(c,h),其中s表示篇章的长度,q表示问题的长度,c表示选项的长度,S、Q及C分别表示篇章、问题及选项。
本发明实施例通过RNN处理篇章、问题以及选项的原始词向量的目的在于,可以对输入的文本信息进行语义上的建模,简单的讲就是让计算出的新的向量表示可以更充分地表示出文本信息,类似于对文本做一个初步的阅读。
另外,上述RNN也可以替换为LSTM(长短期记忆网络)等其他循环神经网络。
这样,经过向量表示模块对输入的篇章、问题、选项的步骤101和步骤102的处理,就可以得到所述阅读理解文本的第一文本特征HS、所述题干文本的第二文本特征HQ、所述多个选项文本中的任意一个选项文本的第三文本特征HC。
步骤103,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系;
其中,图1所示的向量匹配计算模块可以利用上述三个向量HS、HQ、HC来识别上述至少两个语义匹配关系。
其中,当该语义匹配关系为两个时,则两个语义匹配关系可以分别为所述选项文本与所述阅读理解文本之间的语义匹配关系,以及所述选项文本与所述题干文本之间的语义匹配关系;
当该语义匹配关系为三个时,则三个语义匹配关系分别为阅读理解文本与题干文本之间的语义匹配关系、阅读理解文本与选项文本之间的语义匹配关系、题干文本与选项文本之间的语义匹配关系。
步骤104,根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
其中,对于任意一个选项文本,都可以通过步骤103识别到所述至少两个语义匹配关系,那么本步骤可以利用每个选项文本的至少两个语义匹配关系,来识别多个选项文本中作为题干文本的正确答案的目标选项文本,并输出该目标选项文本。
如图1所示,答案计算模块可以根据来自向量匹配计算模块的每个选项文本的至少两个语义匹配关系,来识别多个选项文本中座位正确答案的选择,并输出正确选项。
这样,本发明实施例依据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系,从而将文本匹配转换到了向量空间之间的匹配,并根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出,能够利用选项、题干、篇章之间在高维向量空间的匹配关系,结合端到端的深度学习方法,提升对选择型阅读理解题的作答准确度。
可选地,在实施例一中,在执行步骤103时,可以通过以下S31来实现:
S31,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第一矩阵M’1、第二矩阵M’2,其中,M’1表示所述选项文本与所述阅读理解文本之间的语义匹配关系,M’2表示所述选项文本与所述题干文本之间的语义匹配关系;
也就是说,根据所述第一选项向量HC、所述第一问题向量HQ以及所述第一篇章向量HS,获取第一矩阵M’1、第二矩阵M’2。
那么在执行步骤104时,则可以通过S41来实现:
S41,根据所述第一矩阵M’1和所述第二矩阵M’2,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
这样,本发明实施例利用所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来获取表示所述选项文本与所述阅读理解文本之间的语义匹配关系,以及表示所述选项文本与所述题干文本之间的语义匹配关系,并利用这两个语义匹配关系,来识别多个选项文本中属于题干文本的正确答案的目标选项文本,能够在向量空间匹配的维度,提升解题准确率。
在一个实施例中,图4示出了向量匹配计算模块计算选项与篇章之间的语义匹配关系M’1、选项与问题之间的语义匹配关系M’2的流程。
可选地,在一个实施例中,在执行S31时,可以通过以下S311~S313来实现:
S311,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第二选项向量H’C-Q、第三选项向量H’C-S以及第二题干向量H’Q-S;
也就是说,根据所述第一选项向量HC、所述第一问题向量HQ以及所述第一篇章向量HS,获取包含题干文本信息的第二选项向量H’C-Q、包含阅读理解文本信息的第三选项向量H’C-S以及包含阅读理解文本信息的第二题干向量H’Q-S;
其中,所述第二选项向量H’C-Q表示所述题干文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第三选项向量H’C-S表示所述阅读理解文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第二题干向量H’Q-S表示所述阅读理解文本中被所述题干文本抽取出的重要信息,与所述题干文本之间的对比关系;
具体而言,如图4所示,向量匹配计算模块接收到向量表示模块输入的选项向量HC、问题向量HQ以及篇章向量HS,来获取包含问题信息(即题干文本信息)的选项向量H’C-Q,包含篇章信息的选项向量H’C-S,以及包含篇章信息的问题向量H’Q-S。
S312,计算所述第二选项向量H’C-Q与所述第二题干向量的转置(H’Q-S)T的内积,得到第一矩阵M’1,M’1表示所述选项文本与所述阅读理解文本之间的语义匹配关系;
其中,如图4所示,可以计算包含问题信息的选项向量H’C-Q与包含篇章信息的问题向量H’Q-S的转置(H’Q-S)T的内积,从而得到选项与篇章的概括推理矩阵M’1,公式为:M’1=H’C-Q*(H’Q-S)T,*表示矩阵乘,T表示转置;
S313,计算所述第三选项向量H’C-S与所述第二题干向量的转置(H’Q-S)T的内积,得到第二矩阵M’2,M’2表示所述选项文本与所述题干文本之间的语义匹配关系。
其中,如图4所示,可以计算包含篇章信息的选项向量H’C-S与包含篇章信息的问题向量H’Q-S的转置(H’Q-S)T的内积,从而得到选项与问题的概括推理矩阵M’2,公式为:M’2=H’C-S*(H’Q-S)T,*表示矩阵乘,T表示转置。
其中,S312和S313相当于对H’C-Q,H’C-S以及H’Q-S做一个更高层次的匹配。这两个概括推理矩阵M’1、M’2包含文本之间的高度抽象的语义匹配关系,同时也将相关技术中只是通过简单的字符级别的文本匹配转换到了向量空间之间的匹配。
另外,本发明对于S312和S313之间的执行顺序并不做具体限制,且两个步骤的执行原理类似,互相参考即可。
可选地,在执行步骤S311时,可以通过S201~S204来实现:
S201,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,计算第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S;
也就是说,根据所述第一选项向量HC、所述第一问题向量HQ以及所述第一篇章向量HS,计算第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S;
其中,所述第一信息抽取矩阵MC-Q表示所述选项文本与所述题干文本之间的相关程度;
所述第二信息抽取矩阵MC-S表示所述选项文本与所述阅读理解文本之间的相关程度;
所述第三信息抽取矩阵MQ-S表示所述题干文本与所述阅读理解文本之间的相关程度;
可选地,在执行S201时,可以通过S21~S23来实现:
S21,获取所述第三文本特征和所述第二文本特征的内积,得到第一信息抽取矩阵MC-Q;
即,获取所述第一选项向量HC和所述第一问题向量HQ的内积,得到第一信息抽取矩阵MC-Q;
具体如图4所示,将选项向量与问题向量作dot(内积)运算,得到选项与问题之间的信息抽取矩阵MC-Q。
输入为选项、问题的向量表示HC和HQ,两个向量表示的矩阵大小分别为(c,h)、(q,h),由于矩阵乘法运算(即内积)中第一个矩阵的列数必须等于第二个矩阵的行数,因此,可以MC-Q=HC*(HQ)T,*代表矩阵相乘,T代表矩阵转置。因此信息抽取矩阵MC-Q的大小为(c,q)。
S22,获取所述第三文本特征和所述第一文本特征的内积,得到第二信息抽取矩阵MC-S;
即,获取所述第一选项向量HC和所述第一篇章向量HS的内积,得到第二信息抽取矩阵MC-S;
与S21同理,可以获取得到选项与篇章的信息抽取矩阵MC-S,矩阵大小为(c,s)。
S23,获取所述第二文本特征和所述第一文本特征的内积,得到第三信息抽取矩阵MQ-S。
即,获取所述第一问题向量HQ和所述第一篇章向量HS的内积,得到第三信息抽取矩阵MQ-S。
与S21同理,可以获取得到问题与篇章的信息抽取矩阵MQ-S,矩阵大小为(q,s)。
本发明实施例通过计算问题、篇章以及选项之间的三个信息抽取矩阵,可以从向量的角度表示出问题、篇章及选项它们两两之间的相关联的内容。因为如果两个词语义相近,则它们的空间距离会近,那么矩阵乘法运算得到的结果数值会比较大或比较小,从而可以根据矩阵乘法运算结果来确定选项与问题中各个词之间的相关程度、选项与篇章中各个词之间的相关程度,以及问题与篇章中各个词之间的相关程度,就像用户在读一个篇章时会注意与问题以及选项相关的内容,因为这些内容直接决定这个选项是否能够回答这个问题。
其中,本发明对于S21~S23中的三个步骤的具体执行顺序并不做具体限制,此外,本发明对于S202~S204中的三个步骤的具体执行顺序也并不做具体限制。
S202,根据所述第三文本特征、所述第二文本特征以及所述第一信息抽取矩阵MC-Q,获取第二选项向量H’C-Q;
即,根据所述第一选项向量HC、所述第一问题向量HQ以及所述第一信息抽取矩阵MC-Q,计算包含题干文本信息的第二选项向量H’C-Q;
S203,根据所述第三文本特征、所述第一文本特征以及所述第二信息抽取矩阵MC-S,获取第三选项向量H’C-S;
即,根据所述第一选项向量HC、所述第一篇章向量HS以及所述第二信息抽取矩阵MC-S,计算包含阅读理解文本信息的第三选项向量H’C-S;
S204,根据所述第二文本特征、所述第一文本特征以及所述第三信息抽取矩阵MQ-S,获取第二题干向量H’Q-S。
即,根据所述第一问题向量HQ、所述第一篇章向量HS以及所述第三信息抽取矩阵MQ-S,计算包含阅读理解文本信息的第二题干向量H’Q-S。
可选地,在一个实施例中,在执行S202时,可以通过S301~S303来实现:
S301,在所述第一信息抽取矩阵MC-Q的题干维度,通过softmax函数对所述第一信息抽取矩阵MC-Q作归一化处理,得到归一化矩阵softmax(MC-Q);
其中,矩阵MC-Q表达了选项中各个词与问题的各个词的语义匹配值,但是这些语义匹配值容易很大,所以可以softmax归一化处理,将语义匹配值转换为一个概率分布。
其中,由于矩阵MC-Q的大小为(c,q),因此,矩阵MC-Q一列数据表示问题中的一个分词对选项中的每个分词的语义匹配值。所以,在MC-Q的问题长度(q)这一维度(即题干维度)作归一化处理,即,这里对矩阵MC-Q中的每列数据均做归一化处理,使得一列数据的和为1,得到归一化矩阵softmax(MC-Q),其大小仍旧为(c,q)。
归一化矩阵softmax(MC-Q)中的一列数据可以表示问题中的一个词对选项中的每个词的匹配概率。因此,这里通过归一化处理,可以将问题中每个分词对选项中的每个分词的语义匹配值转化为一个概率分布,从而可以计算出问题中每个词对选项中每个词的匹配概率,这个匹配概率表示问题中的每个词对选项中每个词的相关程度。
S302,计算所述归一化矩阵softmax(MC-Q)和所述第一问题向量HQ的内积,得到矩阵H’;
其中,参照图4,可以计算H’=softmax(MC-Q)*HQ,其中,归一化矩阵softmax(MC-Q)的大小为(c,q),HQ的大小为(q,h),*代表矩阵乘法,求得大小为(c,h)的矩阵H’。其中,如上所述,两个矩阵相乘的结果可以表示出两个矩阵之间的各个元素之间的相关程度,因此,矩阵H’表示问题被选项抽取出的问题信息矩阵;
其中,softmax(MC-Q)表示问题中的每个词对选项中每个词的匹配概率,那么softmax(MC-Q)与问题向量HQ的内积矩阵H’则可以表示问题被选项抽取出的问题信息矩阵。
S303,将所述第一选项向量HC与所述矩阵H’拼接,得到包含题干文本信息的第二选项向量H’C-Q。
继续参照图4,还可以将dot运算结果(即矩阵H’)与选项向量HC拼接,其中,矩阵H’与选项向量HC这两个矩阵的大小都是(c,h),那么将他们拼接起来之后,则可以得到包含问题信息的选项向量H’C-Q,该选项向量H’C-Q的大小为(c,2h),选项向量H’C-Q表示所述题干文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系,即被选项抽取出来的问题中的重点信息依然要与选项向量放到一起比对,这样类似于人工做阅读理解时将选项与问题中的重点做一一对应。
其中,在将矩阵H’与选项向量HC拼接时,矩阵H’可以排列在选项向量HC之前或之后,本发明对此并不限定。
由于S202、S203与S204的执行原理类似,因此,可以参照上述S202的具体实现实施例(S301~S303)来实现S203和S204。
需要说明的是,在具体实现S203时,在执行S301时,则可以在第二信息抽取矩阵MC-S的篇章维度(即篇章长度S的维度),对MC-S进行归一化处理,进而后续计算包含篇章信息的选项向量H’C-S,矩阵大小为(c,2h);
该选项向量H’C-S表示所述阅读理解文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系,即被选项抽取出来的篇章中的重点信息依然要与选项向量放到一起比对,这样类似于人工做阅读理解时将选项与篇章中的重点做一一对应。
而在具体实现S204时,在执行S301时,则可以在第三信息抽取矩阵MQ-S的篇章维度(即篇章长度S的维度),对MQ-S进行归一化处理,进而后续计算包含篇章信息的问题向量H’Q-S,矩阵大小为(q,2h)。
该问题向量H’Q-S表示所述阅读理解文本中被所述题干文本抽取出的重要信息,与所述题干文本之间的对比关系,即被问题抽取出来的篇章中的重点信息依然要与问题向量放到一起比对,这样类似于人工做阅读理解时将问题与篇章中的重点做一一对应。
S301~S303实施例以及类似实施例相当于人工在做阅读理解的时候,会对篇章、问题中相关的内容做一个汇总,和选项、问题摆在一起做分析对比,最终确定当前选项是否可以作为答案。
可选地,在实施例二中,在执行步骤103时,还可以直接通过上述S311来实现:
S311,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第二选项向量H’C-Q、第三选项向量H’C-S以及第二题干向量H’Q-S。
也就是说,本实施例中阅读理解文本与题干文本之间的语义匹配关系为H’Q-S、阅读理解文本与选项文本之间的语义匹配关系为H’C-S、题干文本与选项文本之间的语义匹配关系为H’C-Q。
其中,所述第二选项向量H’C-Q表示所述题干文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第三选项向量H’C-S表示所述阅读理解文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第二题干向量H’Q-S表示所述阅读理解文本中被所述题干文本抽取出的重要信息,与所述题干文本之间的对比关系。
而S311的具体实现可以参照上述实施例的S201~S204的相关描述,这里不再赘述。
那么在执行步骤104时,则可以通过S42来实现:
根据所述第二选项向量H’C-Q、所述第三选项向量H’C-S、所述第二题干向量H’Q-S,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
这样,本发明实施例利用所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来获取包含题干文本信息的第二选项向量H’C-Q、包含阅读理解文本信息的第三选项向量H’C-S以及包含阅读理解文本信息的第二题干向量H’Q-S,并利用获取的这三个向量,来识别多个选项文本中属于题干文本的正确答案的目标选项文本,能够在向量空间匹配的维度,提升解题准确率。
可选地,在实施例三中,在执行步骤103时,还可以直接通过上述S201来实现:
S201,根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,计算第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S;
也就是说,本实施例中阅读理解文本与题干文本之间的语义匹配关系为第三信息抽取矩阵MQ-S、阅读理解文本与选项文本之间的语义匹配关系为第二信息抽取矩阵MC-S、题干文本与选项文本之间的语义匹配关系为第一信息抽取矩阵MC-Q。
其中,所述第一信息抽取矩阵MC-Q表示所述选项文本与所述题干文本之间的相关程度;
所述第二信息抽取矩阵MC-S表示所述选项文本与所述阅读理解文本之间的相关程度;
所述第三信息抽取矩阵MQ-S表示所述题干文本与所述阅读理解文本之间的相关程度
其中,三个信息抽取矩阵的计算方式可以参照上述实施例的S21、S22和S23,这里不再赘述。
那么在执行步骤104时,则可以通过S43来实现:
S43,根据第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
这样,本发明实施例利用所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来获取三个信息抽取矩阵,并利用获取的这三个信息抽取矩阵,来识别多个选项文本中属于题干文本的正确答案的目标选项文本,能够在向量空间匹配的维度,提升解题准确率。
可选地,在一个实施例中,在执行步骤104时,可以通过以下方式来实现:
S401,根据所述至少两个语义匹配关系,计算所述选项文本的得分;
S402,根据所述多个选项文本的多个得分,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,在执行S401时,可以通过以下S4011~S4013来实现:
S4011,将所述至少两个语义匹配关系分别输入至预先经过训练的第一全连接层进行特征提取,得到与所述至少两个语义匹配关系对应的至少两个第一向量,其中,所述第一向量的题干维度、或、选项维度、或、阅读理解文本维度(即篇章维度)的取值为1;
其中,不同语义匹配关系输入至的第一全连接层可以不同。
S4012,将所述至少两个第一向量分别输入至预先经过训练的第二全连接层进行特征提取,得到与所述至少两个语义匹配关系对应的至少两个得分;
其中,不同第一向量输入至的第二全连接层可以不同。
S4013,计算所述至少两个得分的和,得到所述选项文本的得分。
如图4所示,向量匹配计算模块计算得到实施例一中的概括推理矩阵M’1和M’2之后,输出给答案计算模块。
另外,图1所示的向量匹配计算模块输出的向量匹配矩阵包括上述概括逻辑矩阵M’1和M’2,其中,(篇章+选项)X(问题+篇章)表示概括推理矩阵M’1,(选项+问题)X(问题+篇章)表示概括推理矩阵M’2。
图5示出了对应于上述实施例一的方法的答案计算模块的执行流程图。
答案计算模块在接收到两个概括逻辑矩阵M’1和M’2之后,则本实施例的S4011的具体实现为将所述第一矩阵M’1和所述第二矩阵M’2分别输入至预先经过训练的第一全连接层,在所述第一矩阵M’1和所述第二矩阵M’2的题干维度,分别进行特征提取,得到对应所述第一矩阵M’1的向量O1,以及对应所述第二矩阵M’2的向量O2,其中,向量O1和向量O2的题干维度均为一;
其中,答案计算模块可以包括预先经过训练的两个全连接层,分别为第一全连接层和第二全连接层,其中,第一全连接层用于将输入的矩阵的题干维度转换为1。
如图5所示,可以将选项与篇章的概括推理矩阵M’1(即匹配矩阵1)、选项与问题的概括推理矩阵M’2(即匹配矩阵2),分别输入至预先经过训练的第一全连接层(即全连接神经网络1),从而可以在第一全连接层对概括推理矩阵M’1和M’2分别进行特征抽取,得到该选项的特征压缩后的向量O1、O2。
具体以计算向量O1为例进行说明,概括推理矩阵M’1的大小为(c,q),首先用第一全连接层对该概括推理矩阵M’1的q维度,即问题维度,进行特征抽取,得到向量O1,向量O1的大小为(c,1)。其中,计算公式为O1=M’1*f1+b2,*为矩阵乘,f1为第一全连接层的大小为(q,1)的权值矩阵,b2为第一全连接层的偏置值,需要说明的是,这里(q,1)中的“1”是“一”,不是“L”,使得向量O1只有一列数据。
其中,第一全连接层经过训练后,该第一全连接层的权值矩阵f1以及偏置b2设置有合适的数值。
同理,第一全连接层可以对输入的概括推理矩阵M’2进行特征抽取,得到向量O2,向量O2的大小为(c,1)。其中,第一全连接层进行公式O2=M’2*f1+b2的计算,使得向量O1只有一列数据。
本步骤S4011通过将概括推理矩阵在问题这个维度进行进一步的特征提取,这时选项中每个分词在问题这个维度都会得到一个数值特征。
然后,S4012在本实施例的具体实现可以为将所述向量O1和所述向量O2分别输入至预先经过训练的第二全连接层,进行特征提取,得到所述向量O1的第一得分O1’和所述向量O2的第二得分O2’;
其中,如图5所示,在获取到特征压缩后的向量O1和向量O2后,再将向量O1和向量O2分别输入至预先经过训练的第二全连接层(即全连接神经网络2),第二全连接层对向量O1和向量O2分别进行特征抽取,得到两个得分O1’与O2’。
其中,第二全连接层在进行特征抽取时,具体计算公式为O1’=(f2)T*O1+b3,f2是第二全连接层的大小为(c,1)的权值矩阵,需要说明的是,这里(c,1)中的1是一,不是L,b3为第二全连接层的偏置值,T为转置,使得向量O1’是一个数。
同理可计算得分O2’=(f2)T*O2+b3,使得向量O2’也是一个数。
其中,第二全连接层经过训练后,该第二全连接层的权值矩阵f2以及偏置b3设置有合适的数值。
上述两个全连接层是预先训练的,与前面的RNN没有关系,是整个数据处理系统中的全连接层。
最后,S4013在本实施例的具体实现可以为计算所述第一得分O1’和所述第二得分O2’的和,得到所述选项文本的得分O’。
经过S4012,本步骤可以将选项中每个词对应的匹配特征再做一个最终的结合,最后,如图5所示,计算该选项的最终得分O’=O1’+O2’。
而与上述图5实施例的方法类似,在上述实施例二中,得到的三个语义匹配关系分别为包含题干文本信息的第二选项向量H’C-Q、包含阅读理解文本信息的第三选项向量H’C-S以及包含阅读理解文本信息的第二题干向量H’Q-S。
那么在执行S4011~S4013时,则可以将H’C-Q依次输入到两个全连接层进行特征提取,分别将题干维度、选项维度变为1,得到一个得分O3’;以及将H’C-S依次输入到两个全连接层进行特征提取,分别将阅读理解文本维度和选项维度变为1,得到一个得分O4’;以及将H’Q-S依次输入到两个全连接层进行特征提取,分别将阅读理解文本维度和题干维度变为1,得到一个得分O5’;最后,该选项文本的得分为(O3’+O4’+O5’)。
需要说明的是,本实施例中不同语义匹配关系输入的两个全连接层并不完全相同,且同一个语义匹配关系依次输入的两个全连接层也是不同的。
本实施例中,可以配置三个全连接层,分别用于将题干维度、阅读理解文本维度和选项维度变成1,那么这三个全连接层任意两个全连接层的组合可以构成本实施例的一个语义匹配关系待输入至的两个全连接层。
举例来说,例如H’C-Q为2x3维度的,其中,题干维度为2,选项维度为3,那么在将H’C-Q输入两个全连接层时,即将H’C-Q输入至一个全连接层,将H’C-Q的一个维度(例如题干维度)变成1,再将来自该全连接层的H’C-Q输入至另一个全连接层,则将另一个维度(例如选项维度)变成1,从而得到1x1的一个数值,即得分。
对于先输入至哪个全连接层,本发明对此并不做限制,可以先输入全连接层a,使得H’C-Q的题干维度的取值变为1,得到1x3的向量,再将该向量输入至全连接层b,使得选项维度的取值变为1,得到一个得分。
实施例三的全连接层的执行原理与上述举例类似,后续不再一一赘述。
而与上述图5实施例的方法类似,在上述实施例三中,得到的三个语义匹配关系:阅读理解文本与题干文本之间的语义匹配关系为第三信息抽取矩阵MQ-S、阅读理解文本与选项文本之间的语义匹配关系为第二信息抽取矩阵MC-S、题干文本与选项文本之间的语义匹配关系为第一信息抽取矩阵MC-Q。
那么在执行S4011~S4013时,则可以将MC-Q依次输入到两个全连接层进行特征提取,分别将题干维度、选项维度变为1,得到一个得分O7’;以及将MC-S依次输入到两个全连接层进行特征提取,分别将阅读理解文本维度和选项维度变为1,得到一个得分O8’;以及将MQ-S依次输入到两个全连接层进行特征提取,分别将阅读理解文本维度和题干维度变为1,得到一个得分O8’;最后,该选项文本的得分为(O6’+O7’+O8’)。
需要说明的是,本实施例中不同语义匹配关系输入的两个全连接层并不完全相同,且同一个语义匹配关系依次输入的两个全连接层也是不同的。
本实施例中,可以配置三个全连接层,分别用于将题干维度、阅读理解文本维度和选项维度变成1,那么这三个全连接层任意两个全连接层的组合可以构成本实施例的一个语义匹配关系待输入至的两个全连接层。
另外,实施例一、实施例二以及实施例三,不同实施例之间使用的全连接层不同。
可选地,在一个实施例中,在执行S402时,可以通过以下S501~S503来实现:
S501,根据所述多个选项文本的多个得分,计算所述多个选项文本中每个选项文本作为所述题干文本的正确答案的概率;
其中,由于问题有多个选项(例如如图5所示,该多个选项为4个,分别为选项1~选项4)那么每个选项都经过上述方法的步骤之后,就可以得到多个选项的多个得分,每个选项都会得到一个得分O’。
其中,由于得分O’是个数值,不同选项的得分可能差距很大,因此,可以对多个选项的多个得分进行归一化处理。
如图5所示,当该问题为单选题时,即在多个选项中只有一个正确答案,那么在执行S501时,可以通过以下softmax函数来计算每个选项的得分O’i的归一化结果:
该Softmax函数计算出每个选项作为问题的正确答案的概率(所有的选项对应的该概率之和为1),其中,e表示微积分中的底数,选项1、选项2、选项3和选项4的概率依次为p1、p2、p3、p4,其中,p1+p2+p3+p4=1。
当该问题为多选题时,即在多个选项中可以有至少两个正确答案,那么在执行S501时,可以通过sigmoid激活函数来计算每个选项的得分O’i的归一化结果,从而将每个选项的得分变成0~1的概率,且所有选项对应的概率之和为1。
S502,若所述题干文本的题目类型为单选题,则将所述多个选项文本中对应最高概率的目标选项文本确定为所述题干文本的正确答案并输出;
S503,若所述题干文本的题目类型为多选题,则将所述多个选项文本中概率大于预设阈值的多个目标选项文本确定为所述题干文本的正确答案并输出。
其中,该预设阈值可以根据需要灵活配置,例如为0.5或0.6等。该预设阈值大于零且小于1。
借助于本发明上述实施例的技术方案,本发明实施例依据第一选项向量、第一问题向量以及第一篇章向量来计算包含题干文本信息的第二选项向量、包含阅读理解文本信息的第三选项向量以及包含阅读理解文本信息的第二题干向量,并计算第二选项向量与第二题干向量的转置的内积,从而得到表示选项文本与阅读理解文本之间的语义匹配关系的第一矩阵;以及计算第三选项向量与第二题干向量的转置的内积,从而得到表示选项文本与所述题干文本之间的语义匹配关系,使得第一矩阵和第二矩阵包含了文本之间的高度抽象的语义匹配关系,从而将文本匹配转换到了向量空间之间的匹配,最后基于第一矩阵和第二矩阵计算选项文本的得分,并最终根据多个选项的得分来确定作为正确答案的选项文本,能够利用选项、题干、篇章之间在高维向量空间的匹配关系,结合端到端的深度学习方法,提升对选择型阅读理解题的作答准确度。
对于上述实施例的数据处理系统中的各个模型以及各网络层的训练过程而言,其与上述数据处理系统的使用过程类似,区别在于输入的多个选项中会进行正确答案、错误答案的标注。在模型训练时,可以基于深度学习算法,采用SGD(梯度下降法)+Momentum(动量),AdaDelta或者Adam(梯度优化算法)等各种基于梯度下降原理的优化器来对模型中各个参数的训练和学习。其中,Adam优化算法的学习率及其它超参都采用Adam算法的默认设置。
此外,在数据处理系统训练过程中,可以进行梯度裁剪来防止梯度爆炸(具体而言,模型训练过程会存在结果与真实值的差值特别大的情况,容易难以训练,所以可以对具有特别大的差值的结果进行丢弃,不作为模型训练调整参数的依据)。
本发明实施例的方法只需要提供系统模型训练的数据,就可以让本数据处理系统自动学习到解题相关的知识和规则,并且只要更换训练数据类型(例如科技类、医学类等)就可以将数据处理系统应用到其它类型的问题解答上;而且本系统采用了模块化设计方案,不同模块功能专一,从而可以快速迁移到相关的系统上进行选择型阅读理解题的自动解答,因此本系统迁移性较好,通用性较强。
本发明实施例的技术方案是在词向量的基础上,基于注意力机制计算选项与篇章、选项与问题在向量空间上的匹配关系,选项会从问题以及篇章中抽取出相关信息特征,同时问题也会从篇章中抽取相关信息特征,进一步使用端到端的深度学习方法,根据抽取的相关特征,概括推理出问题的答案,提升对选择型阅读理解题的作答准确度。
本发明实施例通过深度学习模型,直接从数据中学习解题的方法和特征,使得数据处理系统有较强的阅读理解能力,且由于训练数据中已经包含了大量的推理问题(即训练文本中的题干信息),数据处理系统经过深度学习训练,所以数据处理系统的模型能够对概括推理问题进行准确解答。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图6,示出了本发明一种数据处理系统实施例的结构框图,具体可以包括如下模块:
接收模块61,用于接收阅读理解文本、与所述阅读理解文本对应的题干文本、与所述题干文本对应的多个选项文本;
第一识别模块62,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,识别所述阅读理解文本、所述题干文本以及所述选项文本之间两两匹配的至少两个语义匹配关系;
第二识别模块63,用于根据所述至少两个语义匹配关系,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,所述系统还包括:
第一获取模块,用于获取所述阅读理解文本的第一词向量、所述题干文本的第二词向量、所述多个选项文本中的任意一个选项文本的第三词向量;
第二获取模块,用于将所述第一词向量、所述第二词向量、所述第三词向量,分别输入至预先经过训练的循环神经网络模型,得到所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征。
可选地,所述第一识别模块62包括:
第一计算子模块,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,计算第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S;
其中,所述第一信息抽取矩阵MC-Q表示所述选项文本与所述题干文本之间的相关程度;
所述第二信息抽取矩阵MC-S表示所述选项文本与所述阅读理解文本之间的相关程度;
所述第三信息抽取矩阵MQ-S表示所述题干文本与所述阅读理解文本之间的相关程度;
可选地,所述第二识别模块63包括:
第一识别子模块,用于根据第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,所述第一计算子模块包括:
第一获取子模块,用于获取所述第三文本特征和所述第二文本特征的内积,得到第一信息抽取矩阵MC-Q;
第二获取子模块,用于获取所述第三文本特征和所述第一文本特征的内积,得到第二信息抽取矩阵MC-S;
第三获取子模块,用于获取所述第二文本特征和所述第一文本特征的内积,得到第三信息抽取矩阵MQ-S。
可选地,所述第一识别模块62包括:
第四获取子模块,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第二选项向量H’C-Q、第三选项向量H’C-S以及第二题干向量H’Q-S;
其中,所述第二选项向量H’C-Q表示所述题干文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第三选项向量H’C-S表示所述阅读理解文本中被所述选项文本抽取出的重要信息,与所述选项文本之间的对比关系;
所述第二题干向量H’Q-S表示所述阅读理解文本中被所述题干文本抽取出的重要信息,与所述题干文本之间的对比关系;
可选地,所述第二识别模块63包括:
第二识别子模块,用于根据所述第二选项向量H’C-Q、所述第三选项向量H’C-S、所述第二题干向量H’Q-S,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,所述第四获取子模块包括:
第一计算单元,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,计算第一信息抽取矩阵MC-Q、第二信息抽取矩阵MC-S、第三信息抽取矩阵MQ-S;
第一获取单元,用于根据所述第三文本特征、所述第二文本特征以及所述第一信息抽取矩阵MC-Q,获取第二选项向量H’C-Q;
第二获取单元,用于根据所述第三文本特征、所述第一文本特征以及所述第二信息抽取矩阵MC-S,获取第三选项向量H’C-S;
第三获取单元,用于根据所述第二文本特征、所述第一文本特征以及所述第三信息抽取矩阵MQ-S,获取第二题干向量H’Q-S。
可选地,所述第一获取单元包括:
处理子单元,用于在所述第一信息抽取矩阵MC-Q的题干维度,通过softmax函数对所述第一信息抽取矩阵MC-Q作归一化处理,得到归一化矩阵softmax(MC-Q);
计算子单元,用于计算所述归一化矩阵softmax(MC-Q)和所述第二文本特征HQ的内积,得到矩阵H’;
拼接子单元,用于将所述第三文本特征HC与所述矩阵H’拼接,得到包含题干文本信息的第二选项向量H’C-Q。
可选地,所述第一识别模块62包括:
第五获取子模块,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第一矩阵M’ 1、第二矩阵M’2,其中,M’1表示所述选项文本与所述阅读理解文本之间的语义匹配关系,M’2表示所述选项文本与所述题干文本之间的语义匹配关系;
可选地,所述第二识别模块63包括:
第三识别子模块,用于根据所述第一矩阵M’1和所述第二矩阵M’2,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,所述第五获取子模块包括:
第四获取单元,用于根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,获取第二选项向量H’C-Q、第三选项向量H’C-S以及第二题干向量H’Q-S;
第二计算单元,用于计算所述第二选项向量H’C-Q与所述第二题干向量的转置(H’Q-S)T的内积,得到第一矩阵M’1,M’1表示所述选项文本与所述阅读理解文本之间的语义匹配关系;
第三计算单元,用于计算所述第三选项向量H’C-S与所述第二题干向量的转置(H’Q-S)T的内积,得到第二矩阵M’2,M’2表示所述选项文本与所述题干文本之间的语义匹配关系。
可选地,所述第二识别模块63包括:
第二计算子模块,用于根据所述至少两个语义匹配关系,计算所述选项文本的得分;
第四识别子模块,用于根据所述多个选项文本的多个得分,识别所述多个选项文本中作为所述题干文本的正确答案的目标选项文本并输出。
可选地,所述第三计算子模块包括:
第一提取单元,用于将所述至少两个语义匹配关系分别输入至预先经过训练的第一全连接层进行特征提取,得到与所述至少两个语义匹配关系对应的至少两个第一向量,其中,所述第一向量的题干维度、或、选项维度、或、阅读理解文本维度的取值为1;
第二提取单元,用于将所述至少两个第一向量分别输入至预先经过训练的第二全连接层进行特征提取,得到与所述至少两个语义匹配关系对应的至少两个得分;
第四计算单元,用于计算所述至少两个得分的和,得到所述选项文本的得分。
本发明实施例依据根据所述阅读理解文本的第一文本特征、所述题干文本的第二文本特征、所述多个选项文本中的任意一个选项文本的第三文本特征,来计算包含题干文本信息的第二选项向量、包含阅读理解文本信息的第三选项向量以及包含阅读理解文本信息的第二题干向量,并计算第二选项向量与第二题干向量的转置的内积,从而得到表示选项文本与阅读理解文本之间的语义匹配关系的第一矩阵;以及计算第三选项向量与第二题干向量的转置的内积,从而得到表示选项文本与所述题干文本之间的语义匹配关系,使得第一矩阵和第二矩阵包含了文本之间的高度抽象的语义匹配关系,从而将文本匹配转换到了向量空间之间的匹配,最后基于第一矩阵和第二矩阵计算选项文本的得分,并最终根据多个选项的得分来确定作为正确答案的选项文本,能够利用选项、题干、篇章之间在高维向量空间的匹配关系,结合端到端的深度学习方法,提升对选择型阅读理解题的作答准确度。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
根据本发明的一个实施例,还提供了一种终端。
该终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上述任意一个实施例所述的数据处理方法的步骤。
根据本发明的一个实施例,还提供了一种计算机可读存储介质。
该计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如述任意一个实施例所述的数据处理方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法和一种数据处理系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。