CN112232084A

CN112232084A - 神经语义编解码分析方法及系统

Info

Publication number: CN112232084A
Application number: CN202011102971.9A
Authority: CN
Inventors: 王少楠; 孙静远; 张家俊; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15

Abstract

本发明涉及一种神经语义编解码分析方法及系统，所述神经语义编解码分析方法包括：训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型；通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现；根据探针任务表现，通过消融任务以调整文本表示模型；在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型，通过探针任务量化解析文本表示模型描述各类语言特征的能力；进一步通过消融任务确认文本表示模型的鲁棒性，并以此调整文本表示模型，从而可提高在执行分析任务时的准确率。

Description

神经语义编解码分析方法及系统

技术领域

本发明涉及文本处理技术领域，特别涉及一种基于探针任务和消融测试的神经语义编解码分析方法及系统。

背景技术

近年来，神经语义编、解码技术发展迅速。神经语义编码通过预测人脑对特定语言刺激的反应来模拟脑神经的语言认知工作机理，神经语义解码则通过解析人脑活动来揭示人读或听到的文本内容。目前神经语义编、解码所采用的脑成像信号主要有神经电生理信号，如脑电，和神经影像信号，如核磁共振成像。其中功能性核磁共振成像(fMRI，functional magnetic resonance imaging)具有非侵入性、无辐射暴露等优点，使其在本领域中得到了广泛的应用。

现有神经编、解码的基本范式，是拟合脑神经活动和刺激的数量表示间的映射关系。因此，在指定脑成像范式为fMRI的前提下，神经编解码的准确率高低很大程度上取决于如何建立刺激的数量表示。近年来在机器学习技术的带动下，文本表示方法也在不断迭代、演进。这提供了大量结构不同、编码特征各异的文本数量化表示模型供神经编、解码候选。由于无法有效确定具体地编解码，导致对文本处理的编解码的准确率不稳定。

发明内容

为了解决现有技术中的上述问题，即为了快速确定编解码，提高文本分析任务的准确率，本发明的目的在于提供一种神经语义编解码分析方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种神经语义编解码分析方法，所述神经语义编解码分析方法包括：

训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型；

通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现；

根据探针任务表现，通过消融任务以调整文本表示模型；

在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。

可选地，所述文本表示模型包括神经编码器模型及神经解码器模型；

所述训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型，具体包括：

获取训练样本集，所述训练样本集中的训练样本包括功能性核磁共振图像样本及对应的文本刺激、体素矩阵、句子表示矩阵；

根据所述功能性核磁共振图像及对应刺激表示的维度初始化回归模型，设置网络参数；

基于初始化的回归模型及网络参数，根据体素矩阵及句子表示矩阵，分别得到神经编码器模型及神经解码器模型。

可选地，所述根据体素矩阵及句子表示矩阵，得到神经编码器模型，具体包括：

通过最小化第一目标函数，得到神经编码器模型的回归系数 W_e：

第一目标函数为：

其中，λ为正则化参数，x_i表示体素矩阵，Z_e表示句子表示矩阵，

N_E表示训练样例数，N_V表示体素的数量，N_D表示句子表示的维数；

表示二范数、

表示一范数；

基于初始化的回归模型，根据神经编码器模型的回归系数W_e，确定神经编码器模型，神经编码器模型从句子表示中学习预测大脑活动。

可选地，所述根据体素矩阵及句子表示矩阵，得到神经解码器模型，具体包括：

通过最小化第二目标函数，得到神经解码器模型的回归系数 W_d：

第二目标函数为：

其中，λ为正则化参数，

N_E表示训练样例数， N_V表示体素的数量，N_D表示句子表示的维数，X表示体素矩阵，z_i表示句子向量矩阵，

表示二范数、

表示一范数；

基于初始化的回归模型，根据神经解码器模型的回归系数W_d，确定神经解码器模型；所述神经解码器模型通过直接从体素估计语义向量来进行的，每个维度都由单独的回归模型预测。

可选地，所述探针任务包括语义探针任务、句法探针任务和形态学探针任务中至少一者；

所述通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现，具体包括：

通过语义探针任务量化解析文本表示模型描述语义特征的能力；通过句法探针任务量化解析文本表示模型描述句法结构特征的能力；通过形态学探针任务量化解析文本表示模型描述句法形态特征的能力。

可选地，所述根据探针任务表现，通过消融任务以调整文本表示模型，具体包括：

将探针任务表现分别与神经编码器模型、神经解码器模型准确率关联，得到关联结果；

根据关联结果，损伤的文本表示模型，基于训练语料，通过损伤后文本表示模型生成句子向量表示，对神经解码器模型和神经编码器模型进行训练，确定所述神经解码器模型和神经编码器模型准确率；

根据所述准确率调整文本表示模型。

可选地，所述将探针任务表现分别与神经编码器模型、神经解码器模型准确率关联，得到关联结果，具体包括：

计算语义探针任务、句法探针任务和形态学探针任务的表现与神经编码器模型及神经解码器模型的准确率的相关系数，及相关系数对应显著性等级。

为解决上述技术问题，本发明还提供了如下方案：一种神经语义编解码分析系统，所述神经语义编解码分析系统包括：

训练单元，用于训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型；

解析单元，用于通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现，

调整单元，用于根据探针任务表现，通过消融任务以调整文本表示模型；

执行单元，用于在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。

为解决上述技术问题，本发明还提供了如下方案：一种神经语义编解码分析系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

根据探针任务表现，通过消融任务以调整文本表示模型；

为解决上述技术问题，本发明还提供了如下方案：一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据探针任务表现，通过消融任务以调整文本表示模型；

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型，通过探针任务量化解析文本表示模型描述各类语言特征的能力；进一步通过消融任务确认文本表示模型的鲁棒性，并以此调整文本表示模型，从而可提高在执行分析任务时的准确率。

附图说明

图1是本发明神经语义编解码分析方法的流程图；

图2是本发明神经语义编解码分析系统的模块结构示意图；

图3是本发明神经语义编解码分析系统的硬件框架示意图；

图4是带有计算机可读存储介质的计算机系统模块结构示意图。

符号说明：

训练单元—1，解析单元—2，调整单元—3，执行单元—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种神经语义编解码分析方法，通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型，通过探针任务量化解析文本表示模型描述各类语言特征的能力；进一步通过消融任务确认文本表示模型的鲁棒性，并以此调整文本表示模型，从而可提高在执行分析任务时的准确率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明神经语义编解码分析方法包括：

步骤100：训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型；

步骤200：通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现；

步骤300：根据探针任务表现，通过消融任务以调整文本表示模型；

步骤400：在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。

其中，所述文本表示模型包括神经编码器模型及神经解码器模型。

在步骤100中，所述训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型，具体包括：

步骤110：获取训练样本集，所述训练样本集中的训练样本包括功能性核磁共振图像样本及对应的文本刺激、体素矩阵、句子表示矩阵。

优选地，在获取训练样本集后，对所述训练样本集进行预处理。具体包括：

获取待解码的功能性核磁共振图像，并采用FSL方法(FSL为神经影像处理软件)进行时间对齐和头动校正，采用FLIRT方法将校正完成数据标准空间MNI-152上(即空间标准化)，得到预处理图像。

通过基于弹性突触门的解码模型对所述预处理图像进行解码，得到第一表示；所述第一表示为在采集功能性核磁共振图像时受试者受到的刺激的向量表示；

利用不同文本表示模型将文本刺激编码成数值表示。

步骤120：根据所述功能性核磁共振图像及对应刺激表示的维度初始化回归模型，设置网络参数。

步骤130：基于初始化的回归模型及网络参数，根据体素矩阵及句子表示矩阵，分别得到神经编码器模型及神经解码器模型。

其中，所述根据体素矩阵及句子表示矩阵，得到神经编码器模型，具体包括：

第一目标函数为：

其中，λ为正则化参数，Z_e为句子表示矩阵，

N_E表示训练样例数，N_V表示体素的数量，N_D表示句子表示的维数；x_i表示体素矩阵、

表示二范数、

表示一范数；

基于初始化的回归模型，根据神经编码器模型的回归系数 W_e，确定神经编码器模型，神经编码器模型从句子表示中学习预测大脑活动。

所述根据体素矩阵及句子表示矩阵，得到神经解码器模型，具体包括：

第二目标函数为：

其中，λ为正则化参数，

表示二范数、

表示一范数；

在本实施例中，λ为0.1；在神经解码器模型和神经编码器模型的计算过程中，采用随机梯度下降的优化算法，学习速率为0.01。

进一步地，在步骤100中，还包括：通过测试集合，验证文本表示模型的编解码的准确率。

本实施例中神经编码和解码均通过成对匹配任务来评估编码和解码，下面以神经解码为例说明配对匹配任务：

在训练集上优化完成的解码模型在测试集的脑图上解码出语义向量，计算该语义向量与对应真实句子向量之间的相关系数。如果解码语义向量与其另外随机句子向量相比更类似于其真实句子向量，则视为成功匹配。对于测试集中每对可能的句子S_i和S_j，Z_Si和Z_Sj表示S_i和S_j对应的真实句子向量D_Si和D_Sj表示解码出的语义向量。如果

则成对匹配成功。

在步骤200中，所述探针任务包括语义探针任务、句法探针任务和形态学探针任务中至少一者。

利用探针任务量化解析文本表示模型描述各类语言特征的能力具体为在文本表示模型生成的句子向量的基础上来完成不同下游任务。所述下游任务是一组评测任务，其中各个子任务分别要求模型能编码包括但不限于语法、语义、形态学特征等语言学特征。

优选地，所述通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现，具体包括：

其中，(1)通过语义探针任务(semantic probing task)量化解析文本表示模型描述语义特征的能力，具体包括：

获取包含设定数量句子的语料；人工标注该语料中两两句子间的语义相似度；标注完成后，基于文本表示模型生成的句子向量计算两两句子向量的相似度；最后比较人工标注结果和句子向量计算结果之间的相关程度高低。

其中，在本实施例中，使用STS和SICK语料。计算句子向量相似度的优选实施方法包括但不限于预先相似度(cosine similarity)和皮尔逊相关系数(Pearson’scorrelation)。比较人工标注相似度和句子向量计算相似度之间的相关程度的优选实施方法包括但不限于皮尔逊相关系数 (Pearson’s correlation)和斯皮尔曼相关系数(Spearman correlation)。

(2)通过句法探针任务量化解析文本表示模型描述句法结构特征的能力，具体包括：

衡量从句子的向量表示中重建出其该句子的句法树的程度。

其中，所述“重建句法树”的优选实施方法为：指定一自然语言文本语料，使用句法分析工具生成该语料中每一个句子的句法树。对于该语料中的每一个句子s_i，让w₁，...，w_n表示句子中的词，某一文本表示模型m可将词编码为词向量m(w_j)。拟合一个转移矩阵b使得

其中，w_j和w_k表示一个句子中的任意两个词，

表示该句子的句法分析树中分隔w_j和w_k的边数，其本质上是一个句法距离的度量。一旦在训练集上拟合了B，就可以将它应用到测试集上来预测一个测试集句子中任意两个词的句法距离。对于一个包含n 个词的句子，通过这种预测能够得到一个n×n的距离矩阵。通过最小扩张树算法(minimum spanning tree algorithm)在这个距离矩阵上可以重建出一个无向的句法分析树。树重建的准确率通过无标签附着准确率 (unlabeled attachment score)度量。

(3)通过形态学探针任务量化解析文本表示模型描述句法形态特征的能力，具体包括：

评估从文本表示模型生成的向量表示中可以预测对应句子长度的程度。

长度被认为是句子的形态学特征，因为长度可以在不需要须发、语义知识的情况下获得。本实施例的实施方法为，指定语料为Toronto Book Corpus，将语料中的句子按其单词数分为多个类。在该语料库上，训练一个仅使用句子向量作为输入的三层前向神经网络完成句子长度分类任务，训练中使用随机梯度下降优化，学习速率为0.001。所得模型在测试集上的准确率报告为相应的文本表示在形态学探针任务上的表现。

在步骤300中，所述根据探针任务表现，通过消融任务以调整文本表示模型，具体包括：

步骤310：将探针任务表现分别与神经编码器模型、神经解码器模型准确率关联，得到关联结果。

所述将探针任务表现分别与神经编码器模型、神经解码器模型准确率关联，得到关联结果，具体包括：

计算语义探针任务、句法探针任务和形态学探针任务的表现与神经编码器模型及神经解码器模型的准确率的相关系数，及相关系数对应显著性等级。据此查看句子模型编码某种语言特征的能力是否显著与其编码表现编解码准确率相关。

步骤320：根据关联结果，损伤的文本表示模型，基于训练语料，通过损伤后文本表示模型生成句子向量表示，对神经解码器模型和神经编码器模型进行训练，确定所述神经解码器模型和神经编码器模型准确率。

其中，句法消融的方法为：将预训练完成的表示模型在词序完全打乱的句子上进行调试。这种调试使得表示模型编码句法结构的能力下降。在这类消融测试中，被打乱的只有句子中的词序，而不更改、增加或删减原有的词。因此即使打乱了次序，其内包含的词仍能一定程度上反映原本句子的语义信息。

语义消融的方法：将预训练完成的表示模型在不改变词序，但是所有名词或动词被替换为其他随机名词或动词的机子上进行调试。这种替换不会使句子发生句法错误，其句法结构依然可行，但是存在语法畸变。使用这种语料调试预训练完成的句子表示模型，将使其在编码细粒度的语法信息上能力下降。特别对于某些通过建模词、句子、短语与其上下文的关系来学习对应语言单元的表示的分布式模型，通过消融将很大程度降低模型编码不同语言单元之间语义关系的能力。

在得到所述消融实验的结构后，即可确定损伤文本表示模型编码某种语言特征的能力是否对其神经编解码准确率有所影响。结合所述探针任务实验结果，即可确定编码某种语言特征是否显著影响了文本表示模型在神经编解码任务上的表现。

步骤330：根据所述准确率调整文本表示模型。

为证明本发明解码方法的有效性，将其与其他模型的解码模型进行对比，如图3中所示：为了解释他们捕获的特征有什么差异导致他们在预测大脑时的准确性差距，我们进行了三个探针任务，将探针任务分数与编码性能相关联，并在图3中[a]中描述结果。

如图3中[a]所示，形态学探针任务得分与语言网络中所有脑区的编码均不显著相关(p>0.01)。这意味着句向量描述句子长度能力的差异无法可靠地解释他们在语言网络中的不同编码性能。句法探针任务得分与外侧顶叶区域(LPar)，左后颞回(LPTG)，左下额回(LIFGorb) 的编码准确率相关，这三个脑区的p<0.01。这意味着，在这三个脑区中，从不同文本表示模型的句子嵌入中重建依存关系分析树的未标记附着分数(UAS)占了它们在编码准确性上的很大一部分差异。语义探针分数与语言网络中LaMFG(p>0.01)以外的所有脑区的匹配匹配准确度(每个脑区p<0.01)显著相关。

如图3中[a]所示，我们发现不同的文本表示模型语义探针得分与语言图集中大多数脑区的编码精度显著相关。为了进一步验证这一发现，我们选择了可靠地对语言网络的大脑活动进行编码的BERT文本表示模型并进行了消融测试。我们通过在相应的消融数据集上对模型的句法或语义表示进行调整来查看哪些干扰会显著影响文本表示模型在语言网络中对脑区的编码准确性。如图3中[b]所示，消融任务的干扰在不同的脑区产生了不同的结果。相对于未调整的基线，在11个脑区的8个中，经过语义消融任务调整后的BERT会降低匹配精度(所有p<0.01)。

此外，本发明还提供一种神经语义编解码分析系统。如图2 所示，本发明神经语义编解码分析系统包括训练单元1、解析单元2、调整单元3及执行单元4。

具体地，所述训练单元1用于训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系，建立文本表示模型；

所述解析单元2用于通过探针任务量化解析文本表示模型描述各类语言特征的能力，得到探针任务表现，

所述调整单元3用于根据探针任务表现，通过消融任务以调整文本表示模型；

所述执行单元4用于在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。

进一步地，本发明还提供了一种神经语义编解码分析系统，包括：

处理器；以及

根据探针任务表现，通过消融任务以调整文本表示模型；

本发明还提供了如下方案：一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据探针任务表现，通过消融任务以调整文本表示模型；

相对于现有技术，本发明神经语义编解码分析系统、计算机可读存储介质与上述神经语义编解码分析方法的有益效果相同，在此不再赘述。

下面以图4中为实例，说明带有计算机可读存储介质的计算机系统。其中，图4示出的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4中所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)501，其可以根据存储在只读存储器(ROM，Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM，Random Access Memory)503中的程序而执行各种适当的动作和处理。在 RAM 503中，还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O，Input/Output) 接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD， Liquid Crystal Display)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质 511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分 508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质 511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。