CN113988049A - 一种自然语言模型的解释方法、装置及存储介质 - Google Patents
一种自然语言模型的解释方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113988049A CN113988049A CN202111209535.6A CN202111209535A CN113988049A CN 113988049 A CN113988049 A CN 113988049A CN 202111209535 A CN202111209535 A CN 202111209535A CN 113988049 A CN113988049 A CN 113988049A
- Authority
- CN
- China
- Prior art keywords
- segment
- word
- vector representation
- natural language
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 195
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 12
- 238000003058 natural language processing Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 13
- 238000005406 washing Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种自然语言模型的解释方法、装置及存储介质,属于语言处理技术领域。该方法主要包括:在利用自然语言模型根据给定句子预测输出结果的过程中,获取给定句子中每个词的词高维向量;将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量构建与每个文段相应的文段向量;利用每个文段向量,计算相应的文段对自然语言模型预测输出结果贡献度的文段贡献值,并根据每个文段贡献值对相应文段向量进行调整;利用调整后的文段向量计算得到给定句子的句高维向量,利用句高维向量对输出结果进行预测。本申请具有较高的可扩展性,在提高模型解释性的条件下,保证了模型下游任务的良好性。
Description
技术领域
本申请涉及语言处理技术领域,特别涉及一种自然语言模型的解释方法、装置及存储介质。
背景技术
由于深度学习神经网络模型的“黑盒”性质,用户难以得知模型是怎样处理数据以及模型是怎样得出预测结果的。这就导致了用户无法控制模型的运作过程,这会使模型不可避免地得出用户意料之外的结果。人们利用可解释性来解决深度学习神经网络模型所存在的这一问题。
当前的一些神经网络模型可解释工作主要存在两点不足,首先,现有的神经网络模型可解释工作大都为图像任务专门设计,难以直接应用在自然语言处理模型上,因为与图像不同自然语言处理要解决的是离散的语言单元而非连续的像素值,所以为图像而设计的模型可解释性方法难以直接迁移到自然语言处理相关的模型结构上。其次,现有的模型可解释性的提升会导致模型在下游任务上精度的下降,在提升模型可解释性时,难以保证模型效果。
发明内容
针对现有技术存在的问题,本申请主要提供一种自然语言模型的解释方法、装置及存储介质。
为了实现上述目的,本申请采用的一个技术方案是:提供一种自然语言模型的解释方法,其包括:在利用自然语言模型根据给定句子预测输出结果的过程中,获取给定句子中每个词的词高维向量表征;将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量表征构建与每个文段相应的文段向量表征;利用每个文段向量表征,计算相应的文段对自然语言模型预测输出结果贡献度的文段贡献值,并根据每个文段贡献值对相应文段向量表征进行调整;利用调整后的文段向量表征计算得到给定句子的句高维向量表征,并利用句高维向量表征对输出结果进行预测。
本申请采用的另一个技术方案是:提供一种自然语言模型的解释装置,其包括:输入模块,用于将输入自然语言模型的给定句子中的每个词转化为对应的词向量;中间模块,用于根据每个词的上下文信息,以及每个词的上下文信息对应的词向量得到每个词的词高维向量表征;文段收集模块,用于将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量表征构建与每个文段相应的文段向量表征;解释模块,用于利用每个文段向量表征,计算相应的文段对自然语言模型预测的输出结果贡献度的文段贡献值;输出模块,用于根据文段贡献值对相应文段向量表征进行调整,利用调整后的文段向量表征计算得到给定句子的句高维向量表征,并利用句高维向量表征预测输出结果。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的自然语言模型的解释方法。
本申请的技术方案可以达到的有益效果是:本申请设计了一种自然语言模型的解释方法、装置及存储介质。该方法针对自然语言处理模型设计,可扩展性强,既能够提高模型的可解释性,又能够提升模型在下游任务上的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种自然语言模型的解释方法的一个具体实施方式的示意图;
图2是本申请一种自然语言模型的解释装置的一个具体实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以洗衣机为例简述深度学习神经网络模型的“黑盒”性质和其影响。可解释的洗衣机上的按钮是用户可以操作的,首先是洗衣机有各种洗衣模式可供选择,其次是在洗衣过程中一旦洗衣机发生意外,用户可以强制终止洗衣,避免造成严重的后果,这种洗衣机是“可控制”的或者说是“可解释”的。当前的神经网络模型就像一个没有按钮的洗衣机,用户把数据输入模型直到模型给出结果,用户不知道数据经历了怎样的操作和加工步骤,也无法调控这种加工过程,因此就会存在潜在的模型风险。此外,现有技术的自解释模型需要额外加入外部模块,结构复杂且运算和推导过程复杂。
本申请的发明构思是:设计面向自然语言处理模型的模型可解释性方法,该方法不依赖具体的底层模型结构,可以迁移到任意的主流语言处理模型结构之上。该方法利用“自解释”的原理运行不仅能够提高模型的可解释性,而且还能够提高模型在下游任务上的效果,打破模型可解释性与模型效果之间平衡的取舍。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种自然语言模型的解释方法的一个具体实施方式。
在图1所示的具体实施方式中,自然语言模型的解释方法主要包括,步骤S101,在利用自然语言模型根据给定句子预测输出结果的过程中,获取给定句子中每个词的词高维向量表征;
步骤S102,将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量表征构建与每个文段相应的文段向量表征;
步骤S103,利用每个文段向量表征,计算相应的文段对自然语言模型预测输出结果贡献度的文段贡献值,并根据每个文段贡献值对相应文段向量表征进行调整;
步骤S104,利用调整后的文段向量表征计算得到给定句子的句高维向量表征,并利用句高维向量表征对输出结果进行预测。
该具体实施方式,针对自然语言处理模型设计,可扩展性强,便捷易用,既能够提高模型的可解释性,又能够提升模型在下游任务上的效果,且无需复杂的数学推导与运算,也无需改变模型运行时的数据处理流程。
在图1所示的具体实施方式中,自然语言模型的解释方法,包括步骤S101,在利用自然语言模型根据给定句子预测输出结果的过程中,获取给定句子中每个词的词高维向量表征。
在本发明的一个具体实施例中,利用线性变换,根据给定句子中的每个词以及每个词在给定句子中的位置,计算得到给定句子中每个词的词高维向量表征,该词高维向量表征能够反映出每个词的在给定句子中的上下文信息,且该高维向量的维度大小是预定的。
该具体实施例,利用现有的自然语言模型获取给定句子中每个词的词高维向量表征,无需改变现有的自然语言模型的数据处理流程,可扩展性更强。
在图1所示的具体实施方式中,自然语言模型的解释方法,还包括步骤S102,将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量表征构建与每个文段相应的文段向量表征。
在本发明的一个具体实施例中,在得到给定句子的全部高维向量后,将给定句子划分为多个文段,利用给定句子中每个词所对应的高维向量,计算得到给定句子的全部文段的文段向量表征。或,将给定句子划分为多个文段,然后得到给定句子的全部高维向量,并利用给定句子中每个词所对应的高维向量,计算得到给定句子的全部文段的文段向量表征。
该具体实施例,通过将给定句子以文段的形式进行处理,能够提高模型的下游任务效果,保证在建立模型的可解释性的同时保证模型下游任务的效果。
在本发明的一个具体实施例中,步骤S102还包括,将给定句子中一个词或者相邻的多个词划分为一个文段。
在本发明的一个具体实施例中,将给定句子中的每个词按照单独的词划分为多个文段,或在给定句子中任选一个词,并选取至少一个与之位置相连的词,将任选的一个词和至少一个与之位置相连的词作为一个文段。
例如,在给定句子“我爱北京”中,利用文段“我”、“爱”、“北”和“京”所对应的高维向量表征,计算得到“我”、“爱”、“北”和“京”文段所对应的文段向量表征。或,在给定句子“我爱北京”中,利用文段“我爱”、“爱北”、“北京”、“我爱北”、“爱北京”和“我爱北京”中每个词所对应的高维向量,计算得到给定句子的文段向量表征,即计算文段“我爱北”的文段向量表征,需要利用“我”、“爱”和“北”所对应的高维向量。
在本发明的一个具体实施例中,在文段收集层中,利用在给定句子中位置不相连或顺序颠倒的词所对应的高维向量,计算得到给定句子的文段向量表征。
例如,在给定句子“我爱北京”中,其划分的文段包括“我爱京”、“我北京”、“我北京爱”、“爱我北京”、“爱我”和“京北”等文段,利用每个文段所包含的词对应的高维向量,计算得到给定句子的文段向量表征。
该具体实施例,利用文段中每个词所对应的高维向量计算得到文段所对应的文段向量表征,使模型在保证下游任务效果的同时,更深层次的了解给定句子,可移植性更强,同时,不需要加入额外的可解释模块即可以实现自然语言处理模型的可解释性、简化模型结构奠定基础。
在本发明的一个具体实例中,利用公式h(i,j)=F(hi,hj)计算得到给定句子的文段向量表征,其中,i是文段的开始位置,j是文段的结束位置,F是一个函数关系,hi是文段的开始位置的词所对应的高维词向量表征,hj是文段的结束位置的词所对应的高维词向量表征。以“我爱北京”为例,h(1,1)表示的是文段“我”,h(1,3)代表的是文段“我爱北”,且在文段h(1,3)中,hi是“我”的高维词向量表征,hj是“北”的高维词向量表征。
该具体实施例,通过计算给定文本的文段向量表征,为保证模型的下游任务效果奠定基础。
在本发明的一个具体实施例中,步骤S102还包括,将每个文段中起始词对应的词高维向量表征,每个文段中结束词对应的词高维向量表征,起始词对应的词高维向量表征与结束词对应的词高维向量表征的差值,以及起始词对应的词高维向量表征与结束词对应的词高维向量表征的乘积,进行拼接得到拼接向量;利用拼接向量,通过双曲正切函数计算得到每个文段相应的文段向量表征
在本发明的一个具体实例中,利用公式F(hi,hj)=tanh[W(hi,hj,hi-hj,hi×hj)]计算得到文段h(i,j)所对应的文段向量表征,其中W是一个矩阵,tanh是双曲正切函数,hi和hj对应给定文本中不同词所对应的高维向量。
例如,当hi=[1,2,3],hj=[2,4,8]时,首先把向量hi、hj、hi-hj和hi×hj这四个向量拼接起来,得到一个12维的向量[1,2,3,2,4,8,-1,-2,-5,2,8,24]。然后利用一个预定的3*12的矩阵W,将上述12维的向量转换回3维的向量。最后,利用非线性变换tanh对该转换后的向量进行计算。
该具体实例,在计算文段向量的过程中该方法运算速度快,能够提升模型的训练速度和推理速度。
在本发明的一个具体实例中,将每个文段中起始词对应的词高维向量表征,每个文段中结束词对应的词高维向量表征,起始词对应的词高维向量表征与结束词对应的词高维向量表征的差值,以及起始词对应的词高维向量表征与结束词对应的词高维向量表征的乘积,进行拼接得到拼接向量;利用拼接向量,通过线性整流函数计算得到每个文段相应的文段向量表征。
例如,当hi=[1,2,3],hj=[2,4,8]时,首先把向量hi、hj、hi-hj和hi×hj这四个向量拼接起来,得到一个12维的向量[1,2,3,2,4,8,-1,-2,-5,2,8,24]。然后利用一个3*12的预定矩阵W,将上述12维的向量转换回3维的向量。最后,利用线性整流函数ReLU对该转换后的向量进行计算。
该具体实例,避免了复杂激活函数的影响,且能够节省自然语言处理模型的计算成本。
在图1所示的具体实施方式中,自然语言模型的解释方法,还包括步骤S103,利用每个文段向量表征,计算相应的文段对自然语言模型预测输出结果贡献度的文段贡献值,并根据每个文段贡献值对相应文段向量表征进行调整。
在本发明的一个具体实施例中,步骤S103还包括,利用一个与文段向量表征维度相同的预定向量,与文段向量表征进行点积计算,得到相应文段的文段贡献值。
在本发明的一个具体实例中,利用l(i,j)=h·h(i,j)计算得到文段向量的贡献值,其中h(i,j)表示文段向量表征,l(i,j)表示文段向量所对应的文段贡献值,h表示与文段向量表征维度相同的预定向量。
该具体实施例,通过点积计算将文段向量表征转换为一个实数值,使文段向量的文段贡献值具有更好的直观性和可读性,为计算文段向量的权重奠定基础。
在本发明的一个具体实施例中,步骤S103还包括,利用每个文段贡献值通过归一化计算每个文段的文段权重,并利用文段权重对相应文段向量表征进行加权调整
在本发明的一个具体实施例中,利用文段向量表征的文段贡献值,通过归一化方法计算得到文段所对应的文段权重。即利用公式计算得到文段所对应的文段权重,其中,α(i,j)是文段向量表征h(i,j)所对应的文段权重,exp(l(i,j))是对文段向量表征h(i,j)的文段贡献值求取指数函数值以将h(i,j)的文段贡献值转换为正数。利用该公式将文段向量表征的文段贡献值转化为一个α(i,j)的概率分布,该概率分布即就是文段权重。且文段权重α(i,j)的值越大其所对应的文段对模型预测给定文本在目标标签下的输出的贡献度越高。
例如,给定句子是“我爱北京”该文本所包含的全部文段为“我”、“爱”、“北”、“京”、“我爱”、“爱北”、“北京”、“我爱北”、“爱北京”和“我爱北京”。假设文段“我爱”所对应的文段权重最大,则文段“我爱”对模型的输出结果影响最大。
该具体实施例,通过计算给定文本中全部文段所对应的文段权重的大小,利用文段权重解释了自然语言处理模型的输出结果,提高了模型的可解释性。
在图1所示的具体实施方式中,自然语言模型的解释方法,还包括步骤S104,用调整后的文段向量表征计算得到给定句子的句高维向量表征,并利用句高维向量表征对输出结果进行预测。
例如,给定句子是“我爱北京”,该句子所包含的全部文段为“我”、“爱”、“北”、“京”、“我爱”、“爱北”、“北京”、“我爱北”、“爱北京”和“我爱北京”,则=“我”的文段权重ד我”的文段向量+“爱”的文段权重ד爱”的文段向量+......+“我爱北京”的文段权重ד我爱北京”的文段向量。
该具体实施例,通过计算给定句子的全部文段加权平均值,为根据给定句子对自然语言模型的输出进行控制和调节奠定了基础。
在本发明的一个具体实施例中,利用给定句子的句高维向量表征和自然语言处理模型的真值标签向量,计算得到给定句子在自然语言处理模型中目标标签下的概率。
在本发明的一个具体实施例中,利用公式计算得到给定句子在目标标签下的概率,其中,X表示给定句子,Y表示目标标签,Uv表示目标标签所对应的高维向量,P(y|x)是模型预测的给定句子x在标签为y时的概率。且计算得到的概率最大的标签就是模型的预测结果。
例如,给定句子是“我爱北京”,目标标签是“积极”和“消极”时,x=“我爱北京”,Y=“积极”和“消极”。若Y=“积极”时Uy为“积极”所对应的高维向量,若Y=“消极”时Uy为“消极”所对应的高维向量。利用给定句子的句高维向量表征和Uy为“积极”所对应的高维向量,计算得到给定句子在“积极”标签下的概率值。利用给定句子的句高维向量和Uy为“消极”所对应的高维向量,计算得到给定句子在“消极”标签下的概率值。然后,将给定句子在目标标签下的概率值归一化为一个概率分布。
该具体实施例,通过将给定句子在目标标签下的概率归一化到同一概率分部内,方便模型进行比较,为根据标签所对应的概率大小确定输出的标签奠定基础。
在本发明的一个具体实施例中,根据给定句子在目标标签下的概率计算得到自然语言处理模型所输出的标签。
例如,当给定句子是“我爱北京”,且目标标签是“积极”和“消极”时,x=“我爱北京”,若利用自然语言处理模型计算出来的分数是p(积极|x)=0.8,p(消极|x)=0.2则模型的输出结果就是积极。
该具体实施例,既能够提高模型的可解释性,又能够提升模型在下游任务上的效果,且无需复杂的数学推导与运算,也无需改变模型运行时的数据处理流程便捷易用。
在图1所示的具体实施方式中,自然语言模型的解释方法,还包括将给定句子的每个词转化为对应的词向量;根据每个词的上下文信息,利用对应词向量得到每个词的词高维向量表征。
在本发明的一个具体实施例中,自然语言模型的输入层读取输入到模型中的给定句子,然后将给定句子进行处理得到给定句子中每个词的词向量,并将每个词的词向量传输至中间层进行进一步的处理。
中间层将每个词的词向量和位置向量相加后,利用至少一层的神经网络将相加后的向量进行变换,得到高维向量表征,即将相加后的向量映射为高维向量,如将相加后的向量映射为768维的高维向量。该映射后向量的维度大小由模型的自身特性或研发人员的习惯决定。
该具体实施例,通过计算得到给定句子的高维向量,为模型对给定句子在模型中进行可解释性处理奠定基础。
图2示出了本申请一种自然语言模型的解释装置的具体实施方式。
在图2所示的具体实施方式中,自然语言模型的解释装置主要包括:输入模块201,用于将输入自然语言模型的给定句子中的每个词转化为对应的词向量;
中间模块202,用于根据每个词的上下文信息,以及每个词的上下文信息对应的词向量得到每个词的词高维向量表征;
文段收集模块203,用于将给定句子按照预定规则划分为多个文段,并利用每个文段中每个词对应的词高维向量表征构建与每个文段相应的文段向量表征;
解释模块204,用于利用每个文段向量表征,计算相应的文段对自然语言模型预测的输出结果贡献度的文段贡献值;
输出模块205,用于根据文段贡献值对相应文段向量表征进行调整,利用调整后的文段向量表征计算得到给定句子的句高维向量表征,并利用句高维向量表征预测输出结果。
该具体实施例,能够在模型的底层同时进行模型的预测和模型的解释,泛化性和可扩展性强,且该模型既能够提高模型的可解释性,同时能够提升模型在下游任务上的效果。该模型无需增加多余的解释模块,无需改变模型运行时的数据处理流程,结构简单、便捷易用且算法简单。
在本发明的一个具体实施例中,在传统的自然语言处理模型的中间层和输出层之间加入文段收集层和解释层,利用文段收集层和解释层在完成自然语言处理模型的可解释性的基础上,保证下游任务的精确性。
在本发明的一个具体实施例中,在文段收集层和解释层之间加入至少一层文段深层变化层。利用文段深层变化层,对文段收集层的数据结果进行进一步深层次变换,以对给定句子的每个文段进行进一步的分析处理,使模型对给定句子的文段有更深层次的理解。
该具体实施例,通过在现有的自然语言处理模型的输入层、中间层和输出层之中的中间层和输出层之间加入文段收集层和解释层,使模型既能保证可解释性,又能够保证在下游任务上的效果,且在模型的底层结构上进行改变,使该模型底层结构适用于更多的自然语言处理模型,可扩展性和泛化性强。
本申请提供的自然语言模型的解释装置,可用于执行上述任一实施例描述的自然语言模型的解释方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的自然语言模型的解释方法。
在本申请的一个具体实施例中,本申请中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种自然语言模型的解释方法,其特征在于,包括:
在利用自然语言模型根据给定句子预测输出结果的过程中,获取所述给定句子中每个词的词高维向量表征;
将所述给定句子按照预定规则划分为多个文段,并利用每个所述文段中每个词对应的所述词高维向量表征构建与每个所述文段相应的文段向量表征;
利用每个所述文段向量表征,计算相应的所述文段对所述自然语言模型预测所述输出结果的贡献度的文段贡献值,并根据每个所述文段贡献值对相应所述文段向量表征进行调整;
利用调整后的所述文段向量表征计算得到所述给定句子的句高维向量表征,并利用所述句高维向量表征对所述输出结果进行预测。
2.根据权利要求1所述的自然语言模型的解释方法,其特征在于,所述将所述给定句子按照预定规则划分为多个文段的过程包括,
将所述给定句子中一个词或者相邻的多个词划分为一个所述文段。
3.根据权利要求1所述的自然语言模型的解释方法,其特征在于,所述利用每个所述文段中每个词对应的所述词高维向量表征构建与每个所述文段相应的文段向量表征的过程包括,
将每个所述文段中起始词对应的所述词高维向量表征,每个所述文段中结束词对应的所述词高维向量表征,所述起始词对应的词高维向量表征与所述结束词对应的词高维向量表征的差值,以及所述起始词对应的词高维向量表征与所述结束词对应的词高维向量表征的乘积,进行拼接得到拼接向量;
利用所述拼接向量,通过双曲正切函数计算得到每个所述文段相应的文段向量表征。
4.根据权利要求1所述的自然语言模型的解释方法,其特征在于,所述利用每个所述文段向量表征,计算相应的所述文段对所述自然语言模型预测所述输出结果的贡献度的文段贡献值的过程包括,
利用一个与所述文段向量表征维度相同的预定向量,与所述文段向量表征进行点积计算,得到相应文段的文段贡献值。
5.根据权利要求1所述的自然语言模型的解释方法,其特征在于,所述根据每个所述文段贡献值对相应所述文段向量表征进行调整的过程包括,
利用每个所述文段贡献值通过归一化计算每个所述文段的文段权重,并利用所述文段权重对相应所述文段向量表征进行加权调整。
6.根据权利要求1所述的自然语言模型的解释方法,其特征在于,所述在利用自然语言模型根据给定句子预测输出结果的过程中,获取所述给定句子中每个词的词高维向量表征的过程包括,
将所述给定句子的每个词转化为对应的词向量;
根据所述每个词的上下文信息,利用对应的所述词向量得到所述每个词的所述词高维向量表征。
7.一种自然语言模型的解释装置,其特征在于,包括:
输入模块,用于将输入自然语言模型的给定句子中的每个词转化为对应的词向量;
中间模块,用于根据所述每个词的上下文信息,以及所述每个词的所述词向量得到所述每个词的词高维向量表征;
文段收集模块,用于将所述给定句子按照预定规则划分为多个文段,并利用每个所述文段中每个词对应的所述词高维向量表征构建与每个所述文段相应的文段向量表征;
解释模块,用于利用每个所述文段向量表征,计算相应的所述文段对所述自然语言模型预测的输出结果的贡献度的文段贡献值;
输出模块,用于根据所述文段贡献值对相应所述文段向量表征进行调整,利用调整后的所述文段向量表征计算得到所述给定句子的句高维向量表征,并利用所述句高维向量表征预测输出结果。
8.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-6中任一项所述的自然语言模型的解释方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209535.6A CN113988049B (zh) | 2021-10-18 | 一种自然语言模型的解释方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209535.6A CN113988049B (zh) | 2021-10-18 | 一种自然语言模型的解释方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113988049A true CN113988049A (zh) | 2022-01-28 |
CN113988049B CN113988049B (zh) | 2024-10-29 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN111897964A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
CN112347758A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
US20210279414A1 (en) * | 2020-03-05 | 2021-09-09 | Adobe Inc. | Interpretable label-attentive encoder-decoder parser |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
US20210279414A1 (en) * | 2020-03-05 | 2021-09-09 | Adobe Inc. | Interpretable label-attentive encoder-decoder parser |
CN111897964A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
CN112347758A (zh) * | 2020-11-06 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 文本摘要的生成方法、装置、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
李枫林;柯佳;: "词向量语义表示研究进展", 情报科学, no. 05, 1 May 2019 (2019-05-01) * |
林星星;邱晓枫;刘扬;虞梦夏;祁晶;康司辰;: "语言知识驱动的词嵌入向量的可解释性研究", 中文信息学报, no. 08, 15 August 2020 (2020-08-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951805B (zh) | 一种文本数据处理方法及装置 | |
Yu et al. | Deep learning for daily peak load forecasting–a novel gated recurrent neural network combining dynamic time warping | |
AU2018271931B2 (en) | Attention-based sequence transduction neural networks | |
EP3602413B1 (en) | Projection neural networks | |
CN112507040B (zh) | 多元关系生成模型的训练方法、装置、电子设备及介质 | |
CN111797589B (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
US20230021555A1 (en) | Model training based on parameterized quantum circuit | |
CN111898636B (zh) | 一种数据处理方法及装置 | |
WO2023202511A1 (zh) | 一种数据的处理方法、神经网络的训练方法以及相关设备 | |
KR102635800B1 (ko) | 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체 | |
CN111339724B (zh) | 用于生成数据处理模型和版图的方法、设备和存储介质 | |
JP2022502758A (ja) | 符号化方法、装置、機器およびプログラム | |
CN111259768A (zh) | 基于注意力机制的结合自然语言的图像目标定位方法 | |
WO2020001329A1 (zh) | 一种输入预测方法及装置 | |
CN113065633A (zh) | 一种模型训练方法及其相关联设备 | |
CN107146196A (zh) | 一种图像美颜方法及终端 | |
Luo et al. | Timeliness online regularized extreme learning machine | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
US20210303080A1 (en) | Input method for virtual keyboard, electronic device and storage medium | |
Zhong et al. | Higher-order properties of Bayesian empirical likelihood | |
CN117422182A (zh) | 数据预测方法、装置及存储介质 | |
CN113988049B (zh) | 一种自然语言模型的解释方法、装置及存储介质 | |
CN113988049A (zh) | 一种自然语言模型的解释方法、装置及存储介质 | |
Tu et al. | Multitarget prediction—A new approach using sphere complex fuzzy sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |