CN115934752B

CN115934752B - 一种构建检索模型的方法、电子设备和存储介质

Info

Publication number: CN115934752B
Application number: CN202211585614.1A
Authority: CN
Inventors: 罗引; 蒋永余; 王俊艳; 王璋盛; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-07-14
Anticipated expiration: 2042-12-09
Also published as: CN115934752A

Abstract

本发明提供了一种构建检索模型的方法、电子设备和存储介质，包括：获取目标文本的目标文本词向量，获取目标文本对应的候选代表词集合和候选随机词集合，将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接，输入到量子概率注意力值模型，获取对应的注意力值，将注意力值分别输入多层感知机，获取候选代表词为代表词的概率和候选随机词为代表词的概率，基于候选代表词为代表词的概率和候选随机词为代表词的概率，最小化两者的损失函数，获取目标检索模型；从而取得更好的检索效果。

Description

一种构建检索模型的方法、电子设备和存储介质

技术领域

本发明涉及自然语言处理领域，特别是涉及一种构建检索模型的方法、电子设备及存储介质。

背景技术

随着互联网的日益普及，媒体行业的不断发展，各类线上媒体平台的数量与日俱增，电子新闻的数量也呈指数增长，因此，需要通过搜索引擎将用户根据意图输入的查询在海量的新闻数据中搜索与查询相关的信息。基于Transformer网络结构的预训练语言表示模型，在许多自然语言处理(NLP)任务上取得了显著的改进，但其在信息检索领域仍然具有很大的潜力进行提升。很少有人努力设计训练任务来实现ad-hoc检索(查询短，文本长的检索任务)，当将这些预训练模型应用于ad-hoc检索时，在典型的基准数据集上可以观察到边际效益。同时预训练模型都仅仅是在原词向量基础上加入了位置编码，即绝对位置信息。绝对位置向量假设单个词语的位置是独立的，并且不考虑相邻词语位置之间的关系，对连续元素之间的距离进行建模也是非常重要的。Transformer结构使用的注意力机制在捕捉词组合(如短语或句子)的涌现意义时也会有局限性，例如“象牙塔”这个短语很难被建模为“象牙”和“塔”的语义组合。这都限制了其提高检索精度的能力。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种构建检索模型的方法，所述方法包括如下步骤：S100，获取目标文本的目标文本词向量W，其中，目标文本词在目标文本词向量中的先后顺序和在目标文本中出现的先后顺序一致。

S200，获取目标文本对应的候选代表词集合S₁和候选随机词集合S₂，其中，所述候选代表词是预设词表中和目标文本相关的文本词，所述候选随机词是预设词表中随机选取的文本词。

S300，基于目标文本词向量W、候选代表词集合S₁和候选随机词集合S₂进行拼接，构建P₁＝[CLS]+S₁+[SEP]+W+[SEP]和P₂＝[CLS]+S₂+[SEP]+W+[SEP]，其中，所述CLS和SEP是标识符，所述CLS用于标识P1的语义，所述SEP用于分割S1和W。

S400，将P₁和P₂分别映射到n维希尔伯特空间，获取P₁对应的第一复值词向量D和P₂对应的第二复值词向量E。

S500，将第一复值词向量D和第二复值词向量E分别输入到量子概率模型，获取D对应的第一注意力值H₁和E对应的第二注意力值H₂。

S600，将第一注意力值H₁和第二注意力值H₂输入多层感知机获取S₁是W的代表词的概率P(S₁|W)和S₂是W的代表词的概率P(S₂|W)。

S700，通过最小化损失函数L＝max(0，1-P(S₁|W)+P(S₂|W))，反向传播更新所述量子概率模型的参数以获取目标检索模型。

一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行，以实现上述方法。

一种电子设备，其特征在于，包括处理器和上述所述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：本发明通过获取目标文本的目标文本词向量和目标文本对应的候选代表词集合和候选随机词集合，将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接，分别获取对应的第一复值词向量和第二复值词向量，将第一复值词向量和第二复值词向量分别输入到量子概率注意力值模型，获取第一注意力值和第二注意力值，将第一注意力值和第二注意力值输入多层感知机，分别获取候选代表词集合是目标文本代表词的概率和随机词是目标文本代表词的概率，通过最小化损失函数，获取目标检索模型，本发明通过最小化损失函数，获取目标检索模型，使得候选代表词的集合是目标文本的代表词的概率更高，更好提高ad-hot检索任务的性能，并能取得更好的检索效果，得到的预训练检索模型能在零资源和低资源的信息检索条件下，实现较好的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种构建检索模型的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种构建检索模型的方法，如图1所示，所述方法包括如下步骤：

S100，获取目标文本的目标文本词向量W，其中，目标文本词在目标文本词向量中的先后顺序和其在目标文本中出现的先后顺序一致。

具体地，获取目标文本的目标文本词向量至少包括对目标文本进行去符号、分词、词典映射，且本领域技术人员可知，现有技术中对文件进行预处理以获取的目标文本词的操作都可以包含在本申请中。

在本申请中，候选代表词集合S₁包括的候选代表词个数大于等于W中包括的目标文本词个数，具体的，S₁中可以包括所述预设词表中所有和目标文本相关的词语，也可以是所有和目标文本相关的词语的部分，例如，通过设置选择比例来获取S₁包括的全部候选代表词。候选随机词集合S₂通过采用从所述预设词表中随机抽取的方式获取，具体的，在本申请中，所述候选代表词的数量和候选随机词的数量相等。

具体地，所述预设词表可根据实际需要预先设置。

S300，基于目标文本词向量W、候选代表词集合S₁和候选随机词集合S₂进行拼接，构建P₁＝[CLS]+S₁+[SEP]+W+[SEP]和P₂＝[CLS]+S₂+[SEP]+W+[SEP]，其中，所述[CLS]和[SEP]是标识符，所述[CLS]是起始符，所述[SEP]是中间隔离符。

具体地，将P₁映射到n维希尔伯特空间，获取P₁对应的第一复值词向量D具体包括：

S410，获取P₁对应的第一文本词TP₁＝(TP₁₁，TP₁₂，…，TP_1j，…，TP_1m)，TP_1j是TP₁中第j个第一文本词，j的取值范围是1到m，m是P₁中第一文本词的数量。

具体地，P1中的标识符(CLS、SEP)、S1和W均为第一文本词，第一文本词的数量m等于S1中文本词的数量、W中文本词的数量和标识符的数量(一个CLS和两个SEP，即标识符的数量为3)之和。

S420，将TP_1j映射到n维希尔伯特空间，获取TP_1j在第j个位置O_j的第一复数词向量

从而获取第一复值词向量D＝{D₁，D₂，…，D_j，…，D_m}，其中，振幅向量r_j＝[r_j1，r_j2，……，r_jn]表示P_1j的n个的隐含语义，周期向量ω_j＝[ω_j1，ω_j2，……，ω_jn]表示P_1j对位置的敏感程度，相位向量θ_j＝[θ_j1,θ_j2，……，θ_jn]表示P_1j的初始相位。

可以理解为，n维复数希尔伯特空间中，每个维度都表示一个波，该波由振幅、周期和相位表示，位置O_j表示了P_ij的位置信息。

具体地，n可根据实际需求输入；振幅向量r_j为可训练参数，r_j表示P_ij的n个隐含含义；示例性说明，苹果有3个隐含语义[水果，公司，手机]，在一个语句“我喜欢吃苹果”中“苹果”对应的振幅向量为[1，0，0]，苹果的所有隐含语义和隐含语义的顺序在两次获取“苹果”对应的振幅向量时，可能并不相同。

具体地，周期向量ω_j为可训练参数，可以理解为，若周期很长，即ω_j非常小，对于pos的所有可能值，复数向量将近似固定，即近似于标准词向量，若周期很短则文本词向量将对位置参数高度敏感。

具体地，初始化的相位向量θ_j＝[θ_j1,θ_j2，……，θ_jn]为可训练参数。

可选的，振幅向量r_j通过随机数值初始化。

可选的，振幅向量r_j通过使用包含先验知识的Word2vec向量或Bert输出的预训练词向量。

进一步地，本发明还包括S400将P₂映射到n维希尔伯特空间，获取P₂对应的第二复值词向量E具体包括：

S401，获取P₂对应的第二文本词TP₂＝(TP₂₁，TP₂₂，…，TP_2j，…，TP_2m)，TP_2j是TP₂中第j个第二文本词。

S402，将TP_2j映射到n维希尔伯特空间，获取TP_2j在第j个位置SO_j的第二复数词向量

从而获取第二复值词向量E＝{E₁，E₂，…，E_j，…，E_m}，其中，振幅向量Sr_j＝[Sr_j1，Sr_j2，……，Sr_jn]表示P_2j的n个的隐含语义，周期向量Sω_j＝[Sω_j1，Sω_j2，……，Sω_jn]表示P_2j对位置的敏感程度，相位向量Sθ_j＝[Sθ_j1,Sθ_j2，……，Sθ_jn]表示P_2j的初始相位。

综上，本发明同时引入了绝对位置信息和相对位置信息，且不增加计算资源，引入了复数形式的词向量，将虚部作为编码位置，对文本中连续元素之间的距离进行建模，在不增加计算资源的情况下能够有效进行位置信息的特征构建。

S600，将第一注意力值H₁和第二注意力值H₂输入多层感知机，以获取S₁是W的代表词的概率P(S₁|W)和S₂是W的代表词的概率P(S₂|W)。

具体地，多层感知机使用sigmoid输出激活函数。

具体地，S1是W的代表词的概率P(S1|W)＝MLP(H₁),S2是W的代表词的概率P(S2|W)＝MLP(H₂)。

具体地，S700中通过Adam优化器来更新量子概率注意力值模型的参数来获取目标检索模型。

综上，本发明通过获取目标文本的目标文本词向量和目标文本对应的候选代表词集合和候选随机词集合，将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接，分别获取对应的第一复值词向量和第二复值词向量，将第一复值词向量和第二复值词向量分别输入到量子概率注意力值模型，获取第一注意力值和第二注意力值，将第一注意力值和第二注意力值输入多层感知机，分别获取候选代表词集合是目标文本代表词的概率和随机词是目标文本代表词的概率，通过最小化损失函数，获取目标检索模型，本发明通过最小化损失函数，获取目标检索模型，使得候选代表词的集合是目标文本的代表词的概率更高，更好提高ad-hot检索任务的性能，并能取得更好的检索效果，得到的预训练检索模型能在零资源和低资源的信息检索条件下，实现较好的性能。

进一步地，S500将第一复数词向量D输入到量子概率模型，获取D对应的注意力值H₁包括：

S510，基于第一复值词向量D＝{D₁，D₂，…，D_j，…，D_m}，创建k个量子复合系统向量Ψ＝{Ψ₁，Ψ₂，...，Ψ_t，...，Ψ_k}，其中，

r_t、θ_t为可训练权重参数，t得到取值范围是1到k，Ψ_t表示u_t、D₁、D₂、...、D_m的张量积。

S520，基于Ψ获取第一密度矩阵集ρ＝{ρ₁，ρ₂，…，ρ_t，…，ρ_k}，其中，第t个第一密度矩阵ρ_t＝Ψ_t·(Ψ_t)^H，(Ψ_t)^H是Ψ_t的共轭转置矩阵。

S530，获取第一复值词向量D在第一密度矩阵ρ上的第一重要系数CW＝[CW1，CW2，…，CWt，…，CWk]，第t个第一重要系数CW_t＝[CW_t1，CW_t2，…，CW_tj，…，CW_tm]，其中，CW_tj表示第一复值词向量D_j在第一密度矩阵ρ_t上的重要系数，通过公式CW_tj＝softmax(σ(ρ_t,D_j))得到，其中，

tr(·)为矩阵取迹运算，/>

所述softmax函数是归一化指数函数。

具体地，(D_j)^T是D_j的转置矩阵。

S540，基于第一重要系数CW，获取第一复值词向量D的注意力值A(ρ,D)＝[A(ρ₁,D),A(ρ₂,D),....,A(ρ_t,D),...,A(ρ_k,D)]，其中，A(ρ_t,D)＝[CW_t1·D₁,CW_t2·D₂,...,CW_tj·D_j,...,CW_tm·D_m]。

更进一步，本发明S500将第二复数词向量E输入到量子概率模型，获取E对应的第二注意力值H₂包括：

S501，基于第二复值词向量E＝{E₁，E₂，…，E_j，…，E_m}，创建k个量子复合系统向量SΨ＝{SΨ₁，SΨ₂，...，SΨ_t，...，SΨ_k}，其中，

Sr_t、Sθ_t为可训练权重参数，t得到取值范围是1到k，SΨ_t表示Su_t、E₁、E₂、...、E_m的张量积。

S502，基于SΨ获取第二密度矩阵集Sρ＝{Sρ₁，Sρ₂，…，Sρ_t，…，Sρ_k}，其中，第t个第二密度矩阵Sρ_t＝SΨ_t·(SΨ_t)^H，其中，(SΨ_t)^H是SΨ_t的共轭转置矩阵。

S503，获取第二复值词向量E在第二密度矩阵集Sρ上的第二重要系数SW＝[SW₁，SW₂，...，SW_t，...，SW_k]，第t个第二重要系数SW_t＝[SW_t1，SW_t2，…，SW_tj，…，SW_tm]，其中，SW_tj表示第二复值词向量E_j在第二密度矩阵Sρ_t的重要系数，通过公式SW_tj＝softmax(σ(Sρ_t,E_j))得到，其中，

tr(·)为矩阵取迹运算，/>

所述softmax函数是归一化指数函数。

S504，基于第二重要系数SW，获取第二复值词向量E的注意力值SA(Sρ,E)＝[SA(Sρ₁,E),SA(Sρ₂,E),....,SA(Sρ_t,E),...,SA(Sρ_k,E)]，其中，SA(Sρ_t,E)＝[SW_t1·E₁,SW_t2·E₂,...,SW_tj·E_j,...,SW_tm·E_m]。

基于此，本发明引入了量子概率理论提出了一种注意力机制用于提高预训练模型构建语言上下文的能力，用于捕获词在认知层面可解释性的组合(短语或句子)的涌现意义，从而提高了检索的精度。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种构建检索模型的方法，其特征在于，所述方法包括如下步骤：

S100，获取目标文本的目标文本词向量W，其中，目标文本词在目标文本词向量中的先后顺序和其在目标文本中出现的先后顺序一致；

S200，获取目标文本对应的候选代表词集合S₁和候选随机词集合S₂，其中，所述候选代表词是预设词表中和目标文本相关的文本词，所述候选随机词是预设词表中随机选取的文本词；

S300，基于目标文本词向量W、候选代表词集合S₁和候选随机词集合S₂进行拼接，构建P₁＝[CLS]+S₁+[SEP]+W+[SEP]和P₂＝[CLS]+S₂+[SEP]+W+[SEP]，其中，所述[CLS]和[SEP]是标识符，所述[CLS]是起始符，所述[SEP]是中间隔离符；

S400，将P₁和P₂分别映射到n维希尔伯特空间，获取P₁对应的第一复值词向量D和P₂对应的第二复值词向量E；

S500，将第一复值词向量D和第二复值词向量E分别输入到量子概率模型，获取D对应的第一注意力值H₁和E对应的第二注意力值H₂；

S600，将第一注意力值H₁和第二注意力值H₂输入多层感知机，以获取S₁是W的代表词的概率P(S₁|W)和S₂是W的代表词的概率P(S₂|W)；

S700，通过最小化损失函数L＝max(0，1-P(S₁|W)+P(S₂|W))，反向传播更新所述量子概率模型的参数以获取目标检索模型；

其中，S400将P₁映射到n维希尔伯特空间，获取P₁对应的第一复值词向量D具体包括：

S410，获取P₁对应的第一文本词TP₁＝(TP₁₁，TP₁₂，…，TP_1j，…，TP_1m)，TP_1j是TP₁中第j个第一文本词，j的取值范围是1到m，m是P₁中第一文本词的数量；

从而获取第一复值词向量D＝{D₁，D₂，…，D_j，…，D_m}，其中，振幅向量r_j＝[r_j1，r_j2，……，r_jn]表示P_1j的n个的隐含语义，周期向量ω_j＝[ω_j1，ω_j2，……，ω_jn]表示P_1j对位置的敏感程度，相位向量θ_j＝[θ_j1,θ_j2，……，θ_jn]表示P_1j的初始相位；

其中，S400将P₂映射到n维希尔伯特空间，获取P₂对应的第二复值词向量E包括：

S401，获取P₂对应的第二文本词TP₂＝(TP₂₁，TP₂₂，…，TP_2j，…，TP_2m)，TP_2j是TP₂中第j个第二文本词；

从而获取第二复值词向量E＝{E₁，E₂，…，E_j，…，E_m}，其中，振幅向量Sr_j＝[Sr_j1，Sr_j2，……，Sr_jn]表示P_2j的n个的隐含语义，周期向量Sω_j＝[Sω_j1，Sω_j2，……，Sω_jn]表示P_2j对位置的敏感程度，相位向量Sθ_j＝[Sθ_j1,Sθ_j2，……，Sθ_jn]表示P_2j的初始相位；

其中，S500将第一复数词向量D输入到量子概率模型，获取D对应的第一注意力值H₁包括：

r_t、θ_t为可训练权重参数，t得到取值范围是1到k，Ψ_t表示u_t、D₁、D₂、...、D_m的张量积；

S520，基于Ψ获取第一密度矩阵集ρ＝{ρ₁，ρ₂，…，ρ_t，…，ρ_k}，其中，第t个第一密度矩阵ρ_t＝Ψ_t·(Ψ_t)^H，(Ψ_t)^H是Ψ_t的共轭转置矩阵；

tr(·)为矩阵取迹运算，/>

所述softmax函数是归一化指数函数；

S540，基于第一重要系数CW，获取第一复值词向量D的注意力值A(ρ,D)＝[A(ρ₁,D),A(ρ₂,D),....,A(ρ_t,D),...,A(ρ_k,D)]，其中，A(ρ_t,D)＝[CW_t1·D₁,CW_t2·D₂,...,CW_tj·D_j,...,CW_tm·D_m]；

其中，S500将第二复数词向量E输入到量子概率模型，获取E对应的第二注意力值H₂包括：

Sr_t、Sθ_t为可训练权重参数，t得到取值范围是1到k，SΨ_t表示Su_t、E₁、E₂、...、E_m的张量积；

S502，基于SΨ获取第二密度矩阵集Sρ＝{Sρ₁，Sρ₂，…，Sρ_t，…，Sρ_k}，其中，第t个第二密度矩阵Sρ_t＝SΨ_t·(SΨ_t)^H，其中，(SΨ_t)^H是SΨ_t的共轭转置矩阵；

tr(·)为矩阵取迹运算，/>

所述softmax函数是归一化指数函数；

S504，基于第二重要系数SW，获取第二复值词向量E的注意力值SA(Sρ,E)＝[SA(Sρ₁,E),SA(Sρ₂,E),....,SA(Sρ_t,E),...,SA(Sρ_k,E)]，其中，SA(Sρ_t,E)＝[SW_t1·E₁,SW_t2·E₂,…,SW_tj·E_j,...,SW_tm·E_m]。

2.根据权利要求1所述的方法，其特征在于，多层感知机使用sigmoid输出激活函数。

3.根据权利要求1所述的方法，其特征在于，S100中获取目标文本的目标文本词向量W至少包括：对目标文本进行去符号、分词和词典映射。

4.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行，以实现如权利要求1-3中任意一项的所述方法。

5.一种电子设备，其特征在于，包括处理器和权利要求4中所述的非瞬时性计算机可读存储介质。