CN114281944B - 文档匹配模型的构建方法、装置、电子设备及存储介质 - Google Patents

文档匹配模型的构建方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114281944B
CN114281944B CN202111619353.6A CN202111619353A CN114281944B CN 114281944 B CN114281944 B CN 114281944B CN 202111619353 A CN202111619353 A CN 202111619353A CN 114281944 B CN114281944 B CN 114281944B
Authority
CN
China
Prior art keywords
document
feature
document feature
matching
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111619353.6A
Other languages
English (en)
Other versions
CN114281944A (zh
Inventor
蒋永余
王俊艳
王璋盛
曹家
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202111619353.6A priority Critical patent/CN114281944B/zh
Publication of CN114281944A publication Critical patent/CN114281944A/zh
Application granted granted Critical
Publication of CN114281944B publication Critical patent/CN114281944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文档匹配模型的构建方法、装置、电子设备及存储介质,其中,该方法包括:步骤一,获取查询词汇特征集合和文档特征集合;步骤二,获得查询词汇特征集合和文档特征集合的相关性特征值;步骤三,获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征;步骤四,获得第二文档特征;步骤五,将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四;步骤六,根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数构建匹配模型。实施本申请实施例,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率和检索性能。

Description

文档匹配模型的构建方法、装置、电子设备及存储介质
技术领域
本申请涉及神经网络技术领域,具体而言,涉及一种文档匹配模型的构建方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能技术的日新月异,神经网络的应用越来越广泛,很多神经网络模型也被应用到了检索领域,然而,不管是经典信息检索模型还是神经网络匹配模型,大都建立在独立相关性假设上,即一个文档与用户信息需求的相关性不依赖于其他文档。
但是,在实际的检索情况下,用户对文档的匹配性、相关性判断是一个复杂而主观的认知过程,会受到他在搜索过程中先前浏览的文档的影响,表现为匹配模型计算的相关性与用户认知始终存在一定的差距。然而,现有的经典信息匹配模型和神经网络匹配模型大都没有考虑这种认知现象,因此,无法将认知层面的相关性特征引入匹配模型,限制了匹配模型进一步提高的能力。
发明内容
本申请实施例的目的在于提供一种文档匹配模型的构建方法、装置、电子设备及计算机可读存储介质,将匹配模型和用户认知联系起来,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率和检索性能。
第一方面,本申请实施例提供了一种文档匹配模型的构建方法,所述方法包括:
步骤一,获取查询词汇特征集合和文档特征集合;
步骤二,根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值;
步骤三,根据所述相关性特征值获得所述文档特征集合中每个文档特征与所述查询词汇特征集合的第一匹配值,选取所述第一匹配值最大的所述文档特征,作为第一文档特征,并获得包含除所述第一文档特征以外的文档特征的候选文档特征集合和包含所述第一文档特征的有序文档特征集合;
步骤四,根据所述第一文档特征和所述候选文档特征集合获得第二文档特征,并将所述第二文档特征放入所述有序文档特征集合;
步骤五,将所述候选文档特征集合作为新的候选文档特征集合,将所述第二文档特征作为新的第一文档特征,重复步骤四,直到所述新的候选文档特征集合为空;
步骤六,根据所述有序文档特征集合和所述文档特征集合获得损失函数,并根据所述损失函数构建匹配模型。
在上述实现过程中,在文档数据的匹配过程中引入认知干涉特征,并通过文档数据的相关性计算得到符合用户认知的匹配模型,将匹配模型和用户认知联系起来,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率、匹配性能和匹配精度。
进一步地,所述根据所述第一文档特征和所述候选文档特征集合获得第二文档特征的步骤,包括:
获得所述候选文档特征集合中任意两个文档特征的匹配性特征值;
根据所述匹配性特征值获得所述第一文档特征与所述候选文档特征集合之间的干涉匹配值;
根据所述干涉匹配值和所述第一匹配值获得第二匹配值;
选取所述候选文档特征集合中所述第二匹配值最大的文档特征,作为所述第二文档特征。
在上述实现过程中,根据第一文档特征和候选文档特征集合,获得文档特征集合中相关性最大的文档特征,可以获取到与查询词汇依赖性和符合度最高的第二文档特征,提高后续检索的准确性。
进一步地,根据以下公式获得所述候选文档特征集合中任意两个文档特征的匹配性特征值:
Figure BDA0003437362110000031
其中,
Figure BDA0003437362110000032
为第j个文档特征Dj中第k个文档词
Figure BDA0003437362110000033
在第j个文档特征Dj中的重要性特征值,
Figure BDA0003437362110000034
为第j个文档词
Figure BDA0003437362110000035
与第i个文档特征Di的匹配性特征值。
在上述实现过程中,获取文档特征集合中任意两个文档特征的匹配性特征值,可以通过文档特征与文档特征的匹配度选取匹配值最大的文档数据,提高匹配的精确度。
进一步地,根据以下公式根据所述匹配性特征值获得所述第一文档特征与所述候选文档特征集合之间的干涉匹配值:
Figure BDA0003437362110000036
其中,I(Dmax,Dj)表示所述第一文档特征Dmax与所述候选文档特征集合中第j个文档特征Dj的干涉匹配值,G(Q,Dj)为第j个文档特征与查询词汇特征集合的第一匹配值,G(Q,Dmax)为所述第一文档特征与所述查询词汇特征集合的第一匹配值,H(Dmax,Dj)为所述第一文档特征与所述候选文档特征集合中第j个文档特征的匹配性特征值。
在上述实现过程中,通过计算第一文档特征与候选文档特征集合中任意一个文档特征的干涉匹配值,使得匹配结果更加精准,干涉匹配值可以在两对文档特征的匹配值相同时,区分其相关性大小。
进一步地,根据以下公式根据所述干涉匹配值和所述第一匹配值获得第二匹配值:
S(Dj|O)=G(Q,Dj)+I(Dmax,Dj),Dj∈D;
S(Dj|O)为所述第二匹配值,G(Q,Dj)为所述第一匹配值,I(Dmax,Dj)为所述干涉匹配值。
在上述实现过程中,根据第一匹配值和干涉匹配值获得第二匹配值和相关性最高的文档特征,可以使得匹配的精确性更高。
进一步地,根据以下公式选取所述候选文档特征集合中所述第二匹配值最大的文档特征,作为所述第二文档特征:
Figure BDA0003437362110000041
其中,Dnew_max为第二匹配值最大的文档特征。
在上述实现过程中,选取候选文档特征集合中第二匹配值最大的文档特征,可以帮助匹配模型选取候选文档特征集合中最符合的文档特征。
进一步地,根据以下公式根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值的公式:
Figure BDA0003437362110000042
其中,
Figure BDA0003437362110000043
为第i个文档特征Di中第j个文档词
Figure BDA0003437362110000044
在第i个文档特征Di中的重要性特征值,
Figure BDA0003437362110000045
为第j个文档词
Figure BDA0003437362110000046
与第i个文档特征Di的匹配性特征值。
在上述实现过程中,查询词汇特征集合和文档特征集合获得相关性特征值可以进一步加深文档特征对查询词汇特征的依赖性,使得后续选取到的文档特征更加贴近查询词汇特征。
第二方面,本申请实施例还提供了一种文档匹配模型的构建装置,所述装置包括:
获取模块,用于获取查询词汇特征集合和文档特征集合;
计算模块,用于根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值;
第一文档特征获得模块,用于根据所述相关性特征值获得所述文档特征集合中每个文档特征与所述查询词汇特征集合的第一匹配值,选取所述第一匹配值最大的所述文档特征,作为第一文档特征,并获得包含除所述第一文档特征以外的文档特征的候选文档特征集合和包含所述第一文档特征的有序文档特征集合;
第二文档特征获得模块,用于根据所述第一文档特征和所述候选文档特征集合获得第二文档特征,并将所述第二文档特征放入所述有序文档特征集合;
迭代模块,用于将所述候选文档特征集合作为新的候选文档特征集合,将所述第二文档特征作为新的第一文档特征,重复步骤四,直到所述新的候选文档特征集合为空;
构建模块,用于根据所述有序文档特征集合和所述文档特征集合获得损失函数,并根据所述损失函数构建匹配模型。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的文档匹配模型的构建方法的流程示意图;
图2为本申请实施例提供的文档匹配模型的构建装置的结构组成示意图;
图3为本申请实施例提供的电子设备的结构组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
实施例一
图1是本申请实施例提供的文档匹配模型的构建方法的流程示意图,如图1所示,该方法包括:
步骤一,获取查询词汇特征集合和文档特征集合;
步骤二,根据查询词汇特征集合和文档特征集合获得查询词汇特征集合和文档特征集合的相关性特征值;
步骤三,根据相关性特征值获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征,作为第一文档特征,并获得包含除第一文档特征以外的文档特征的候选文档特征集合和包含第一文档特征的有序文档特征集合;
步骤四,根据第一文档特征和候选文档特征集合获得第二文档特征,并将第二文档特征放入有序文档特征集合;
步骤五,将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四,直到新的候选文档特征集合为空;
步骤六,根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数构建匹配模型。
以本实施例为例,在文档数据的匹配过程中引入认知干涉特征,并通过文档数据的相关性计算得到符合用户认知的匹配模型,将匹配模型和用户认知联系起来,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率、匹配性能和匹配精度。
步骤一,获取查询词汇特征集合和文档特征集合。
查询词汇为可以提现匹配过程中文档数据中重要特征的词汇,主要通过文档数据和查询词汇的重合度进行匹配。查询词汇和文档数据经过去符号、分词和词典映射等操作,并通过使用预训练的Bert模型得到查询词汇汇特征向量和文档特征向量。最终将查询词汇汇特征向量表示为N个查询词汇的查询词汇特征集合Q={q1,q2,...,qN};第i个文档特征向量则表示为M 个文档词的特征向量集合
Figure BDA0003437362110000081
包含K个文档特征向量的文档特征集合可以表示为D={D1,D2,...,DK}。
将查询词汇和文档数据进行编码的过程可以通过公式(1)计算得到:
Figure BDA0003437362110000082
其中,ρQ为查询词汇编码完成的特征分布,
Figure BDA0003437362110000083
为文档数据编码完成的特征分布,K个文档特征分布集合
Figure BDA0003437362110000084
步骤二,根据查询词汇特征集合和文档特征集合获得查询词汇特征集合和文档特征集合的相关性特征值。
进一步地,根据以下公式(2)查询词汇特征集合和文档特征集合获得查询词汇特征集合和文档特征集合的相关性特征值:
Figure BDA0003437362110000085
其中,
Figure BDA0003437362110000086
为第i个文档特征Di中第j个文档词
Figure BDA0003437362110000087
在第i个文档特征Di中的重要性特征值,
Figure BDA0003437362110000088
为第j个文档词
Figure BDA0003437362110000089
与第i个文档特征Di的匹配性特征值。
以本实施例为例,查询词汇特征集合和文档特征集合获得相关性特征值可以进一步加深文档特征对查询词汇特征的依赖性,使得后续选取到的文档特征更加贴近查询词汇特征。
步骤三,根据相关性特征值获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征,作为第一文档特征,并获得包含除第一文档特征以外的文档特征的候选文档特征集合和包含第一文档特征的有序文档特征集合。
示例性地,第一匹配值可以根据深度神经网络(Deep Neural Networks, DNN)进行计算,也可以为CNN,LSTM和Transformer等神经网络及其变体。
根据以下公式(3)利用DNN计算第一匹配值:
Figure BDA0003437362110000091
其中,G(Q,Di)表示查询词汇特征集合Q与候选文档特征集合中第i个文档Di的匹配值。
根据以下公式(4)(5)选取第一匹配值最大的文档特征:
Figure BDA0003437362110000092
S(Dmax)=G(Q,Dmax); (5)
其中,Dmax为选出的第一匹配值最大的文档特征,S(Dmax)为第一匹配值。同时,将文档特征Dmax加入有序文档特征集合O={Dmax},并获得候选文档特征集合D=D\Dmax
步骤四,根据第一文档特征和候选文档特征集合获得第二文档特征,包括:
获得候选文档特征集合中任意两个文档特征的匹配性特征值;
根据匹配性特征值获得第一文档特征与候选文档特征集合之间的干涉匹配值;
根据干涉匹配值和第一匹配值获得第二匹配值;
选取候选文档特征集合中第二匹配值最大的文档特征,作为第二文档特征。
以本实施例为例,根据第一文档特征和候选文档特征集合,获得文档特征集合中相关性最大的文档特征,可以获取到与查询词汇依赖性和符合度最高的第二文档特征,提高后续检索的准确性。
进一步地,根据以下公式(6)获得候选文档特征集合中任意两个文档特征的匹配性特征值:
Figure BDA0003437362110000101
其中,
Figure BDA0003437362110000102
为第j个文档特征Dj中第k个文档词
Figure BDA0003437362110000103
在第j个文档特征Dj中的重要性特征值,
Figure BDA0003437362110000104
为第j个文档词
Figure BDA0003437362110000105
与第i个文档特征Di的匹配性特征值。
以本实施例为例,获取文档特征集合中任意两个文档特征的匹配性特征值,可以通过文档特征与文档特征的匹配度选取匹配值最大的文档数据,提高匹配的精确度。
进一步地,根据以下公式(7)根据匹配性特征值获得第一文档特征与候选文档特征集合之间的干涉匹配值:
Figure BDA0003437362110000106
其中,I(Dmax,Dj)表示第一文档特征Dmax与候选文档特征集合中第j个文档特征Dj的干涉匹配值,G(Q,Dj)为第j个文档特征与查询词汇特征集合的第一匹配值,G(Q,Dmax)为第一文档特征与查询词汇特征集合的第一匹配值,H(Dmax,Dj)为第一文档特征与候选文档特征集合中第j个文档特征的匹配性特征值。
以本实施例为例,通过计算第一文档特征与候选文档特征集合中任意一个文档特征的干涉匹配值,使得匹配结果更加精准,干涉匹配值可以在两对文档特征的匹配值相同时,区分其相关性大小。
进一步地,根据以下公式(8)根据干涉匹配值和第一匹配值获得第二匹配值:
S(Dj|O)=G(Q,Dj)+I(Dmax,Dj),Dj∈D; (8)
S(Dj|O)为第二匹配值,G(Q,Dj)为第一匹配值,I(Dmax,Dj)为干涉匹配值。
以本实施例为例,根据第一匹配值和干涉匹配值获得第二匹配值和相关性最高的文档特征,可以使得匹配的精确性更高。
进一步地,根据以下公式(9)选取候选文档特征集合中第二匹配值最大的文档特征,作为第二文档特征:
Figure BDA0003437362110000111
其中,Dnew_max为第二匹配值最大的文档特征,S(Dj|O)为第二匹配值。
以本实施例为例,选取候选文档特征集合中第二匹配值最大的文档特征,可以帮助匹配模型选取候选文档特征集合中最符合的文档特征。
步骤五,将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四,直到新的候选文档特征集合为空。
以本实施例为例,经过一次次的迭代,将候选文档特征集合中的文档特征全部选取出来,候选文档特征集合为空时,得到另外一个有序排列的有序文档特征集合。
步骤六,根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数更新匹配模型中的可训练参数。
根据获得的有序文档特征集合得到损失函数。示例性地,可以选用损失函数中的hinge loss方法训练模型。给定一个三元组(Q,D+,D-),其中D+为文档特征集合中经过标记为相关的文档特征,D-为文档特征集合中未经过标记的文档特征,此时损失函数为:
L(Q,D+,D-;Θ)=max(0,1-S(D+|O)+S(D-|O)); (10)
其中,S(D*|O)为候选文档特征D*最终的匹配值,Θ表示神经网络参数。模型训练的目标是使得L(Q,D+,D-;Θ)尽可能减小。最后匹配模型通过Adam优化器来更新模型的参数,从而得到匹配模型。
以本实施例为例,通过在文档数据的匹配过程中引入干涉特征,并通过文档数据的相关性计算得到符合用户认知的匹配模型,将匹配模型和用户认知联系起来,使得匹配模型可以引入认知层面的相关性特征,提高了匹配模型的准确率、匹配性能和匹配精度。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种文档匹配模型的构建装置,如图2所示,该装置包括:
获取模块,用于获取查询词汇特征集合和文档特征集合;
计算模块,用于根据查询词汇特征集合和文档特征集合获得查询词汇特征集合和文档特征集合的相关性特征值;
第一文档特征获得模块,用于根据相关性特征值获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值,选取第一匹配值最大的文档特征,作为第一文档特征,并获得包含除第一文档特征以外的文档特征的候选文档特征集合和包含第一文档特征的有序文档特征集合;
第二文档特征获得模块,用于根据第一文档特征和候选文档特征集合获得第二文档特征,并将第二文档特征放入有序文档特征集合;
迭代模块,用于将候选文档特征集合作为新的候选文档特征集合,将第二文档特征作为新的第一文档特征,重复步骤四,直到新的候选文档特征集合为空;
构建模块,用于根据有序文档特征集合和文档特征集合获得损失函数,并根据损失函数构建匹配模型。
进一步地,第二文档特征获得模块还用于:
获得候选文档特征集合中任意两个文档特征的匹配性特征值;
根据匹配性特征值获得第一文档特征与候选文档特征集合之间的干涉匹配值;
根据干涉匹配值和第一匹配值获得第二匹配值;
选取候选文档特征集合中第二匹配值最大的文档特征,作为第二文档特征。
上述的文档匹配模型的构建装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例,这里不再详述。
本申请实施例的其余内容可参照上述实施例一的内容,在本实施例中,不再进行赘述。
实施例三
本申请实施例提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的文档匹配模型的构建方法。
可选地,上述电子设备可以是服务器。
请参见图3,图3为本申请实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中,通信总线34用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
存储器33可以是,但不限于,随机存取存储器(Random Access Memory, RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器 (Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器33中存储有计算机可读取指令,当计算机可读取指令由所述处理器31执行时,设备可以执行上述图1方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33 中存储的可执行模块,例如设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
另外,本申请实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的文档匹配模型的构建方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种文档匹配模型的构建方法,其特征在于,所述方法包括:
步骤一,获取查询词汇特征集合和文档特征集合;
步骤二,根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值;
步骤三,根据所述相关性特征值获得所述文档特征集合中每个文档特征与所述查询词汇特征集合的第一匹配值,选取所述第一匹配值最大的所述文档特征,作为第一文档特征,并获得包含除所述第一文档特征以外的文档特征的候选文档特征集合和包含所述第一文档特征的有序文档特征集合;
步骤四,根据所述第一文档特征和所述候选文档特征集合获得第二文档特征,并将所述第二文档特征放入所述有序文档特征集合;
步骤五,将所述候选文档特征集合作为新的候选文档特征集合,将所述第二文档特征作为新的第一文档特征,重复步骤四,直到所述新的候选文档特征集合为空;
步骤六,根据所述有序文档特征集合和所述文档特征集合获得损失函数,并根据所述损失函数构建匹配模型;
其中,所述根据所述第一文档特征和所述候选文档特征集合获得第二文档特征的步骤,包括:
获得所述候选文档特征集合中任意两个文档特征的匹配性特征值;
根据所述匹配性特征值获得所述第一文档特征与所述候选文档特征集合之间的干涉匹配值;
根据所述干涉匹配值和所述第一匹配值获得第二匹配值;
选取所述候选文档特征集合中所述第二匹配值最大的文档特征,作为所述第二文档特征。
2.根据权利要求1所述的文档匹配模型的构建方法,其特征在于,根据以下公式获得所述候选文档特征集合中任意两个文档特征的匹配性特征值:
Figure FDA0003751517980000021
其中,
Figure FDA0003751517980000022
为第j个文档特征Dj中第k个文档词
Figure FDA0003751517980000023
在第j个文档特征Dj中的重要性特征值,
Figure FDA0003751517980000024
为第j个文档词
Figure FDA0003751517980000025
与第i个文档特征Di的匹配性特征值。
3.根据权利要求1所述的文档匹配模型的构建方法,其特征在于,根据以下公式根据所述匹配性特征值获得所述第一文档特征与所述候选文档特征集合之间的干涉匹配值:
Figure FDA0003751517980000026
其中,I(Dmax,Dj)表示所述第一文档特征Dmax与所述候选文档特征集合中第j个文档特征Dj的干涉匹配值,G(Q,Dj)为第j个文档特征与查询词汇特征集合的第一匹配值,G(Q,Dmax)为所述第一文档特征与所述查询词汇特征集合的第一匹配值,H(Dmax,Dj)为所述第一文档特征与所述候选文档特征集合中第j个文档特征的匹配性特征值。
4.根据权利要求1所述的文档匹配模型的构建方法,其特征在于,根据以下公式根据所述干涉匹配值和所述第一匹配值获得第二匹配值:
S(Dj|O)=G(Q,Dj)+I(Dmax,Dj),Dj∈D;
S(Dj|O)为所述第二匹配值,G(Q,Dj)为所述第一匹配值,I(Dmax,Dj)为所述干涉匹配值。
5.根据权利要求1所述的文档匹配模型的构建方法,其特征在于,根据以下公式选取所述候选文档特征集合中所述第二匹配值最大的文档特征,作为所述第二文档特征:
Figure FDA0003751517980000031
其中,Dnew_max为第二匹配值最大的文档特征。
6.根据权利要求1所述的文档匹配模型的构建方法,其特征在于,根据以下公式根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值:
Figure FDA0003751517980000032
其中,
Figure FDA0003751517980000033
为第i个文档特征Di中第j个文档词
Figure FDA0003751517980000034
在第i个文档特征Di中的重要性特征值,
Figure FDA0003751517980000035
为第j个文档词
Figure FDA0003751517980000036
与第i个文档特征Di的匹配性特征值。
7.一种文档匹配模型的构建装置,其特征在于,所述装置包括:
获取模块,用于获取查询词汇特征集合和文档特征集合;
计算模块,用于根据所述查询词汇特征集合和所述文档特征集合获得所述查询词汇特征集合和所述文档特征集合的相关性特征值;
第一文档特征获得模块,用于根据所述相关性特征值获得所述文档特征集合中每个文档特征与所述查询词汇特征集合的第一匹配值,选取所述第一匹配值最大的所述文档特征,作为第一文档特征,并获得包含除所述第一文档特征以外的文档特征的候选文档特征集合和包含所述第一文档特征的有序文档特征集合;
第二文档特征获得模块,用于根据所述第一文档特征和所述候选文档特征集合获得第二文档特征,并将所述第二文档特征放入所述有序文档特征集合;
迭代模块,用于将所述候选文档特征集合作为新的候选文档特征集合,将所述第二文档特征作为新的第一文档特征,重复步骤四,直到所述新的候选文档特征集合为空;
构建模块,用于根据所述有序文档特征集合和所述文档特征集合获得损失函数,并根据所述损失函数构建匹配模型;
其中,所述第二文档特征获得模块还用于:
获得所述候选文档特征集合中任意两个文档特征的匹配性特征值;
根据所述匹配性特征值获得所述第一文档特征与所述候选文档特征集合之间的干涉匹配值;
根据所述干涉匹配值和所述第一匹配值获得第二匹配值;
选取所述候选文档特征集合中所述第二匹配值最大的文档特征,作为所述第二文档特征。
8.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至6中任一项所述的文档匹配模型的构建方法。
9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文档匹配模型的构建方法。
CN202111619353.6A 2021-12-27 2021-12-27 文档匹配模型的构建方法、装置、电子设备及存储介质 Active CN114281944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111619353.6A CN114281944B (zh) 2021-12-27 2021-12-27 文档匹配模型的构建方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111619353.6A CN114281944B (zh) 2021-12-27 2021-12-27 文档匹配模型的构建方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114281944A CN114281944A (zh) 2022-04-05
CN114281944B true CN114281944B (zh) 2022-08-23

Family

ID=80876643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111619353.6A Active CN114281944B (zh) 2021-12-27 2021-12-27 文档匹配模型的构建方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114281944B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003243533A1 (en) * 2002-06-12 2003-12-31 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CN106339383B (zh) * 2015-07-07 2019-10-18 阿里巴巴集团控股有限公司 一种搜索排序方法及系统
CN111552767A (zh) * 2019-02-11 2020-08-18 阿里巴巴集团控股有限公司 搜索方法、搜索装置以及计算机设备
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN111177569B (zh) * 2020-01-07 2021-06-11 腾讯科技(深圳)有限公司 基于人工智能的推荐处理方法、装置及设备
CN111581401B (zh) * 2020-05-06 2023-04-07 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN113656660B (zh) * 2021-10-14 2022-06-28 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质
CN113627151B (zh) * 2021-10-14 2022-02-22 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统

Also Published As

Publication number Publication date
CN114281944A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN110737758A (zh) 用于生成模型的方法和装置
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114372475A (zh) 一种基于RoBERTa模型的网络舆情情感分析方法及系统
CN114492429B (zh) 文本主题的生成方法、装置、设备及存储介质
CN112182144B (zh) 搜索词标准化方法、计算设备和计算机可读存储介质
CN107193916B (zh) 一种个性化多样化查询推荐方法及系统
CN117131204A (zh) 一种大语言模型协同知识图谱的推理方法及装置
CN110287396B (zh) 文本匹配方法及装置
CN114281944B (zh) 文档匹配模型的构建方法、装置、电子设备及存储介质
CN116881470A (zh) 一种生成问答对的方法及装置
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质
CN116881471B (zh) 一种基于知识图谱的大语言模型微调方法及装置
CN114297357B (zh) 一种基于量子计算的问答模型构建方法、装置及电子设备
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN114091662B (zh) 一种文本图像生成方法、装置及电子设备
CN117236410B (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN110688446B (zh) 一种句义数学空间表示方法、系统、介质和设备
CN110929527B (zh) 一种确定语义相似度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant