CN115329749B - 一种语义检索的召回和排序联合训练方法及系统 - Google Patents

一种语义检索的召回和排序联合训练方法及系统 Download PDF

Info

Publication number
CN115329749B
CN115329749B CN202211257869.5A CN202211257869A CN115329749B CN 115329749 B CN115329749 B CN 115329749B CN 202211257869 A CN202211257869 A CN 202211257869A CN 115329749 B CN115329749 B CN 115329749B
Authority
CN
China
Prior art keywords
model
text
recall
tower
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211257869.5A
Other languages
English (en)
Other versions
CN115329749A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN202211257869.5A priority Critical patent/CN115329749B/zh
Publication of CN115329749A publication Critical patent/CN115329749A/zh
Application granted granted Critical
Publication of CN115329749B publication Critical patent/CN115329749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种语义检索的召回和排序联合训练方法及系统,涉及信息检索技术领域,所述方法包括:基于查询文本和检索文本建立召回和排序联合模型,使双塔模型和单塔模型输出分布拟合;基于查询文本对召回和排序联合模型进行无监督训练;基于查询文本和检索文本对召回和排序联合模型进行有监督训练;通过召回和排序联合模型的双塔模型生成负样本;迭代训练召回和排序联合模型。本发明通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。

Description

一种语义检索的召回和排序联合训练方法及系统
技术领域
本发明涉及信息检索技术领域,具体而言,涉及一种语义检索的召回和排序联合训练方法及系统。
背景技术
传统的信息检索主要基于关键词,从字面意义上进行搜索。语义检索是指检索引擎的工作不再局限于用户所输入请求语句的字面本身,而是准确捕捉用户输入的真正意图,并以此进行检索,从而更准确地向用户返回最符合其需求的检索结果。
目前语义检索主要采用神经网络模型,包含交互型模型(单塔模型)和表示型模型(双塔模型)。交互型模型需要将两个待匹配的文本拼接作为神经网络的输入,因此每次检索时需要将检索文本与库内海量查询文本依次组合进行计算;表示型模型则可以离线计算库内所有文本的特征向量,并构建索引,每次检索时仅需要将检索文本进行神经网络的计算,从而节约大量时间。交互式模型因为在训练的过程中有信息交互,所以效果表现不错,缺点是计算时间长;表示型模型因为可以提前离线计算,计算时间短,也因模型底层无信息交互,因此效果较差。根据两种模型的优缺点,语义检索通常采用双塔模型在海量数据中召回一批数据,再对召回数据通过单塔模型进行排序。如果召回数据太多,也会影响检索性能。
发明内容
本发明实施例提供了一种语义检索的召回和排序联合训练方法及系统,由于双塔模型查全率比排序模型低,通过双塔模型和单塔模型的联合训练,拟合双塔模型和单塔模型的数据输出分布,提升语义检索中双塔模型的查全率;并且通过提升查全率,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
在第一方面,本发明实施例中提供一种语义检索的召回和排序联合训练方法,所述方法包括以下步骤:
(1)获取查询文本和检索文本;
(2)基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
(3)基于查询文本对召回和排序联合模型进行无监督训练;
(4)基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
(5)将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
(6)基于正样本和负样本迭代训练召回和排序联合模型。
作为本申请一些可选实施方式,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
(2.1)通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取,得到文本特征
Figure 779696DEST_PATH_IMAGE001
Figure 813511DEST_PATH_IMAGE002
(2.2)计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度
Figure 525115DEST_PATH_IMAGE003
Figure 655882DEST_PATH_IMAGE004
其中,
Figure 794740DEST_PATH_IMAGE005
为查询文本q=Text1和检索文本p= Text2的向量内积,
Figure 112588DEST_PATH_IMAGE006
为激活函数;
(2.3)通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征
Figure 565567DEST_PATH_IMAGE007
(2.4)计算查询文本和检索文本的单塔模型相似度
Figure 550840DEST_PATH_IMAGE008
Figure 860599DEST_PATH_IMAGE009
其中,
Figure 665744DEST_PATH_IMAGE007
为特殊字符拼接结果Text1+ Text2的1维向量,
Figure 719150DEST_PATH_IMAGE006
为激活函数;
(2.5)基于双塔模型相似度
Figure 558930DEST_PATH_IMAGE003
和单塔模型相似度
Figure 242853DEST_PATH_IMAGE008
计算召回和排序联合模型的总损失
Figure 800873DEST_PATH_IMAGE010
,使得双塔模型和单塔模型输出分布拟合。
作为本申请一些可选实施方式,计算召回和排序联合模型的总损失
Figure 392391DEST_PATH_IMAGE010
的流程如下:
(2.51)计算双塔模型的模型损失
Figure 352257DEST_PATH_IMAGE011
Figure 3818DEST_PATH_IMAGE012
(2.52)计算单塔模型的模型损失
Figure 721238DEST_PATH_IMAGE013
Figure 116448DEST_PATH_IMAGE014
(2.53)计算双塔模型和单塔模型的输出分布的欧拉距离
Figure 930820DEST_PATH_IMAGE015
Figure 753282DEST_PATH_IMAGE016
(2.54)基于模型损失
Figure 20316DEST_PATH_IMAGE011
、模型损失
Figure 219216DEST_PATH_IMAGE013
以及欧拉距离
Figure 91357DEST_PATH_IMAGE015
计算总损失
Figure 84721DEST_PATH_IMAGE010
,并且进行模型反向传播:
Figure 839050DEST_PATH_IMAGE017
其中,N表示训练样本的数量,
Figure 841641DEST_PATH_IMAGE018
表示与查询文本q相关的检索文本,
Figure 365026DEST_PATH_IMAGE019
表示与查询文本q不相关的检索文本;
Figure 466975DEST_PATH_IMAGE020
(0,1)表示边界,Q表示查询样本q的数量,即为N,
Figure 708600DEST_PATH_IMAGE021
表示对应检索文本的数量。
作为本申请一些可选实施方式,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:
(3.1)将两个查询文本q=Text1=Text2输入双塔模型,并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取,得到文本特征
Figure 514882DEST_PATH_IMAGE022
Figure 33719DEST_PATH_IMAGE023
(3.2)计算查询文本Text1、Text2的双塔模型相似度
Figure 900044DEST_PATH_IMAGE024
,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
(3.3)将两个查询文本Text1、Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征
Figure 628966DEST_PATH_IMAGE025
(3.4)计算两个查询文本Text1、Text2的单塔模型相似度
Figure 238939DEST_PATH_IMAGE026
(3.5)基于正样本和负样本计算双塔模型的模型损失
Figure 612282DEST_PATH_IMAGE027
以及单塔模型的模型损失
Figure 649508DEST_PATH_IMAGE028
,并且进行模型反向传播。
作为本申请一些可选实施方式,基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下:
(4.1)将查询文本q、与查询文本q相关的检索文本
Figure 865726DEST_PATH_IMAGE018
作为正样本,将查询文本q、与查询文本q不相关的检索文本
Figure 748231DEST_PATH_IMAGE019
作为负样本;
(4.2)基于正样本和负样本计算双塔模型的模型损失
Figure 366295DEST_PATH_IMAGE029
以及单塔模型的模型损失
Figure 308843DEST_PATH_IMAGE030
,并且进行模型反向传播。
作为本申请一些可选实施方式,通过召回和排序联合模型的双塔模型生成正样本和负样本的流程如下:
(5.1)通过双塔模型对检索文本p进行文本特征提取,得到文本特征
Figure 746777DEST_PATH_IMAGE031
Figure 432974DEST_PATH_IMAGE032
、…、
Figure 639964DEST_PATH_IMAGE033
(5.2)通过双塔模型对查询文本q进行文本特征提取,得到文本特征
Figure 691097DEST_PATH_IMAGE001
(5.3)分别计算查询文本q与若干检索文本p的向量内积
Figure 616327DEST_PATH_IMAGE034
Figure 840635DEST_PATH_IMAGE035
、…、
Figure 167711DEST_PATH_IMAGE036
,并且对若干向量内积进行排序;
(5.4)基于向量内积的排序选取前
Figure 186483DEST_PATH_IMAGE037
的检索文本
Figure 536693DEST_PATH_IMAGE038
Figure 705637DEST_PATH_IMAGE039
、…、
Figure 152799DEST_PATH_IMAGE040
,将查询文本q和检索文本
Figure 873630DEST_PATH_IMAGE038
Figure 507874DEST_PATH_IMAGE039
、…、
Figure 339564DEST_PATH_IMAGE040
分别组合,作为负样本。
作为本申请一些可选实施方式,基于正样本和负样本迭代训练召回和排序联合模型的流程如下:
(6.1)将查询文本q、与查询文本q相关的检索文本
Figure 782178DEST_PATH_IMAGE018
作为正样本,将查询文本q和检索文本
Figure 408331DEST_PATH_IMAGE038
Figure 529871DEST_PATH_IMAGE039
、…、
Figure 899672DEST_PATH_IMAGE040
分别组合,作为负样本;
(6.2)基于正样本和负样本计算双塔模型的模型损失
Figure 55847DEST_PATH_IMAGE041
以及单塔模型的模型损失
Figure 649639DEST_PATH_IMAGE042
(6.3)重复进行步骤(6.1)和步骤(6.2),迭代训练召回和排序联合模型。
在第二方面,本发明提供一种语义检索的召回和排序联合训练系统,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
在第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述一种语义检索的召回和排序联合训练方法。
在第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述一种语义检索的召回和排序联合训练方法。
本发明的有益效果如下:
(1)由于召双塔模型查全率比单塔模型低,通过双塔模型和单塔模型的联合训练,拟合双塔模型和双塔模型的数据输出分布,提升语义检索中双塔模型的查全率。
(2)由于双塔模型的查全率得到提升,在查全率相同的情况下,减少单塔模型的计算量,提升语义检索性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是根据本发明的一些实施例所述语义检索的召回和排序联合训练方法的步骤图。
图2是根据本发明的一些实施例所述召回和排序联合模型的结构框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
同样应当理解的是,为了简化本发明揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
实施例1
本发明提供一种语义检索的召回和排序联合训练方法,请参阅图1,所述方法包括以下步骤:
(1)获取查询文本和检索文本;
即获取大量的查询文本,例如:文档的关键词、标题、部分段落、问题等无标注数据作为查询文本q,检索文本p一般为若干关键词,其中,查询文本q与对应的若干检索文本p相关;
(2)基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;其中,所述召回和排序联合模型包括双塔模型(召回模型)和单塔模型(排序模型);
于本发明实施例中,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
①对于双塔模型:
(2.1)通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取,得到文本特征
Figure 387702DEST_PATH_IMAGE001
Figure 295615DEST_PATH_IMAGE002
,请参阅图2,左侧为双塔模型,即召回模型,右侧为单塔模型,即排序模型;
其中,双塔模型由预训练模型(如BERT、ERNIE等)、dropout层、线性层组成,预训练模型主要提取文本特征,dropout层随机丢弃部分特征,线性层把预训练模型提取的高维特征进行降维;
(2.2)计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度
Figure 306297DEST_PATH_IMAGE003
Figure 274253DEST_PATH_IMAGE004
其中,
Figure 370385DEST_PATH_IMAGE005
为查询文本q=Text1和检索文本p= Text2的向量内积,
Figure 19672DEST_PATH_IMAGE006
为激活函数,将相似度放缩到[0,1]区间;
②对于单塔模型:
(2.3)通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征
Figure 150439DEST_PATH_IMAGE007
其中,单塔模型由预训练模型(如BERT、ERNIE等)、dropout层、线性层组成,预训练模型主要提取文本特征,dropout层随机丢弃部分特征,线性层输出Text1+Text2的1维特征;
(2.4)计算查询文本和检索文本的单塔模型相似度
Figure 289296DEST_PATH_IMAGE008
Figure 872724DEST_PATH_IMAGE009
其中,
Figure 388019DEST_PATH_IMAGE007
为特殊字符拼接结果Text1+ Text2的1维向量,
Figure 107713DEST_PATH_IMAGE006
为激活函数;
(2.5)基于双塔模型相似度
Figure 355155DEST_PATH_IMAGE003
和单塔模型相似度
Figure 691459DEST_PATH_IMAGE008
计算召回和排序联合模型的总损失
Figure 744865DEST_PATH_IMAGE010
,使得双塔模型和单塔模型输出分布拟合。
于本发明实施例中,计算召回和排序联合模型的总损失
Figure 584645DEST_PATH_IMAGE010
的流程如下:
(2.51)计算双塔模型的模型损失
Figure 65305DEST_PATH_IMAGE011
Figure 623325DEST_PATH_IMAGE043
(2.52)计算单塔模型的模型损失
Figure 152527DEST_PATH_IMAGE013
Figure 846813DEST_PATH_IMAGE044
(2.53)计算双塔模型和单塔模型的输出分布的欧拉距离
Figure 763954DEST_PATH_IMAGE015
Figure 543691DEST_PATH_IMAGE045
(2.54)基于模型损失
Figure 938900DEST_PATH_IMAGE011
、模型损失
Figure 753272DEST_PATH_IMAGE013
以及欧拉距离
Figure 513418DEST_PATH_IMAGE015
计算总损失
Figure 780451DEST_PATH_IMAGE010
,并且进行模型反向传播:
Figure 979352DEST_PATH_IMAGE017
其中,N表示训练样本的数量,
Figure 648230DEST_PATH_IMAGE018
表示与查询文本q相关的检索文本,
Figure 641594DEST_PATH_IMAGE019
表示与查询文本q不相关的检索文本;
Figure 333607DEST_PATH_IMAGE020
(0,1)表示边界,Q表示查询样本q的数量,即为N,
Figure 336198DEST_PATH_IMAGE021
表示对应检索文本的数量;当查询文本q和检索文本
Figure 859583DEST_PATH_IMAGE018
Figure 289427DEST_PATH_IMAGE046
的相似度
Figure 531053DEST_PATH_IMAGE047
大于相似度
Figure 806176DEST_PATH_IMAGE048
,并且(
Figure 387330DEST_PATH_IMAGE049
)大于
Figure 722497DEST_PATH_IMAGE050
时,模型损失
Figure 451418DEST_PATH_IMAGE011
为0,优化目标是使得正样本的相似度大于负样本及负样本的相似度,同理计算
Figure 530233DEST_PATH_IMAGE051
Figure 28210DEST_PATH_IMAGE052
为双塔模型与单塔模型数据分布的欧式距离,优化目标是使双塔模型输出分布动态拟合单塔模型输出分布。
(3)基于查询文本对召回和排序联合模型进行无监督训练;
于本发明实施例中,无监督训练的流程如下:
①对于双塔模型:
(3.1)将两个查询文本q=Text1=Text2输入双塔模型,并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取,得到文本特征
Figure 737540DEST_PATH_IMAGE053
Figure 688179DEST_PATH_IMAGE054
(3.2)计算查询文本Text1、Text2的双塔模型相似度
Figure 570684DEST_PATH_IMAGE024
,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
Figure 923168DEST_PATH_IMAGE055
其中,
Figure 865716DEST_PATH_IMAGE056
为查询文本Text1、 Text2的向量内积,
Figure 303651DEST_PATH_IMAGE006
为激活函数;
②对于单塔模型:
(3.3)将两个查询文本Text1、Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征
Figure 661951DEST_PATH_IMAGE025
(3.4)计算两个查询文本Text1、Text2的单塔模型相似度
Figure 134520DEST_PATH_IMAGE026
Figure 247970DEST_PATH_IMAGE057
其中,
Figure 173201DEST_PATH_IMAGE058
为特殊字符拼接结果Text1+ Text2的1维向量,
Figure 397509DEST_PATH_IMAGE006
为激活函数;
(3.5)基于正样本和负样本计算双塔模型的模型损失
Figure 396689DEST_PATH_IMAGE027
以及单塔模型的模型损失
Figure 821985DEST_PATH_IMAGE028
,并且进行模型反向传播;
Figure 234512DEST_PATH_IMAGE059
Figure 262511DEST_PATH_IMAGE060
其中,N表示训练样本的数量,
Figure 444093DEST_PATH_IMAGE061
Figure 633766DEST_PATH_IMAGE062
表示正样本,
Figure 471272DEST_PATH_IMAGE061
Figure 37383DEST_PATH_IMAGE063
表示正样本;
Figure 339051DEST_PATH_IMAGE020
1表示边界(0,1)。
(4)基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
于本发明实施例中,有监督训练的流程如下:
(4.1)将查询文本q、与查询文本q相关的检索文本
Figure 699625DEST_PATH_IMAGE018
作为正样本,将查询文本q、与查询文本q不相关的检索文本
Figure 86744DEST_PATH_IMAGE019
作为负样本;
(4.2)基于正样本和负样本计算双塔模型的模型损失
Figure 394229DEST_PATH_IMAGE029
以及单塔模型的模型损失
Figure 284824DEST_PATH_IMAGE030
,并且进行模型反向传播;
其中,模型损失
Figure 81879DEST_PATH_IMAGE029
、模型损失
Figure 690715DEST_PATH_IMAGE030
的计算公式与
Figure 864207DEST_PATH_IMAGE027
、模型损失
Figure 812572DEST_PATH_IMAGE028
相同,因此不再赘述。
(5)将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
于本发明实施例中,生成负样本的流程如下:
(5.1)通过双塔模型对检索文本p进行文本特征提取,得到文本特征
Figure 46107DEST_PATH_IMAGE031
Figure 142239DEST_PATH_IMAGE032
、…、
Figure 853843DEST_PATH_IMAGE033
(5.2)通过双塔模型对查询文本q进行文本特征提取,得到文本特征
Figure 719031DEST_PATH_IMAGE001
(5.3)分别计算查询文本q与若干检索文本p的向量内积
Figure 857888DEST_PATH_IMAGE034
Figure 378999DEST_PATH_IMAGE035
、…、
Figure 628715DEST_PATH_IMAGE036
,并且对若干向量内积进行排序;
(5.4)基于向量内积的排序选取前
Figure 613989DEST_PATH_IMAGE037
的检索文本
Figure 923747DEST_PATH_IMAGE038
Figure 994471DEST_PATH_IMAGE039
、…、
Figure 985561DEST_PATH_IMAGE040
,将查询文本q和检索文本
Figure 90920DEST_PATH_IMAGE038
Figure 571580DEST_PATH_IMAGE039
、…、
Figure 129601DEST_PATH_IMAGE040
分别组合,作为负样本。
(6)基于正样本和负样本迭代训练召回和排序联合模型。
于本发明实施例中,迭代训练召回和排序联合模型的流程如下:
(6.1)将查询文本q、与查询文本q相关的检索文本
Figure 127644DEST_PATH_IMAGE018
作为正样本,将查询文本q和检索文本
Figure 87509DEST_PATH_IMAGE038
Figure 4650DEST_PATH_IMAGE039
、…、
Figure 49966DEST_PATH_IMAGE040
分别组合,作为负样本;
(6.2)基于正样本和负样本计算双塔模型的模型损失
Figure 445175DEST_PATH_IMAGE041
以及单塔模型的模型损失
Figure 993968DEST_PATH_IMAGE042
其中,模型损失
Figure 82010DEST_PATH_IMAGE041
、模型损失
Figure 286727DEST_PATH_IMAGE042
的计算公式与
Figure 485627DEST_PATH_IMAGE027
、模型损失
Figure 154505DEST_PATH_IMAGE028
相同,因此不再赘述。
(6.3)重复进行步骤(6.1)和步骤(6.2),直到得到较好的召回和排序联合模型。
实施例2
本发明提供一种语义检索的召回和排序联合训练系统,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
实施例3
本发明提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行实施例1所述的语义检索的召回和排序联合训练方法。
本实施例提供的计算机设备可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
实施例4
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的语义检索的召回和排序联合训练方法。
本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Field programmablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中语义检索的召回和排序联合训练系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
语义检索的召回和排序联合训练系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。

Claims (10)

1.一种语义检索的召回和排序联合训练方法,其特征在于,所述方法包括以下步骤:
基于查询文本和检索文本建立召回和排序联合模型,其中,召回和排序联合模型包括双塔模型和单塔模型,并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
基于查询文本对召回和排序联合模型进行无监督训练;
基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
将查询文本输入有监督训练之后的召回和排序联合模型,通过召回和排序联合模型的双塔模型生成正样本和负样本;
基于正样本和负样本迭代训练召回和排序联合模型。
2.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下:
通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取,得到文本特征
Figure DEST_PATH_IMAGE001
Figure 69489DEST_PATH_IMAGE002
计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度
Figure DEST_PATH_IMAGE003
Figure 558239DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
为查询文本q=Text1和检索文本p= Text2的向量内积,
Figure 560830DEST_PATH_IMAGE006
为激活函数;
通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+ Text2进行文本特征提取,得到文本特征
Figure DEST_PATH_IMAGE007
计算查询文本和检索文本的单塔模型相似度
Figure 21898DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
其中,
Figure 186163DEST_PATH_IMAGE007
为特殊字符拼接结果Text1+ Text2的1维向量,
Figure 427789DEST_PATH_IMAGE006
为激活函数;
基于双塔模型相似度
Figure 906175DEST_PATH_IMAGE003
和单塔模型相似度
Figure 284066DEST_PATH_IMAGE008
计算召回和排序联合模型的总损失
Figure 884812DEST_PATH_IMAGE010
,使得双塔模型和单塔模型输出分布拟合。
3.根据权利要求2所述的一种语义检索的召回和排序联合训练方法,其特征在于,计算召回和排序联合模型的总损失
Figure 348154DEST_PATH_IMAGE010
的流程如下:
计算双塔模型的模型损失
Figure DEST_PATH_IMAGE011
Figure 692548DEST_PATH_IMAGE012
计算单塔模型的模型损失
Figure DEST_PATH_IMAGE013
Figure 393788DEST_PATH_IMAGE014
计算双塔模型和单塔模型的输出分布的欧拉距离
Figure DEST_PATH_IMAGE015
Figure 899855DEST_PATH_IMAGE016
基于模型损失
Figure 116073DEST_PATH_IMAGE011
、模型损失
Figure 936262DEST_PATH_IMAGE013
以及欧拉距离
Figure 288746DEST_PATH_IMAGE015
计算总损失
Figure 106660DEST_PATH_IMAGE010
,并且进行模型反向传播:
Figure DEST_PATH_IMAGE017
其中,N表示训练样本的数量,
Figure 75753DEST_PATH_IMAGE018
表示与查询文本q相关的检索文本,
Figure DEST_PATH_IMAGE019
表示与查询文本q不相关的检索文本;
Figure 27529DEST_PATH_IMAGE020
表示边界(0,1),Q表示查询样本q的数量,即为N,
Figure DEST_PATH_IMAGE021
表示对应检索文本的数量。
4.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,基于查询文本对召回和排序联合模型进行无监督训练的流程如下:
将两个查询文本q=Text1=Text2输入双塔模型,并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取,得到文本特征
Figure 641044DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
计算查询文本Text1、Text2的双塔模型相似度
Figure 20072DEST_PATH_IMAGE024
,如果两个查询文本Text1、Text2相同,则对应的两个查询文本Text1、Text2为正样本,反之,则对应的两个查询Text1、Text2文本为负样本;
将两个查询文本Text1、Text2进行特殊字符拼接,并且对特殊字符拼接结果Text1+Text2进行文本特征提取,得到文本特征
Figure DEST_PATH_IMAGE025
计算两个查询文本Text1、Text2的单塔模型相似度
Figure 351828DEST_PATH_IMAGE026
基于正样本和负样本计算双塔模型的模型损失
Figure DEST_PATH_IMAGE027
以及单塔模型的模型损失
Figure 576136DEST_PATH_IMAGE028
,并且进行模型反向传播。
5.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下:
将查询文本q、与查询文本q相关的检索文本
Figure 903212DEST_PATH_IMAGE018
作为正样本,将查询文本q、与查询文本q不相关的检索文本
Figure 187563DEST_PATH_IMAGE019
作为负样本;
基于正样本和负样本计算双塔模型的模型损失
Figure DEST_PATH_IMAGE029
以及单塔模型的模型损失
Figure 272193DEST_PATH_IMAGE030
,并且进行模型反向传播。
6.根据权利要求1所述的一种语义检索的召回和排序联合训练方法,其特征在于,通过召回和排序联合模型的双塔模型生成正样本和负样本的流程如下:
通过双塔模型对检索文本p进行文本特征提取,得到文本特征
Figure DEST_PATH_IMAGE031
Figure 300192DEST_PATH_IMAGE032
、…、
Figure DEST_PATH_IMAGE033
通过双塔模型对查询文本q进行文本特征提取,得到文本特征
Figure 481775DEST_PATH_IMAGE001
分别计算查询文本q与若干检索文本p的向量内积
Figure 874710DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
、…、
Figure 40112DEST_PATH_IMAGE036
,并且对若干向量内积进行排序;
基于向量内积的排序选取前
Figure DEST_PATH_IMAGE037
的检索文本
Figure 606223DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
、…、
Figure 642312DEST_PATH_IMAGE040
,将查询文本q和检索文本
Figure 206148DEST_PATH_IMAGE038
Figure 327688DEST_PATH_IMAGE039
、…、
Figure 697490DEST_PATH_IMAGE040
分别组合,作为负样本。
7.根据权利要求6所述的一种语义检索的召回和排序联合训练方法,其特征在于,基于正样本和负样本迭代训练召回和排序联合模型的流程如下:
将查询文本q、与查询文本q相关的检索文本
Figure 853664DEST_PATH_IMAGE018
作为正样本,将查询文本q和检索文本
Figure 650719DEST_PATH_IMAGE038
Figure 462817DEST_PATH_IMAGE039
、…、
Figure 370730DEST_PATH_IMAGE040
分别组合,作为负样本;
基于正样本和负样本计算双塔模型的模型损失
Figure DEST_PATH_IMAGE041
以及单塔模型的模型损失
Figure 381412DEST_PATH_IMAGE042
重复训练召回和排序联合模型。
8.一种语义检索的召回和排序联合训练系统,其特征在于,所述系统包括:
数据获取单元,所述数据获取单元用于获取查询文本和检索文本;
输出分布拟合单元,所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型,其中,召回和排序联合模型包括双塔模型和单塔模型,并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合;
有监督训练单元,所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练;
无监督训练单元,所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练;
负样本生成单元,所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本;
联合训练单元,所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。
CN202211257869.5A 2022-10-14 2022-10-14 一种语义检索的召回和排序联合训练方法及系统 Active CN115329749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211257869.5A CN115329749B (zh) 2022-10-14 2022-10-14 一种语义检索的召回和排序联合训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211257869.5A CN115329749B (zh) 2022-10-14 2022-10-14 一种语义检索的召回和排序联合训练方法及系统

Publications (2)

Publication Number Publication Date
CN115329749A CN115329749A (zh) 2022-11-11
CN115329749B true CN115329749B (zh) 2023-01-10

Family

ID=83915153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211257869.5A Active CN115329749B (zh) 2022-10-14 2022-10-14 一种语义检索的召回和排序联合训练方法及系统

Country Status (1)

Country Link
CN (1) CN115329749B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662512A (zh) * 2023-06-12 2023-08-29 北京百度网讯科技有限公司 检索模型的训练方法、信息检索方法、装置、设备和介质
CN116610795B (zh) * 2023-07-14 2024-03-15 深圳须弥云图空间科技有限公司 文本检索方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质
WO2021082786A1 (zh) * 2019-10-30 2021-05-06 腾讯科技(深圳)有限公司 语义理解模型的训练方法、装置、电子设备及存储介质
EP3835996A1 (en) * 2019-12-12 2021-06-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and storage medium for processing a semantic representation model
CN113869060A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 语义数据的处理方法及搜索方法、装置
CN115114395A (zh) * 2022-04-15 2022-09-27 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581510B (zh) * 2020-05-07 2024-02-09 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN114419387A (zh) * 2021-10-21 2022-04-29 北京邮电大学 基于预训练模型和召回排序的跨模态检索系统及方法
CN114064898A (zh) * 2021-11-22 2022-02-18 鼎富新动力(北京)智能科技有限公司 一种基于文本分类和匹配融合模型的意图识别方法及装置
CN114416927B (zh) * 2022-01-24 2024-04-02 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114780709B (zh) * 2022-03-22 2023-04-07 北京三快在线科技有限公司 文本匹配方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
WO2021082786A1 (zh) * 2019-10-30 2021-05-06 腾讯科技(深圳)有限公司 语义理解模型的训练方法、装置、电子设备及存储介质
EP3835996A1 (en) * 2019-12-12 2021-06-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and storage medium for processing a semantic representation model
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质
CN113869060A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 语义数据的处理方法及搜索方法、装置
CN115114395A (zh) * 2022-04-15 2022-09-27 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN115329749A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN115329749B (zh) 一种语义检索的召回和排序联合训练方法及系统
CN108319668B (zh) 生成文本摘要的方法及设备
CN108280206B (zh) 一种基于语义增强的短文本分类方法
CN111581354A (zh) 一种faq问句相似度计算方法及其系统
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN111767796B (zh) 一种视频关联方法、装置、服务器和可读存储介质
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
CN110795544B (zh) 内容搜索方法、装置、设备和存储介质
Decorte et al. Design of negative sampling strategies for distantly supervised skill extraction
CN113806510A (zh) 一种法律条文检索方法、终端设备及计算机存储介质
CN113111178A (zh) 无监督的基于表示学习的同名作者消歧方法及装置
CN117112743A (zh) 文本自动生成问题的可回答性评估方法、系统及存储介质
Tian et al. Automatic image annotation with real-world community contributed data set
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN116401344A (zh) 根据问句检索表格的方法和装置
CN116090450A (zh) 一种文本处理方法及计算设备
Li et al. [Retracted] Music Classification Method Using Big Data Feature Extraction and Neural Networks
CN114579606A (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
CN110457455B (zh) 一种三值逻辑问答咨询优化方法、系统、介质和设备
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant