CN114691828A - 数据处理方法、装置、设备以及介质 - Google Patents
数据处理方法、装置、设备以及介质 Download PDFInfo
- Publication number
- CN114691828A CN114691828A CN202210287730.9A CN202210287730A CN114691828A CN 114691828 A CN114691828 A CN 114691828A CN 202210287730 A CN202210287730 A CN 202210287730A CN 114691828 A CN114691828 A CN 114691828A
- Authority
- CN
- China
- Prior art keywords
- vector
- query
- query information
- information
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 608
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 37
- 238000012549 training Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000002372 labelling Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000005065 mining Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000393496 Electra Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法包括:获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息;获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。采用本申请实施例,可以减少数据检索过程中的检索耗时,并提高检索结果的有效性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备以及介质。
背景技术
随着数据信息化的发展,数据量增长快速,大数据呈现出多元化、分散化的趋势。在大规模数据的环境下,往往需要从大量的数据中搜索自身感兴趣的信息,如可以根据自身需求搜索相关的服务需求。
目前的搜索场景中,可以在搜索引擎中输入查询文本,在该搜索引擎中可以基于输入的查询文本进行搜索,找到与该查询文本相匹配的数据,并将该数据作为检索结果返回至搜索页面进行展示。然而,当查询文本存在简称、不规范、拼写错误等情况时,返回的检索结果并不是用户想要的内容,造成检索结果的有效性过低;且在查询文本的检索过程中,需要对该查询文本与搜索引擎中的所有数据进行处理,以便在搜索引擎的所有数据中进行搜索,当搜索引擎中的数据量很大时,会增加整个检索过程的耗时。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以减少数据检索过程中的检索耗时,并提高检索结果的有效性。
本申请实施例一方面提供了一种数据处理方法,包括:
获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息;
获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
本申请实施例一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
第二获取模块,用于从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息;
检索模块,用于获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
其中,关联查询信息的数量为K个,K为正整数;
第二获取模块包括:
数据库分割单元,用于获取第一查询信息对应的第一查询向量,对向量索引库所关联的向量数据集合进行分割,得到N个向量子集合;向量数据集合包括对象日志中的候选查询信息对应的候选查询向量,N为正整数;
关联向量获取单元,用于在N个向量子集合中获取第一查询向量所属的目标向量子集合,从目标向量子集合中获取与第一查询向量相关联的K个关联查询向量;
信息组合单元,用于将K个关联查询向量分别对应的候选查询信息确定为关联查询信息,将第一查询信息与K个关联查询信息组合为第二查询信息。
其中,数据库分割单元包括:
字符转换子单元,用于将第一查询信息划分为M个单位字符,将M个单位字符依次输入至目标语言模型,通过目标语言模型将M个单位字符分别编码为单位字符向量;M为正整数;
池化运算子单元,用于对M个单位字符向量进行池化运算,得到第一查询信息对应的初始查询向量;
降维处理子单元,用于根据目标语言模型中的全连接层,对初始查询向量进行降维处理,得到第一查询向量。
其中,数据库分割单元包括:
相似度获取子单元,用于从向量索引库所关联的向量数据集合中确定中心向量ti,获取向量数据集合中的每个候选查询向量与中心向量ti之间的向量相似度;i为小于或等于N的正整数;
分簇处理子单元,用于若向量数据集合中的第j个候选查询向量与中心向量ti的向量相似度最大,则将第j个候选查询向量添加至中心向量ti所属的待处理簇Ci;j为小于或等于向量数据集合中所包含的候选查询信息的数量的正整数;
簇中心更新子单元,用于根据待处理簇Ci中所包含的候选查询向量,更新中心向量ti,直至待处理簇Ci中更新后的中心向量ti与更新前的中心向量ti相同时,将待处理簇Ci确定为向量子集合。
其中,关联向量获取单元包括:
子集合确定子单元,用于获取第一查询向量分别与N个向量子集合之间的向量距离,将最短的向量距离所对应的向量子集合,确定为第一查询向量所属的目标向量子集合;
候选向量排序子单元,用于获取第一查询向量分别与目标向量子集合中的候选查询向量之间的向量关联度,按照向量关联度对目标向量子集合中的候选查询向量进行排序,得到排序后的目标向量子集合;
关联向量选取子单元,用于在排序后的目标向量子集合中,按照排列顺序获取第一查询向量对应的K个关联查询向量。
其中,检索模块包括:
接口调用单元,用于调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的待推荐数据集合;
数据召回单元,用于根据第二查询信息与待推荐数据集合中的待推荐数据之间的数据相似度,从待推荐数据集合中召回第二查询信息对应的检索结果。
其中,该装置还包括:
检索结果展示模块,用于在查询页面中展示第一查询信息对应的目标检索结果;
检索结果触发模块,用于响应针对目标检索结果的触发操作,显示目标检索结果对应的详情描述信息。
其中,该装置还包括:
历史查询信息获取模块,用于获取对象日志中的历史信息集合,统计历史信息集合中的每个历史查询信息分别对应的被搜索频次;
候选查询信息确定模块,用于若对象日志中包含历史信息集合中的历史查询信息s对应的对象操作信息,且历史查询信息s对应的被搜索频次大于频次阈值,则确定历史查询信息s满足搜索筛选条件,将历史查询信息s作为候选查询信息添加至候选信息集合;s为正整数;
候选查询信息编码模块,用于通过目标语言模型对候选信息集合中的每个候选查询信息进行编码,得到每个候选查询信息分别对应的候选查询向量;
索引库构建模块,用于为每个候选查询信息分别对应的候选查询向量构建索引信息,基于索引信息生成候选信息集合对应的向量索引库。
其中,该装置还包括:
样本数据组获取模块,用于获取样本数据组;样本数据组包括第一样本数据、第二样本数据以及样本标签,样本标签用于表征第一样本数据和第二样本数据之间的关联关系;
样本向量获取模块,用于将样本数据组输入至初始语言模型,通过初始语言模型获取第一样本数据对应的第一样本向量,以及第二样本数据对应的第二样本向量;
模型训练模块,用于获取第一样本向量与第二样本向量之间的样本距离,根据样本距离与样本标签之间的对比损失,对初始语言模型的网络参数进行修正,将包含修正后的网络参数的初始语言模型确定为目标语言模型。
其中,样本数据组包括正例样本组;
样本数据组获取模块包括:
第一样本获取单元,用于在对象日志的历史信息集合中,获取目标时间范围内的第一样本数据和第二样本数据;第一样本数据是指不具备对象操作信息的历史查询信息,第二样本数据是指具备对象操作信息的历史查询信息;
样本标签添加单元,用于获取第一样本数据切换至第二样本数据的转移概率,当转移概率大于概率阈值时,确定第一样本数据和第二样本数据之间的样本标签为第一标签;第一标签用于表征第一样本数据和第二样本数据具有关联关系;
正例样本组确定单元,用于将第一样本数据、第二样本数据以及第一标签,确定为正例样本组。
其中,样本数据组包括负例样本组;
样本数据组获取模块包括:
第二样本获取单元,用于在对象日志的历史信息集合中,获取不具备对象操作信息的第一样本数据,通过随机数策略获取第二样本数据;
负例样本组确定单元,用于确定第一样本数据和第二样本数据之间的样本标签为第二标签,将第一样本数据、第二样本数据以及第二标签,确定为负例样本组;第二标签用于表征第一样本数据和第二样本数据不具有关联关系。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例可以获取第一查询信息和向量索引库,该向量索引库可以是由对象日志中满足搜索筛选条件的候选查询信息所确定的;进而可以从向量索引数据库中获取第一查询信息对应的关联查询信息,将第一查询信息和关联查询信息确定为第二查询信息,该第二查询信息的检索结果可以作为第一查询信息对应的目标检索结果。可见,可以通过挖掘对象日志中满足搜索筛检条件的候选查询信息预先构建向量索引库,在第一查询信息的检索过程中,可以通过向量检索的方式,直接从向量索引库中确定该第一查询文本对应的关联查询信息,进而可以基于第一查询信息和关联查询信息进行数据检索,将第一查询信息和关联查询信息的检索结果作为第一查询信息的目标检索结果;由于在检索过程中引入了关联查询信息,可以提高检索结果的有效性,基于预先构建的向量索引库进行检索,可以减少检索过程中的计算开销,进而减少数据检索耗时。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种数据检索场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种第一查询信息的向量转换示意图;
图5是本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种样本数据组的标注示意图;
图7是本申请实施例提供的一种初始语言模型的训练示意图;
图8是本申请实施例提供的一种数据处理的流程框架示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于后面描述,本申请实施例中首先对本申请实施例中涉及到的相关名词进行简单介绍。
查询(Query)改写:基于搜索的查询信息(例如,查询文本),生成一系列相关的关联查询信息,并与原始的查询信息一起进行检索,得到更为丰富而准确的结果。
文本向量:文本向量可以是指一段不定长的文本通过某种方式转换成的一个定长的数值型向量。文本向量可以为高维稀疏向量或低维稠密向量,高维稀疏向量通常是将词表的长度作为向量的长度,每一维表示一个字符,只有在文本字符所对应的维度才为非零值,大部分维度都为零;低维稠密向量可以是指通过神经网络等模型所输出的向量表示,向量的每一维基本是非零值。
语义匹配:语义匹配可以是指两段文本之间的语义相关性,若相关性大于预先设置的阈值(如可以称为关联阈值,可根据实际需求进行自定义设置,本申请对此不做限定)则可以确定两段文本相匹配。
二元组数据:在文本匹配的场景下,一个二元组数据包括两个文本以及一个标签(该标签可以使用不同的数值来表示)。例如,假设两个文本分别记为A和B,若两个文本相匹配,则此时的二元组数据可以表示为(A,B,1);若两个文本不匹配,则此时的二元组数据可以表示为(A,B,0)。
孪生网络:孪生网络是指用于判断两个可比较对象(例如,文本、图像、音频等)是否相关的人工神经网络,该人工神经网络通常有两个相同类型的子网络结构,且这两个子网络结构共享权值。每个子网络结构接收一个对象作为输入,并将其转换为特征向量,输入到统一的结构判断两个对象之间的相似性。
垂直搜索:垂直搜索(可以简称为垂搜)是指针对某一个行业的专业搜索引擎,可以认为是对普通搜索引擎的细分和延伸,用于对库中的某类专门的信息进行整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。例如,公众号搜索、小程序搜索等。
服务搜索:服务搜索可以认为是一种垂搜业务,包括由各个行业的商家客户端所提供的服务,可以满足用户的各类服务需求,如交通、生活、教育、金融等。
欠召回问题:欠召回问题可以是指用户输入查询文本并发起搜索后,搜索系统没有返回与查询文本相关联的检索结果。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电(例如智能电视等)以及车载设备等具有数据搜索功能的电子设备。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
以用户终端10a为例,当用户需要查询信息时,该用户可以在用户终端10a的搜索输入框中输入查询信息(为方便描述,可以将此处的查询信息称为第一查询信息),该用户终端10a可以获取该用户输入的第一查询信息,并将第一查询信息发送至服务器10d;服务器10d接收到用户终端10a发送的第一查询信息后,可以对第一查询信息进行编码,得到第一查询信息对应的第一查询向量,进而可以通过预先构建的向量索引库,获取第一查询向量对应的关联查询向量,如向量索引库中与第一查询向量之间的向量关联度最高的K个查询向量,K为正整数,如K可以取值为1,2,……;关联查询向量对应的查询信息可以称为关联查询信息,将第一查询信息与关联查询信息一并进行检索,得到用于响应于第一查询信息的目标检索结果,服务器10d可以将目标检索结果返回至用户终端10a,并在用户终端10a中为该用户展示目标检索结果。其中,向量索引库可以基于用户搜索日志(也可以称为对象日志)中的历史查询信息对应的信息向量来生成,该向量索引库可以进行离线构建;向量关联度可以是指两个查询信息所对应的查询向量之间的相似度,如第一查询向量与历史查询信息所对应的历史查询向量之间的相似度。服务器10d针对第一查询信息的检索过程为线上检索过程,在第一查询信息的线上检索中,通过向量索引库以向量的形式进行线上检索,可以减少计算开销,进而减少线上检索耗时;通过将第一查询信息和关联查询信息一并进行检索,可以提高检索结果的有效性。
需要说明的是,上述第一查询信息的检索过程可以由计算机设备执行,该计算机设备可以为图1所示用户终端集群中的用户终端,或者为图1所示的服务器10d;总而言之,计算机设备可以为用户终端,或者为服务器,或者为服务器和用户终端构成的组合设备,或者为计算机程序应用(包括程序代码),本申请对此不做限定。
请参见图2,图2是本申请实施例提供的一种数据检索场景示意图。下面以服务搜索场景为例,对数据检索过程进行描述。如图2所示,当用户需要执行服务搜索业务时,可以在所使用的用户终端20a(例如,图1所对应实施例中的用户终端10a)中启动应用客户端,该应用客户端可以为通讯应用,如即时通讯应用;该应用客户端可以为用户提供不同类型的页面,包括控件1、控件2、控件3以及控件4分别对应的页面,如消息、通讯录、发现以及个人中心等页面。
当用户对应用客户端中的控件3执行触发操作时,用户终端20a可以响应针对控件3的触发操作,在该应用客户端中显示控件3对应的主页面20b,该主页面20b中可以包括多个功能入口,如功能入口A,功能入口B,……,功能入口G,搜一搜入口20c等。其中,搜一搜入口20c可以用于提供应用客户端中的服务搜索功能;功能入口A可以为朋友圈入口,该朋友圈入口可以用于提供应用客户端中的信息内容发表功能;功能入口G可以为小程序入口,该小程序入口可以用于提供应用客户端中的小程序管理功能等。当用户对主页面20b中的搜一搜入口20c执行触发操作时,用户终端20a可以响应针对搜一搜入口20c的触发操作,显示该搜一搜入口20c对应的查询页面20d,在该查询页面20d的区域20f中可以显示今日热点新闻,如热点1、热点2以及热点3等,通过触发区域20f中的热点新闻,可以在查询页面20d查看所触发热点新闻的详情信息。其中,该查询页面20d中还可以包括搜索输入框20e,用户可以在该搜索输入框20e中输入查询信息来获取检索结果,通过该搜索输入框20e可以搜索应用客户端中的朋友圈、文章、公众号以及小程序等内容。
如图2所示,当用户在搜索输入框20e中输入“租房提取”并触发搜索操作时,用户终端20a可以获取该用户所输入的文本内容“租房提取”,并将文本内容“租房提取”称为第一查询信息20g;由于第一查询信息20g为自然语言描述的文本内容,因此需要将第一查询信息20g转换为计算机能够理解的文本向量20h(也可以称为第一查询向量),即为第一查询信息20g的一种数值化表示方式,该第一查询信息20g可以转换为固定长度的向量表示。例如,用户终端20a可以对第一查询信息20g进行分词处理,得到第一查询信息20g对应的单位字符集合,该单位字符集合可以包括“租”、“房”、“提”、“取”等单位字符,此处的分词处理方法可以为基于词典的分词算法,或者为基于统计的分词算法等,本申请对此不做限定。进一步地,可以将单位字符集合中的每个单位字符都转换为单位词向量,如单位字符“租”、“房”、“提”、“取”都可以被转换为固定长度的单位词向量,通过对单位字符“租”、“房”、“提”、“取”分别对应的单位词向量进行池化处理,得到第一查询信息20g对应的文本向量20h。
用户终端20a可以获取搜一搜入口20c所对应检索系统中的向量索引库20i,该向量索引库20i是通过用户搜索日志中的历史查询信息所对应的查询向量在离线情形下所生成的,向量索引库20i的构建过程可以参见后续图5所对应实施例的描述,上述用户搜索日志可以包括各个用户搜索过的查询信息,以及每个查询信息所返回的检索结果是否具有对象操作信息(例如,用户是否点击过检索结果)等信息。通过向量索引库20i可以检索到文本向量20h对应的K(K为正整数)个关联查询向量,该K个关联查询向量可以对应K个关联查询信息,此处的K歌关联查询信息可以包括“公积金提取”,进而可以在检索系统中基于第一查询信息20g(“住房提取”)和关联查询信息(“公积金提取”)一并进行检索,获取“住房提取”和“公积金提取”所对应的检索结果,此处的检索结果可以作为第一查询信息20g对应的目标检索结果,并在查询页面20d中进行展示。其中,目标检索结果可以包括公众号20j和小程序20k,用户可以根据自身需求选择相应的结果进行查看;对于检索系统召回的所有目标检索结果,可以采用列表的形式全部展示在查询页面20d中,或者可以对目标检索结果进行分类展示,如仅展示目标检索结果中的公众号,或者仅展示目标检索结果中的小程序等。
本申请实施例中,若在搜一搜入口20c对应的检索系统中基于第一查询信息20g(“住房提取”)进行检索,可能无法召回用户想要的结果(“公积金提取”公众号、“公积金提取”小程序),而通过向量索引库20i检索到第一查询信息20g对应的关联查询信息(“公积金提取”),并基于“住房提取”和“公积金提取”一并进行检索,这样可以召回用户想要的结果,这样可以提高检索结果的有效性;通过预先构建向量索引库20i,以向量检索的方式进行数据检索,可以减少检索过程中的计算开销,进而减少检索耗时。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该数据处理方法可以包括以下步骤S101-步骤S103:
步骤S101,获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的。
具体的,当用户在搜索引擎(例如,图2所对应实施例中的搜一搜入口20c)中输入数据内容(例如,图2所对应实施例中的文本内容“租房提取”)进行搜索时,计算机设备可以获取用户所输入的数据内容,并将用户输入的数据内容确定为第一查询信息。其中,第一查询信息可以包括但不限于:文本数据、图像数据、音频数据,本申请对第一查询信息的数据类型不做限定。为方便描述,本申请实施例均以第一查询数据是文本数据为例进行描述。
计算机设备可以获取搜索引擎中预先构建的向量索引库(例如,图2所对应实施例中的向量索引库20i),该向量索引库可以是由对象日志中满足搜索筛选条件的候选查询信息所确定的。其中,向量索引库可以通过挖掘对象日志中的候选查询信息并在离线情形下构建完成的,向量索引库包括候选查询信息对应的候选查询向量的索引信息,在该向量索引库中可以采用向量的方式进行线上搜索,以节省候选查询信息转化为候选查询向量的时间,进而可以减小数据检索的计算开销,其中向量索引库可以包括但不限于Faiss(一种索引库)和nmslib(一种索引库),本申请对向量索引库的类型不做限定;对象日志也可以称为用户搜索日志,用于记录搜索引擎中的用户在搜索时所输入的历史查询信息,以及用户对历史查询信息的检索结果的操作信息等;搜索筛选条件可以包括:对象日志中的历史查询信息具有对象操作信息(例如,该历史查询信息召回的检索结果被用户点击查看过),以及历史查询信息在对象日志中所记录的被搜索频次大于频次阈值(该频次阈值可以根据实际需求进行设置,本申请对此不做限定)。换言之,上述候选查询信息可以是指对象日志中,具有对象操作信息,且被搜索频次大于频次阈值的历史查询信息。
步骤S102,从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息。
具体的,计算机设备可以获取第一查询信息对应的第一查询向量,在向量索引库中基于第一查询向量进行搜索,将与第一查询向量相关联的候选查询向量确定为关联查询向量,该关联查询向量所对应的候选查询信息可以称为关联查询信息,进而可以将第一查询信息和第二查询信息组合为第二查询信息。其中,关联查询信息可以是指基于第一查询信息而生成的改写查询信息,关联查询信息的数量可以为一个或多个,如关联查询信息的数量可以记为K,K可以为正整数;关联查询向量可以是指向量索引库中与第一查询向量之间的向量关联度最高的K个候选查询向量。上述向量关联度可以认为是不同向量之间的相似度,该向量关联度的计算方式可以包括但不限于:欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、余弦相似度(Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient),本申请对向量关联度的计算方式不做限定。
可选地,当第一查询信息为文本数据时,计算机设备可以将第一查询信息划分为M个单位字符(可以记为token,如中文中的单字,或英文中的单词),将M个单位字符依次输入至目标语言模型,通过目标语言模型将M个单位字符分别编码为单位字符向量,M为正整数,M用于表示第一查询信息中所包含的单位字符的数量;进而可以对M个单位字符向量进行池化运算,得到第一查询信息对应的初始查询向量;根据目标语言模型中的全连接层,对初始查询向量进行降维处理,得到第一查询向量。其中,目标语言模型可以用于将第一查询信息转换为第一查询向量,该目标语言模型可以包括但不限于:Bert(Bidirectional EncoderRepresentations from Transformers)模型、XLNet模型(类似于Bert的语言模型)、ELECTRA(Efficiently Learning an Encoder that Classifies Token ReplacementsAccurately)模型,本申请对目标语言模型的类型不做限定。
其中,下面以Bert模型为例,对第一查询信息的向量转换过程进行描述。Bert模型可以将不定长的文本(如第一查询信息)转换成低维稠密的数值向量表示。Bert模型可以采用掩码学习(Masked Learning)进行训练,如可以随机掩盖掉文本数据中的一些单位字符,并采用其余单位字符来预测这些被掩盖掉的单位字符,通过掩码学习可以学习单位字符的向量表示;Bert模型还可以采用下一句预测(Next Sentence Prediction)进行训练,如可以将文本数据中的一个句子作为输入,预测下一个句子,通过下一句预测可以学习句子的向量表示;本申请对Bert模型的训练方式不做限定。其中,Bert模型可以包括一个或多个池化层和一个或多个全连接层(Fully-Connected Layer,FC层),本申请对池化层和全连接层的数量不做限定。一个全连接层可以由多个人工神经元组成,当前的全连接层中的每个人工神经元可以与上一个全连接层中的所有神经元进行连接,非邻居的全连接层则没有连接。池化层可以用于减小模型参数量,并降低过拟合;常用的池化层可以分为平均池化层和最大池化层,两种池化层均可以将上一个网络层抽取的特征向量转换成更低维的特征向量,平均池化层是在设定的维度范围内计算平均值,而最大池化层是计算最大值。
计算机设备可以采用Bert模型(目标语言模型)将M个单位字符中的每个单位字符均编码为一个单位字符向量(也可以称为单位词向量),即第一查询信息可以被编码为M个单位字符向量,此处的M个单位字符向量的维度是相同的(例如,每个单位字符向量可以为768维);进而可以通过Bert模型中的池化层,对M个单位字符向量进行池化运算,得到第一查询信息对应的初始查询向量,该初始查询向量的维度与上述单位字符向量的维度相同。初始查询向量的维度越大,在搜索引擎中进行在线向量检索的耗时也会随之增加,因此可以通过Bert模型中的全连接层,对初始查询向量进行降维处理,得到第一查询向量,即第一查询向量的维度小于初始查询向量的维度,如可以将768维的初始查询向量降维到200维的第一查询向量。
请参见图4,图4是本申请实施例提供的一种第一查询信息的向量转换示意图。如图4所示,对于第一查询信息,可以将其划分为单位字符1、单位字符2、辅3、……、单位字符M,采用Bert模型可以将每个单位字符都编码为单位字符向量,如可以将单位字符1编码为单位字符向量30a,将单位字符2编码为单位字符向量30b,将单位字符3编码为单位字符向量30c,……,将单位字符M编码为单位字符向量30d;进而可以将单位字符向量30a、单位字符向量30b、单位字符向量30c以及单位字符向量30d等向量输入至Bert模型中的池化层,通过对上述单位字符向量进行池化运算,可以得到初始查询向量30e;通过Bert模型中的全连接层,可以对初始查询向量30e进行降维处理,得到第一查询信息对应的第一查询向量30f。
需要说明的是,本申请实施例中所涉及的候选查询向量与第一查询向量是采用相同的目标语言模型编码而成的,候选查询向量可以用于构建向量索引库,因此候选查询向量是通过离线编码得到的,而第一查询向量是通过在线编码得到的,后续将不再对候选查询信息的向量转换过程进行赘述。
步骤S103,获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
具体的,计算机设备可以调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的待推荐数据集合,进而可以计算待推荐数据集合中的每个待推荐数据与第二查询信息之间的数据相似度;由于第二查询信息包含第一查询信息和关联查询信息,因此可以计算待推荐数据集合中的每个待推荐数据分别与第一查询信息之间的数据相似度,以及每个待推荐数据分别与关联查询信息之间的数据相似度,进而可以基于数据相似度,从待推荐数据集合中召回第二查询信息对应的检索结果,并在查询页面中展示第一查询信息对应的目标检索结果。
可选地,当用户对目标检索结果感兴趣时,可以对目标检索结果执行触发操作,此时的计算机设备可以响应针对目标检索结果的触发操作,显示目标检索结果对应的详情描述信息。其中,第一查询信息对应的目标检索结果可以包括一个或多个待推荐数据,进而可以在查询页面中按照数据相似度从大到小的顺序进行展示;或者还可以基于一个或多个目标检索结果分别对应的数据类型,对一个或多个目标检索结果进行分类展示,该数据类型可以包括但不限于:文章、视频、音频、公众号、小程序。例如,若目标检索结果包括公众号、小程序以及文章等数据类型的检索结果,当用户对公众号类型执行触发操作时,计算机设备可以响应针对公众号类型的触发操作,在查询页面中显示一个或多个目标检索结果中,属于公众号类型的检索结果。
本申请实施例中,可以通过挖掘对象日志中满足搜索筛检条件的候选查询信息预先构建向量索引库,在第一查询信息的检索过程中,可以通过向量检索的方式,直接从向量索引库中确定该第一查询文本对应的关联查询信息,进而可以基于第一查询信息和关联查询信息进行数据检索,将第一查询信息和关联查询信息的检索结果作为第一查询信息的目标检索结果;由于在检索过程中引入了关联查询信息,可以提高检索结果的有效性,基于预先构建的向量索引库进行检索,可以节省候选查询信息转化为候选查询向量的时间,即减少检索过程中的计算开销,进而减少数据检索耗时。
请参见图5,图5是本申请实施例提供的另一种数据处理方法的流程示意图。如图5所示,该数据处理方法可以包括以下步骤S201-步骤S210:
步骤S201,获取样本数据组;样本数据组包括第一样本数据、第二样本数据以及样本标签,样本标签用于表征第一样本数据和第二样本数据之间的关联关系。
具体的,在采用目标语言模型对文本数据进行编码之前,需要对语言模型进行训练,下面可以通过步骤S201至步骤S203对语言模型的训练过程进行描述。本申请实施例可以将训练阶段的语言模型称为初始语言模型,训练完成的初始语言模型可以称为目标语言模型。
计算机设备可以获取用于训练初始语言模型的样本数据组,此处的样本数据组可以为二元组数据,即样本数据组可以包括第一样本数据、第二样本数据以及样本标签,样本标签用于表征第一样本数据和第二样本数据之间的关联关系,如样本标签为第一标签(例如,第一标签可以为数值1)时,表示第一样本数据和第二样本数据具有关联关系,即第一样本数据和第二样本数据相匹配,此时的样本数据组可以称为正例样本组;样本标签为第二标签(例如,第一标签可以为数值0)时,表示第一样本数据和第二样本数据没有关联关系,即第一样本数据和第二样本数据不匹配,此时的样本数据组可以称为负例样本组。换言之,样本数据组可以包括正例样本组和负例样本组。
其中,初始语言模型的训练过程需要大量的标注数据,计算机设备可以通过对象日志自动标注样本数据组,如计算机设备可以在对象日志的历史信息集合中,获取目标时间范围内的第一样本数据和第二样本数据;第一样本数据是指不具备对象操作信息的历史查询信息,第二样本数据是指具备对象操作信息的历史查询信息,如计算机设备从历史信息集合中获取不具备对象操作数据的第一样本数据(用户未点击查看改第一样本数据的检索结果),在目标时间范围(可以根据实际需求进行设置,如目标时间范围为10分钟,或者半个小时等)内,若用户切换到第二样本数据,并点击触发了第二样本数据的检索结果,则第二样本数据可以认为是第一样本数据的改写查询信息。进而可以获取第一样本数据切换至第二样本数据的转移概率,该转移概率可以是指对象日志中第一样本数据切换至第二样本数据的次数,与第一样本数据的总次数的比值;当转移概率大于概率阈值(可以根据实际需求进行设置)时,确定第一样本数据和第二样本数据之间的样本标签为第一标签,将第一样本数据、第二样本数据以及第一标签,确定为正例样本组,该正例样本组可以记为(第一样本数据,第二样本数据,第一标签)。
可选地,计算机设备可以在对象日志的历史信息集合中,获取不具备对象操作信息的第一样本数据,通过随机数策略获取第二样本数据,进而可以确定第一样本数据和第二样本数据之间的样本标签为第二标签,将第一样本数据、第二样本数据以及第二标签,确定为负例样本组,该负例样本组可以记为(第一样本数据,第二样本数据,第二标签)。其中,上述随机数策略可以包括但不限于:随机数表、随机数骰子、计算机产生的随机数,在获取到第一样本数据之后,可以利用随机数表、随机数骰子或计算机产生的随机数来选取第二样本数据。本申请实施例可以通过挖掘对象日志,获取历史查询信息的对象操作信息、出现的总次数以及一个历史查询信息切换至另一个历史查询信息的次数等信息,可以自动标注初始语言模型所需要的样本数据组,可以节省大量的人力标注成本。
请参见图6,图6是本申请实施例提供的一种样本数据组的标注示意图。如图6所示,计算机设备可以对用户搜索日志(对象日志)中的历史查询信息进行归一化预处理,该归一化预处理可以包括但不限于:英文字母大小写转换、简繁体转换、去除特殊字符、去除空白字符等;通过归一化预处理可以提高数据统计有效性,并提高样本数据组的质量。
计算机设备可以从归一化预处理后的历史查询信息中筛选用户搜索后但没有点击查看检索结果的历史查询信息A(可以称为第一样本数据,不具备对象操作信息),在目标时间范围内,若用户由历史查询信息A切换至历史查询信息B,且点击查看了检索结果(具备对象操作信息),则可以认为历史查询信息B可能为历史查询信息A的改写查询信息,进而可以在对象日志中统计历史查询信息A切换到历史查询信息B的转移概率,该转移概率等于历史查询信息A切换到历史查询信息B的次数与历史查询信息A的总次数的比值。若转移概率大于概率阈值,则可以为历史查询信息A与历史查询信息B标注第一标签,可以标记为(A,B,1),其中数值1可以表示第一标签,用于表示历史查询信息A与历史查询信息B相匹配,即历史查询信息B是历史查询信息A的改写查询信息,此时的(A,B,1)可以表示为正例样本组。进一步地,计算机设备可以从对象日志中随机选取抽取历史查询信息C,并将历史查询信息A和历史查询信息C标记为(A,C,0),其中数值1可以表示第二标签,用于表示历史查询信息A与历史查询信息C不匹配,此时的(A,C,0)可以表示为负例样本组。此处的历史查询信息B、历史查询信息C都可以认为是第二样本数据。
可选地,除了采用上述描述的方式自动标注样本数据组之外,还可以采用其余自动标注样本数据组的方式,如可以通过对象日志中的历史查询信息构建候选样本数据组,进而可以通过样本去噪算法进行数据清洗,得到用于训练初始语言模型的样本数据组,本申请对自动标注样本数据组的方式不做限定。
步骤S202,将样本数据组输入至初始语言模型,通过初始语言模型获取第一样本数据对应的第一样本向量,以及第二样本数据对应的第二样本向量。
具体的,计算机设备可以将样本数据组输入至初始语言模型,该初始语言模型可以为孪生网络,即初始语言模型可以包括两个相同类型的子网络结构,进而可以将样本数据组中的第一样本数据和第二样本数据分别输入两个子网络结构,通过其中一个子网络结构可以输出第一样本数据对应的第一样本向量,通过另一个子网络结构可以输出第二样本数据对应的第二样本向量。其中,初始语言模型可以为共享Bert的双塔模型,如两个子网络结构为共享权重的Bert模型。
步骤S203,获取第一样本向量与第二样本向量之间的样本距离,根据样本距离与样本标签之间的对比损失,对初始语言模型的网络参数进行修正,将包含修正后的网络参数的初始语言模型确定为目标语言模型。
具体的,计算机设备可以获取第一样本向量与第二样本向量之间的样本距离,如第一样本向量与第二样本向量之间的语义相关性,也可以称为第一样本向量与第二样本向量之间的相似性,计算方式可以与前述向量关联度的计算方式相同,此处不再进行赘述。计算机设备可以根据样本距离与样本标签,计算初始语言模型对应的对比损失,通过该对比损失在初始语言模型中以反向传播的方式进行参数调整,当初始语言模型的训练次数达到预先设置的最大迭代次数,或者初始语言模型的训练达到收敛条件时,可以保存此时的网络参数,并将包含这些网络参数的初始语言模型确定为目标语言模型。可选地,由于初始语言模型包含两个共享权重的子网络结构(如基于Bert共享的双塔模型),而目标语言模型可以是指仅包含一个子网络结构的网络模型,如在初始语言模型训练完成后,将训练完成的初始语言模型中的一个子网络结构确定为目标语言模型,如目标语言模型可以记为Bert-FC模型,可以是指在Bert模型中增加了全连接层后的网络模型,训练完成的目标语言模型可以部署到在线GPU(Graphics Processing Unit,图形处理器)模块。
其中,第一样本向量与第二样本向量之间的样本距离可以记为r,样本距离r可以如下述公式(1)所示:
r=||Emb1-Emb2|| (1)
其中,Emb1可以表示为第一样本向量,Emb2可以表示为第二样本向量;通过样本距离r与样本标签y可以计算对比损失Loss,该对比损失Loss可以如下述公式(2)所示:
其中,y表示样本标签,当样本数据组为正例样本组时,y可以取值为1,当样本数据组为负例样本组时,y可以取值为0;V表示样本数据组的数量;margin是超参数,若第一样本向量和第二样本向量不相关且样本距离r大于margin,则对比损失Loss为零。通过该对比损失Loss,使相匹配的样本数据之间的样本距离r尽可能接近,而忽略大于margin的不匹配的样本数据,可以改善欠召回问题,提高检索结果的有效性。
请参见图7,图7是本申请实施例提供的一种初始语言模型的训练示意图。如图7所示,计算机设备可以将样本数据组中的第一样本数据和第二样本数据都拆分为多个单位字符(可以记为token),采用初始语言模型将每个单位字符都编码为一个单位字符向量,如第一样本数据被拆分为M个单位字符向量时,可以通过初始语言模型编码得到M个单位字符向量,每个单位字符向量的维度是相同的,如每个向量维度均可以为768维;进而可以采用平均池化层(此处默认初始语言模型中的池化层为平均池化层;当然,也可以采用最大池化层,本申请对此不做限定)将M个单位字符向量转换成一个固定长度的向量40a,该向量40a的维度可以与前述单位字符向量的维度相同,如768维。同理,对于样本数据组中的第二样本数据,同样可以采用平均池化层将第二样本数据所对应的所有单位字符向量转换为一个固定长度的向量40b,向量40b的维度与向量40a的维度相同。
其中,初始语言模型中的每个子网络结构可以在Bert模型的基础上增加全连接层,通过初始语言模型中的全连接层,可以将向量40a降维为第一样本向量40c,将向量40b降维为第二样本向量40d,即通过在初始语言模型中增加全连接层,可以降低样本向量的维度,进而降低数据检索过程中在线向量检索的耗时。进一步地,计算机设备可以通过前述公式(1)计算第一样本向量40c与第二样本向量40d之间的样本距离r,并通过上述公式(2)计算样本距离r与样本标签y之间的对比损失Loss,通过对对比损失Loss进行最小化优化处理,调整初始语言模型中的网络参数,直至初始语言模型的网络参数达到收敛状态。
本申请实施例中,可以通过训练得到目标语言模型来表示查询信息(第一查询信息、候选查询信息)本身的语义信息,由于目标语言模型通过海量的样本数据组学习到了大量的语义语法规则,能够有效地表示查询信息本身的含义,进而提高了可以提高模型的泛化性,以提高改写查询信息的质量。
步骤S204,获取对象日志中的历史信息集合,统计历史信息集合中的每个历史查询信息分别对应的被搜索频次。
具体的,计算机设备可以对象日志中的历史查询信息,并将对象日志中的历史查询信息组合为一个历史信息集合,进而可以统计历史信息集合中的每个历史查询信息在对象日志中的被搜索频次,该被搜索频次可以认为是对象日志中所记录的基于历史查询信息进行搜索的次数。
步骤S205,若对象日志中包含历史信息集合中的历史查询信息s对应的对象操作信息,且历史查询信息s对应的被搜索频次大于频次阈值,则确定历史查询信息s满足搜索筛选条件,将历史查询信息s作为候选查询信息添加至候选信息集合;s为正整数。
具体的,对于历史信息集合中的任意一个历史查询信息(例如,历史查询信息s,s为小于或等于历史信息集合中所包含的历史查询信息数量的正整数),若在对象日志中记载了历史查询信息s的对象操作信息,且历史查询信息s对应的被搜索频次大于频次阈值(可以根据实际需求进行自定义设置),则可以确定该历史查询信息s满足搜索筛选条件,并将该历史查询信息s作为候选信息集合中的一个候选查询信息。其中,该对象操作信息可以是指基于历史查询信息s召回对应的检索结果后,用户点击查看历史查询信息s的检索结果所产生的操作信息;由于每个候选查询信息在对象日志中都具有对象操作数据,即每个候选查询信息都可以召回有效的检索结果,可以减少无效改写的情形。
步骤S206,通过目标语言模型对候选信息集合中的每个候选查询信息进行编码,得到每个候选查询信息分别对应的候选查询向量;为每个候选查询信息分别对应的候选查询向量构建索引信息,基于索引信息生成候选信息集合对应的向量索引库。
具体的,由于候选信息集合中所包含的候选查询信息的数量很多,计算非常耗时,因此可以采用前述训练完成的目标语言模型,离线计算每个候选查询信息分别对应的候选查询向量,候选查询向量的获取过程可以参见前述图3所对应实施例的步骤S102中对第一查询向量获取过程的描述,此处不再进行赘述。进而额可以为每个候选查询向量设置索引信息,基于索引信息生成候选信息集合对应的向量索引库,如可以采用向量索引构建工具(例如,Faiss或nmslib)来构建向量索引库,并将构建完成的向量索引库提供给搜索引擎中的在线检索系统。
步骤S207,获取第一查询信息,获取向量索引库,获取第一查询信息对应的第一查询向量,对向量索引库所关联的向量数据集合进行分割,得到N个向量子集合;向量数据集合包括对象日志中的候选查询信息对应的候选查询向量,N为正整数。
具体的,当用户在搜索引擎中输入文本内容进行搜索时,计算机设备可以将用户输入的文本内容确定为第一查询信息,并调用在线GPU模块中部署的目标语言模型获取第一查询信息对应的第一查询向量,计算机设备还可以获取前述离线构建的向量索引库,将第一查询向量输入到向量索引库中,可以检索到与第一查询向量的向量关联度最高的K(K为正整数)个候选查询向量,此处的K个候选查询向量所对应的候选查询信息可以称为关联查询信息,即基于第一查询信息可以生成K个改写查询信息。
其中,在向量索引库中基于第一查询向量进行向量检索时,可以采用不同的搜索方式进行向量检索,如基于树的方法、局部敏感哈希(Locality Sensitive Hashing,LSH)、基于倒排的方法等,本申请对此不做限定。下面以基于倒排的方法为例,对向量索引库的向量检索过程进行描述。
计算机设备可以对向量索引库所关联的向量数据集合进行分割,得到N个向量子集合,该向量数据集合可以包括候选查询信息中的每个候选查询信息分别对应的候选查询向量,N为正整数,用于表示向量子集合的数量,即向量数据集合的划分数量。具体的,计算机设备可以采用聚类方法对向量数据集合进行划分,该聚类方法的操作流程可以描述如下:从向量索引库所关联的向量数据集合中确定中心向量ti,获取向量数据集合中的每个候选查询向量与中心向量ti之间的向量相似度;i为小于或等于N的正整数;若向量数据集合中的第j个候选查询向量与中心向量ti的向量相似度最大,则将第j个候选查询向量添加至中心向量ti所属的待处理簇Ci;j为小于或等于向量数据集合中所包含的候选查询信息的数量的正整数;根据待处理簇Ci中所包含的候选查询向量,更新中心向量ti,直至待处理簇Ci中更新后的中心向量ti与更新前的中心向量ti相同时,将待处理簇Ci确定为向量子集合。
其中,用户终端可以预先设置向量数据集合中所有候选查询向量对应的聚类数(也可以称为簇数量),当聚类数为N(N为小于向量数据集合中候选查询向量的数量的正整数)时,可以从向量数据集合中随机选择N个候选查询向量作为初始的中心向量,即中心向量ti(i为小于或等于N的正整数);聚类算法中设置的聚类数可以影响候选查询向量的最终聚类效果,聚类数太大,使得相似的候选查询向量有可能被分到不同的簇中,聚类数太小,使得不相似的候选查询向量有可能被分到同一个簇中,本申请实施例中可以根据经验来设置聚类数,如N=1000,当然也可以采用交叉验证等方法来确定聚类数。
可选地,为了达到更好的聚类效果,用户终端可以从向量数据集合中选择彼此距离尽可能远的N个候选查询向量作为初始的中心向量。具体选择方式为:从向量数据集合中随机选择一个候选查询向量作为第一个中心向量t1,进而可以从向量数据集合剩余的候选查询向量(未被选择的候选查询向量)中选择与第一个中心向量t1距离最远的候选查询向量作为第二个中心向量t2;可以计算第一个中心向量t1和第二个中心向量t2之间的中心点(该中心点可以为第一个中心向量t1和第二个中心向量t2的平均值对应的候选查询向量),从向量数据集合剩余的候选查询向量中选择与该中心点距离最远的候选查询向量作为第三个中心向量t3,以此类推,直至确定第N个中心向量tN,可以确定N个中心向量。
用户终端可以计算向量数据集合中每个候选查询向量与各个中心向量之间的距离(可以用两个候选查询向量之间的向量相似度来衡量两者之间的距离,向量相似度越大,距离越短,向量相似度越小,距离越大),即向量数据集合中每个候选查询向量与每个中心向量tk之间的距离,将候选查询向量(如第j个候选查询向量,j为正整数)划分到距离最近的中心向量ti所属的待处理Ci,可以初步得到N个待处理簇(每个中心向量均对应一个待处理簇),每个待处理簇均可以包括多个候选查询向量(每一个待处理簇中的候选查询向量的数量可以不一样)。其中,计算两个候选查询向量之间的距离所采用的方法可以与前述关联相似度所采用的方法相同,此处不再进行赘述。
对于上述得到的N个待处理簇,可以计算每一个待处理簇中所包含的所有候选查询向量的均值,根据均值更新待处理簇对应的中心向量,得到一个新的中心向量,进而根据向量数据集合中每个候选查询向量与每个新的中心向量之间的距离,对每个待处理簇中所包含的候选查询向量进行更新。不断重复上述过程,当每个待处理簇中所包含的候选查询向量不再发生变化,即每个待处理簇分别对应的中心向量固定不变时,此时的N个待处理簇可以确定为向量数据集合最终的聚类结果,即N个向量子集合。
步骤S208,在N个向量子集合中获取第一查询向量所属的目标向量子集合,从目标向量子集合中获取与第一查询向量相关联的K个关联查询向量。
具体的,计算机设备可以获取第一查询向量分别与N个向量子集合之间的向量距离(类似于前述向量相似度的计算方式),将最短的向量距离所对应的向量子集合,确定为第一查询向量所属的目标向量子集合;进而可以获取第一查询向量分别与目标向量子集合中的候选查询向量之间的向量关联度,按照向量关联度对目标向量子集合中的候选查询向量进行排序,得到排序后的目标向量子集合;在排序后的目标向量子集合中,按照排列顺序获取第一查询向量对应的K个关联查询向量。换言之,可以在N个向量子集合中,基于第一查询向量与N个向量子集合的中心向量之间的向量距离,选择第一查询向量所属的目标向量子集合,进而可以在目标向量子集合中确定与第一查询向量的向量关联度最高的前K个候选查询向量,并将此时的K个候选查询向量确定为第一查询向量对应的K个关联查询向量。
可选地,前述聚类方法仅为本申请实施例中的一种举例,本申请还可以采用其余聚类方法进行处理,如层次聚类算法,本申请对此不做限定。
步骤S209,将K个关联查询向量分别对应的候选查询信息确定为关联查询信息,将第一查询信息与K个关联查询信息组合为第二查询信息。
步骤S210,获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
其中,步骤S209和步骤S210的具体实现过程可以参见上述图3所对应实施例中的步骤S102和步骤S103,此处不再进行赘述。
请参见图8,图8是本申请实施例提供的一种数据处理的流程框架示意图。如图8所示,该数据处理的整体流程可以包括自动标注样本数据组阶段、模型训练阶段、离线构建向量索引库阶段、在线检索阶段。
其中,自动标注样本数据组阶段可以为初始语言模型标注大量的样本数据组,样本数据组的自动标注过程可以参见前述图6所对应实施例中的描述,此处不再进行赘述,自动标注样本数据组阶段可以有效减少人工标注成本。
模型训练阶段可以基于自动标注样本数据组阶段所生成的样本数据组,对初始语言模型进行训练。如图8所示,对于正例样本组(A,B,1),即历史查询信息A(第一样本数据)、历史查询信息B(第二样本数据)以及样本标签“1”,可以通过初始语言模型中的两个子网络结构(也可以称为编码器)分别对历史查询信息A和历史查询信息B进行编码,可以得到历史查询信息A对应的向量A(第一样本向量),以及历史查询信息B对应的向量B(第二样本向量),通过向量A与向量B之间的向量距离,以及正例样本组的样本标签,计算对比损失,进而可以通过反向传播的形式调整编码器中的网络参数,详细的训练过程描述可以参见图7所对应实施例中的描述,模型训练阶段可学习查询信息的文本语义,进而可以提高关联查询信息的泛化性。
离线构建向量索引库阶段可以通过模型训练阶段所得到的目标语言模型,离线生成候选信息集合中的每个候选查询信息分别对应的候选查询向量,并采用向量索引创建工具构建向量索引库,该向量索引库的构建过程可以参见步骤S204至步骤S206的描述,该向量索引库可以部署在搜索引擎的向量检索模块中,通过离线构建向量索引库阶段可以有效减少在线耗时开销。
在线检索阶段中,若用户在搜索引擎中输入第一查询信息,可以调用目标语言模型对第一查询信息进行向量转换,生成第一查询向量,进而可以将第一查询向量输入至向量检索模块,基于向量索引库获取第一查询信息对应的关联查询信息,在搜索引擎中基于第一查询信息和关联查询信息一并进行检索,召回用于响应第一查询信息的目标检索结果,该目标检索结果可以展示在搜索引擎所对应的查询页面中,以供用户进行查看。
可以理解的是,在本申请的具体实施方式中,可能涉及到用户的搜索操作信息等,当本申请以上实施例运用到具体产品或技术中时,需要获得用户的许可或同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例中,可以通过挖掘对象日志中满足搜索筛检条件的候选查询信息预先构建向量索引库,在第一查询信息的检索过程中,可以通过向量检索的方式,直接从向量索引库中确定该第一查询文本对应的关联查询信息,进而可以基于第一查询信息和关联查询信息进行数据检索,将第一查询信息和关联查询信息的检索结果作为第一查询信息的目标检索结果;由于在检索过程中基于向量索引库来获取关联查询信息,可以提高关联查询信息的泛化性,进而可以提高检索结果的有效性,基于预先构建的向量索引库进行检索,可以节省候选查询信息转化为候选查询向量的时间,即减少检索过程中的计算开销,进而减少数据检索耗时。
请参加图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,该数据处理装置1可以包括:第一获取模块11,第二获取模块12,检索模块13;
第一获取模块11,用于获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
第二获取模块12,用于从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息;
检索模块13,用于获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
其中,第一获取模块11,第二获取模块12,检索模块13的具体功能实现方式可以参见图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
在一个或多个实施例中,关联查询信息的数量为K个,K为正整数;
第二获取模块12可以包括:数据库分割单元121,关联向量获取单元122,信息组合单元123;
数据库分割单元121,用于获取第一查询信息对应的第一查询向量,对向量索引库所关联的向量数据集合进行分割,得到N个向量子集合;向量数据集合包括对象日志中的候选查询信息对应的候选查询向量,N为正整数;
关联向量获取单元122,用于在N个向量子集合中获取第一查询向量所属的目标向量子集合,从目标向量子集合中获取与第一查询向量相关联的K个关联查询向量;
信息组合单元123,用于将K个关联查询向量分别对应的候选查询信息确定为关联查询信息,将第一查询信息与K个关联查询信息组合为第二查询信息。
其中,数据库分割单元121,关联向量获取单元122,信息组合单元123的具体功能实现方式可以参见图5所对应实施例中的步骤S207-步骤S209,这里不再进行赘述。
在一个或多个实施例中,数据库分割单元121包括:字符转换子单元1211,池化运算子单元1212,降维处理子单元1213;
字符转换子单元1211,用于将第一查询信息划分为M个单位字符,将M个单位字符依次输入至目标语言模型,通过目标语言模型将M个单位字符分别编码为单位字符向量;M为正整数;
池化运算子单元1212,用于对M个单位字符向量进行池化运算,得到第一查询信息对应的初始查询向量;
降维处理子单元1213,用于根据目标语言模型中的全连接层,对初始查询向量进行降维处理,得到第一查询向量。
其中,字符转换子单元1211,池化运算子单元1212,降维处理子单元1213的具体功能实现方式可以参见图3所对应实施例中的步骤S102,这里不再进行赘述。
在一个或多个实施例中,数据库分割单元121包括:相似度获取子单元1214,分簇处理子单元1215,簇中心更新子单元1216;
相似度获取子单元1214,用于从向量索引库所关联的向量数据集合中确定中心向量ti,获取向量数据集合中的每个候选查询向量与中心向量ti之间的向量相似度;i为小于或等于N的正整数;
分簇处理子单元1215,用于若向量数据集合中的第j个候选查询向量与中心向量ti的向量相似度最大,则将第j个候选查询向量添加至中心向量ti所属的待处理簇Ci;j为小于或等于向量数据集合中所包含的候选查询信息的数量的正整数;
簇中心更新子单元1216,用于根据待处理簇Ci中所包含的候选查询向量,更新中心向量ti,直至待处理簇Ci中更新后的中心向量ti与更新前的中心向量ti相同时,将待处理簇Ci确定为向量子集合。
在一个或多个实施例中,关联向量获取单元122包括:子集合确定子单元1221,候选向量排序子单元1222,关联向量选取子单元1223;
子集合确定子单元1221,用于获取第一查询向量分别与N个向量子集合之间的向量距离,将最短的向量距离所对应的向量子集合,确定为第一查询向量所属的目标向量子集合;
候选向量排序子单元1222,用于获取第一查询向量分别与目标向量子集合中的候选查询向量之间的向量关联度,按照向量关联度对目标向量子集合中的候选查询向量进行排序,得到排序后的目标向量子集合;
关联向量选取子单元1223,用于在排序后的目标向量子集合中,按照排列顺序获取第一查询向量对应的K个关联查询向量。
其中,相似度获取子单元1214,分簇处理子单元1215,簇中心更新子单元1216,子集合确定子单元1221,候选向量排序子单元1222,关联向量选取子单元1223的具体功能实现方式可以参见图5所对应实施例中的步骤S207和步骤S208,这里不再进行赘述。
在一个或多个实施例中,检索模块13包括:接口调用单元131,数据召回单元132;
接口调用单元131,用于调用搜索引擎中的应用程序接口,获取搜索引擎中所包含的待推荐数据集合;
数据召回单元132,用于根据第二查询信息与待推荐数据集合中的待推荐数据之间的数据相似度,从待推荐数据集合中召回第二查询信息对应的检索结果。
在一个或多个实施例中,该数据处理装置1还包括:检索结果展示模块14,检索结果触发模块15;
检索结果展示模块14,用于在查询页面中展示第一查询信息对应的目标检索结果;
检索结果触发模块15,用于响应针对目标检索结果的触发操作,显示目标检索结果对应的详情描述信息。
其中,接口调用单元131,数据召回单元132,检索结果展示模块14,检索结果触发模块15的具体功能实现方式可以参见图3所对应实施例中的步骤S103,这里不再进行赘述。
在一个或多个实施例中,该数据处理装置1还包括:历史查询信息获取模块16,候选查询信息确定模块17,候选查询信息编码模块18,索引库构建模块19,样本数据组获取模块20,样本向量获取模块21,模型训练模块22;
历史查询信息获取模块16,用于获取对象日志中的历史信息集合,统计历史信息集合中的每个历史查询信息分别对应的被搜索频次;
候选查询信息确定模块17,用于若对象日志中包含历史信息集合中的历史查询信息s对应的对象操作信息,且历史查询信息s对应的被搜索频次大于频次阈值,则确定历史查询信息s满足搜索筛选条件,将历史查询信息s作为候选查询信息添加至候选信息集合;s为正整数;
候选查询信息编码模块18,用于通过目标语言模型对候选信息集合中的每个候选查询信息进行编码,得到每个候选查询信息分别对应的候选查询向量;
索引库构建模块19,用于为每个候选查询信息分别对应的候选查询向量构建索引信息,基于索引信息生成候选信息集合对应的向量索引库。
样本数据组获取模块20,用于获取样本数据组;样本数据组包括第一样本数据、第二样本数据以及样本标签,样本标签用于表征第一样本数据和第二样本数据之间的关联关系;
样本向量获取模块21,用于将样本数据组输入至初始语言模型,通过初始语言模型获取第一样本数据对应的第一样本向量,以及第二样本数据对应的第二样本向量;
模型训练模块22,用于获取第一样本向量与第二样本向量之间的样本距离,根据样本距离与样本标签之间的对比损失,对初始语言模型的网络参数进行修正,将包含修正后的网络参数的初始语言模型确定为目标语言模型。
其中,历史查询信息获取模块16,候选查询信息确定模块17,候选查询信息编码模块18,索引库构建模块19,样本数据组获取模块20,样本向量获取模块21,模型训练模块22的具体功能实现方式可以参见图5所对应实施例中的步骤S201至步骤S206,这里不再进行赘述。
在一个或多个实施例中,样本数据组包括正例样本组;
样本数据组获取模块20包括:第一样本获取单元201,样本标签添加单元202,正例样本组确定单元203;
第一样本获取单元201,用于在对象日志的历史信息集合中,获取目标时间范围内的第一样本数据和第二样本数据;第一样本数据是指不具备对象操作信息的历史查询信息,第二样本数据是指具备对象操作信息的历史查询信息;
样本标签添加单元202,用于获取第一样本数据切换至第二样本数据的转移概率,当转移概率大于概率阈值时,确定第一样本数据和第二样本数据之间的样本标签为第一标签;第一标签用于表征第一样本数据和第二样本数据具有关联关系;
正例样本组确定单元203,用于将第一样本数据、第二样本数据以及第一标签,确定为正例样本组。
可选地,样本数据组包括负例样本组;
样本数据组获取模块20包括:第二样本获取单元204,负例样本组确定单元205;
第二样本获取单元204,用于在对象日志的历史信息集合中,获取不具备对象操作信息的第一样本数据,通过随机数策略获取第二样本数据;
负例样本组确定单元205,用于确定第一样本数据和第二样本数据之间的样本标签为第二标签,将第一样本数据、第二样本数据以及第二标签,确定为负例样本组;第二标签用于表征第一样本数据和第二样本数据不具有关联关系。
其中,第一样本获取单元201,样本标签添加单元202,正例样本组确定单元203,第二样本获取单元204,负例样本组确定单元205的具体功能实现方式可以参见图5所对应实施例中的步骤S201,这里不再进行赘述。
本申请实施例中,可以通过挖掘对象日志中满足搜索筛检条件的候选查询信息预先构建向量索引库,在第一查询信息的检索过程中,可以通过向量检索的方式,直接从向量索引库中确定该第一查询文本对应的关联查询信息,进而可以基于第一查询信息和关联查询信息进行数据检索,将第一查询信息和关联查询信息的检索结果作为第一查询信息的目标检索结果;由于在检索过程中基于向量索引库来获取关联查询信息,可以提高关联查询信息的泛化性,进而可以提高检索结果的有效性,基于预先构建的向量索引库进行检索,可以节省候选查询信息转化为候选查询向量的时间,即减少检索过程中的计算开销,进而减少数据检索耗时。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以为用户终端,例如,上述图1所对应实施例中的用户终端10a,还可以为服务器,例如,上述图1所对应实施例中的服务器10d,这里将不对其进行限制。为便于理解,本申请以计算机设备为用户终端为例,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以提供网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一查询信息,获取向量索引库;向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
从向量索引库中获取第一查询信息对应的关联查询信息,将第一查询信息与关联查询信息确定为第二查询信息;
获取第二查询信息对应的检索结果,将第二查询信息的检索结果确定为用于响应第一查询信息的目标检索结果。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图5任一个所对应实施例中对数据处理方法的描述,也可执行前文图9所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图5任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图5任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
获取第一查询信息,获取向量索引库;所述向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
从所述向量索引库中获取所述第一查询信息对应的关联查询信息,将所述第一查询信息与所述关联查询信息确定为第二查询信息;
获取所述第二查询信息对应的检索结果,将所述第二查询信息的检索结果确定为用于响应所述第一查询信息的目标检索结果。
2.根据权利要求1所述的方法,其特征在于,所述关联查询信息的数量为K个,K为正整数;
所述从所述向量索引库中获取所述第一查询信息对应的关联查询信息,将所述第一查询信息与所述关联查询信息确定为第二查询信息,包括:
获取所述第一查询信息对应的第一查询向量,对所述向量索引库所关联的向量数据集合进行分割,得到N个向量子集合;所述向量数据集合包括所述对象日志中的候选查询信息对应的候选查询向量,N为正整数;
在所述N个向量子集合中获取所述第一查询向量所属的目标向量子集合,从所述目标向量子集合中获取与所述第一查询向量相关联的K个关联查询向量;
将所述K个关联查询向量分别对应的候选查询信息确定为关联查询信息,将所述第一查询信息与K个关联查询信息组合为所述第二查询信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一查询信息对应的第一查询向量,包括:
将所述第一查询信息划分为M个单位字符,将所述M个单位字符依次输入至目标语言模型,通过所述目标语言模型将所述M个单位字符分别编码为单位字符向量;M为正整数;
对M个单位字符向量进行池化运算,得到所述第一查询信息对应的初始查询向量;
根据所述目标语言模型中的全连接层,对所述初始查询向量进行降维处理,得到所述第一查询向量。
4.根据权利要求2所述的方法,其特征在于,所述对所述向量索引库所关联的向量数据集合进行分割,得到N个向量子集合,包括:
从所述向量索引库所关联的向量数据集合中确定中心向量ti,获取所述向量数据集合中的每个候选查询向量与所述中心向量ti之间的向量相似度;i为小于或等于N的正整数;
若所述向量数据集合中的第j个候选查询向量与所述中心向量ti的向量相似度最大,则将所述第j个候选查询向量添加至所述中心向量ti所属的待处理簇Ci;j为小于或等于所述向量数据集合中所包含的候选查询信息的数量的正整数;
根据所述待处理簇Ci中所包含的候选查询向量,更新所述中心向量ti,直至所述待处理簇Ci中更新后的中心向量ti与更新前的中心向量ti相同时,将所述待处理簇Ci确定为向量子集合。
5.根据权利要求2所述的方法,其特征在于,所述在所述N个向量子集合中获取所述第一查询向量所属的目标向量子集合,从所述目标向量子集合中获取与所述第一查询向量相关联的K个关联查询向量,包括:
获取所述第一查询向量分别与所述N个向量子集合之间的向量距离,将最短的向量距离所对应的向量子集合,确定为所述第一查询向量所属的目标向量子集合;
获取所述第一查询向量分别与所述目标向量子集合中的候选查询向量之间的向量关联度,按照所述向量关联度对所述目标向量子集合中的候选查询向量进行排序,得到排序后的目标向量子集合;
在所述排序后的目标向量子集合中,按照排列顺序获取所述第一查询向量对应的K个关联查询向量。
6.根据权利要求1所述的方法,其特征在于,所述获取所述第二查询信息对应的检索结果,包括:
调用搜索引擎中的应用程序接口,获取所述搜索引擎中所包含的待推荐数据集合;
根据所述第二查询信息与所述待推荐数据集合中的待推荐数据之间的数据相似度,从所述待推荐数据集合中召回所述第二查询信息对应的检索结果。
7.根据权利要求1所述的方法,其特征在于,还包括:
在查询页面中展示所述第一查询信息对应的目标检索结果;
响应针对所述目标检索结果的触发操作,显示所述目标检索结果对应的详情描述信息。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取所述对象日志中的历史信息集合,统计所述历史信息集合中的每个历史查询信息分别对应的被搜索频次;
若所述对象日志中包含所述历史信息集合中的历史查询信息s对应的对象操作信息,且所述历史查询信息s对应的被搜索频次大于频次阈值,则确定所述历史查询信息s满足所述搜索筛选条件,将所述历史查询信息s作为候选查询信息添加至候选信息集合;s为正整数;
通过目标语言模型对所述候选信息集合中的每个候选查询信息进行编码,得到所述每个候选查询信息分别对应的候选查询向量;
为所述每个候选查询信息分别对应的候选查询向量构建索引信息,基于所述索引信息生成所述候选信息集合对应的向量索引库。
9.根据权利要求3或8所述的方法,其特征在于,所述方法还包括:
获取样本数据组;所述样本数据组包括第一样本数据、第二样本数据以及样本标签,所述样本标签用于表征所述第一样本数据和所述第二样本数据之间的关联关系;
将所述样本数据组输入至初始语言模型,通过所述初始语言模型获取所述第一样本数据对应的第一样本向量,以及所述第二样本数据对应的第二样本向量;
获取所述第一样本向量与所述第二样本向量之间的样本距离,根据所述样本距离与所述样本标签之间的对比损失,对所述初始语言模型的网络参数进行修正,将包含修正后的网络参数的初始语言模型确定为所述目标语言模型。
10.根据权利要求9所述的方法,其特征在于,所述样本数据组包括正例样本组;
所述获取样本数据组,包括:
在所述对象日志的历史信息集合中,获取目标时间范围内的第一样本数据和第二样本数据;所述第一样本数据是指不具备对象操作信息的历史查询信息,所述第二样本数据是指具备对象操作信息的历史查询信息;
获取所述第一样本数据切换至所述第二样本数据的转移概率,当所述转移概率大于概率阈值时,确定所述第一样本数据和所述第二样本数据之间的样本标签为第一标签;所述第一标签用于表征所述第一样本数据和所述第二样本数据具有关联关系;
将所述第一样本数据、所述第二样本数据以及所述第一标签,确定为正例样本组。
11.根据权利要求9所述的方法,其特征在于,所述样本数据组包括负例样本组;
所述获取样本数据组,包括:
在所述对象日志的历史信息集合中,获取不具备对象操作信息的第一样本数据,通过随机数策略获取第二样本数据;
确定所述第一样本数据和所述第二样本数据之间的样本标签为第二标签,将所述第一样本数据、所述第二样本数据以及所述第二标签,确定为负例样本组;所述第二标签用于表征所述第一样本数据和所述第二样本数据不具有关联关系。
12.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取第一查询信息,获取向量索引库;所述向量索引库是由对象日志中满足搜索筛选条件的候选查询信息所确定的;
第二获取模块,用于从所述向量索引库中获取所述第一查询信息对应的关联查询信息,将所述第一查询信息与所述关联查询信息确定为第二查询信息;
检索模块,用于获取所述第二查询信息对应的检索结果,将所述第二查询信息的检索结果确定为用于响应所述第一查询信息的目标检索结果。
13.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。
15.一种计算程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287730.9A CN114691828A (zh) | 2022-03-23 | 2022-03-23 | 数据处理方法、装置、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287730.9A CN114691828A (zh) | 2022-03-23 | 2022-03-23 | 数据处理方法、装置、设备以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114691828A true CN114691828A (zh) | 2022-07-01 |
Family
ID=82139519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210287730.9A Pending CN114691828A (zh) | 2022-03-23 | 2022-03-23 | 数据处理方法、装置、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114691828A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628428A (zh) * | 2023-07-24 | 2023-08-22 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
CN118113817A (zh) * | 2024-05-06 | 2024-05-31 | 天津电力工程监理有限公司 | 审计引用制度依据密集检索与重排序方法、系统和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052350A (zh) * | 2020-08-25 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种图片检索方法、装置、设备和计算机可读存储介质 |
CN112256860A (zh) * | 2020-11-25 | 2021-01-22 | 携程计算机技术(上海)有限公司 | 客服对话内容的语义检索方法、系统、设备及存储介质 |
CN112507091A (zh) * | 2020-12-01 | 2021-03-16 | 百度健康(北京)科技有限公司 | 检索信息的方法、装置、设备以及存储介质 |
CN113590645A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113761105A (zh) * | 2021-05-24 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、设备以及介质 |
CN114138932A (zh) * | 2021-11-04 | 2022-03-04 | 北京三快在线科技有限公司 | 解释性信息确定方法、装置、设备、可读存储介质 |
-
2022
- 2022-03-23 CN CN202210287730.9A patent/CN114691828A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052350A (zh) * | 2020-08-25 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种图片检索方法、装置、设备和计算机可读存储介质 |
CN112256860A (zh) * | 2020-11-25 | 2021-01-22 | 携程计算机技术(上海)有限公司 | 客服对话内容的语义检索方法、系统、设备及存储介质 |
CN112507091A (zh) * | 2020-12-01 | 2021-03-16 | 百度健康(北京)科技有限公司 | 检索信息的方法、装置、设备以及存储介质 |
CN113761105A (zh) * | 2021-05-24 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、设备以及介质 |
CN113590645A (zh) * | 2021-06-30 | 2021-11-02 | 北京百度网讯科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN114138932A (zh) * | 2021-11-04 | 2022-03-04 | 北京三快在线科技有限公司 | 解释性信息确定方法、装置、设备、可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628428A (zh) * | 2023-07-24 | 2023-08-22 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
CN116628428B (zh) * | 2023-07-24 | 2023-10-31 | 华能信息技术有限公司 | 一种数据加工方法及系统 |
CN118113817A (zh) * | 2024-05-06 | 2024-05-31 | 天津电力工程监理有限公司 | 审计引用制度依据密集检索与重排序方法、系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN114691828A (zh) | 数据处理方法、装置、设备以及介质 | |
CN114186013A (zh) | 实体识别模型热更新方法及其装置、设备、介质、产品 | |
CN115062732A (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN115712657A (zh) | 基于元宇宙的用户需求挖掘方法及系统 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN116484105B (zh) | 业务处理方法、装置及计算机设备、存储介质、程序产品 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN113627161B (zh) | 数据处理方法及装置、存储介质、电子设备 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN114925681A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN114330296A (zh) | 新词发现方法、装置、设备以及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN112948561A (zh) | 一种问答知识库自动扩建的方法和装置 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN113392312A (zh) | 信息处理方法、系统及电子设备 | |
CN114548083B (zh) | 标题生成方法、装置、设备及介质 | |
CN114093447A (zh) | 数据资产推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070917 Country of ref document: HK |