CN117725244A - 数据搜索方法、装置、介质及设备 - Google Patents
数据搜索方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN117725244A CN117725244A CN202310533693.XA CN202310533693A CN117725244A CN 117725244 A CN117725244 A CN 117725244A CN 202310533693 A CN202310533693 A CN 202310533693A CN 117725244 A CN117725244 A CN 117725244A
- Authority
- CN
- China
- Prior art keywords
- text
- search
- field
- image
- visual intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000000007 visual effect Effects 0.000 claims abstract description 112
- 238000012549 training Methods 0.000 claims description 44
- 238000013210 evaluation model Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据搜索方法、装置、介质及设备,该方法包括:接收输入的搜索文本;搜索得到与搜索文本匹配的若干包含配图及字段的初始搜索结果;获取搜索文本的视觉强度值;获取搜索文本与各初始搜索结果对应的图文相关度及字段相关度;基于搜索文本的视觉强度值、初始搜索结果对应的图文相关度及字段相关度,得到初始搜索结果与搜索文本的综合相关度分值。本申请相比传统的跨模态搜索逻辑,能够提供与用户搜索意图更契合的搜索结果。
Description
技术领域
本申请涉及电子通信技术领域,尤其涉及一种数据搜索技术领域,特别涉及一种数据搜索方法、装置、介质及设备。
背景技术
搜索词和文档的相关性计算是搜索引擎中最重要的一环。目前主流的搜索引擎中的相关性计算主要是计算搜索词和文档的标题和正文的相关性。然而随着业务的不断发展,很多搜索场景将图文资源的首图或者视频资源的封面图露出作为文档重要的部分。这种情况下,这种计算相关性的方式带来了很多的问题。比如用户输入的搜索文本是“沙漠”,搜索结果输出的文档中标题或正文都提到与“沙漠”相关的内容,但是展示的配图是一张与用户搜索意图不相关的美女图片,显然不符合用户需求,影响用户点击查看的欲望。
发明内容
本申请实施例提供一种数据搜索方法、装置、介质及设备,利用本申请实施例提供的数据搜索方法,通过融合搜索文本的视觉强度值,搜索文本与各初始搜索结果对应的图文相关度及字段相关度,得到对应各个初始搜索结果的综合相关度分值。相比传统的跨模态搜索逻辑,本方案能够提供与用户搜索意图更契合的搜索结果。
本申请实施例一方面提供了一种数据搜索方法,所述数据搜索方法包括:
接收输入的搜索文本;
搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
在本申请实施例所述的数据搜索方法中,所述搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果,包括:
通过爬虫获取匹配上所述搜索文本的若干包含配图及字段的初始搜索结果。
在本申请实施例所述的数据搜索方法中,在所述获取所述搜索文本的视觉强度值之前,所述方法还包括:
将所述搜索文本输入训练好的视觉强度模型中进行视觉强度判断操作,得到与所述搜索文本对应的视觉强度值;
所述视觉强度模型的训练过程包括:
获取待训练的视觉强度模型的第一训练样本,所述第一训练样本包括设置有标签的搜索文本,所述标签用于指示所述搜索文本的视觉强度值;
通过所述待训练的视觉强度模型对所述初始的第一训练样本中的搜索文本进行特征提取,得到与所述搜索文本对应的文本特征向量;
通过所述待训练的视觉强度模型,基于所述文本特征向量判断所述第一训练样本中的搜索文本的视觉强度值,得到与所述搜索文本对应的判断结果;
基于所述判断结果及所述第一训练样本的标签,调整所述待训练的视觉强度模型的参数,得到预训练的视觉强度模型。
在本申请实施例所述的数据搜索方法中,所述搜索文本与初始搜索结果对应的图文相关度通过以下步骤得到:
提取所述搜索文本的第一字段特征;
提取所述配图的图像特征;
构建第一字段特征-图像特征组;
将所述第一字段特征-图像特征组输入训练好的图文相关性识别模型中进行图文相关性识别操作,得到所述搜索文本与各初始搜索结果对应的图文相关度。
在本申请实施例所述的数据搜索方法中,所述搜索文本与初始搜索结果对应的文本相关度通过以下步骤得到:
提取所述字段的第二字段特征;
构建第一字段特征-第二字段特征组;
将所述第一字段特征-第二字段特征组输入训练好的字段相关性识别模型中进行字段相关性识别操作,得到所述搜索文本与各初始搜索结果对应的字段相关度。
在本申请实施例所述的数据搜索方法中,所述方法还包括:
使用预训练的第一特征提取模型别提取所述搜索文本的第一字段特征及所述字段的第二字段特征;
使用预训练的第二特征提取模型提取所述配图的图像特征。
在本申请实施例所述的数据搜索方法中,所述基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值,包括:
将所述初始搜索结果对应的所述视觉强度值、图文相关度及字段相关度输入训练好的评估模型中进行分值计算操作,得到所述初始搜索结果的综合相关度分值;
所述评估模型的训练过程包括:
获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;
基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;
通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
相应的,本申请实施例另一方面还提供了一种数据搜索装置,所述数据搜索装置包括:
数据接收模块,用于接收输入的搜索文本;
数据匹配模块,用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
第一获取模块,用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
第二获取模块,用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
分值计算模块,用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
相应的,本申请实施例另一方面还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如上所述的数据搜索方法。
相应的,本申请实施例另一方面还提供了一种终端设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行如上所述的数据搜索方法。
本申请实施例提供了一种数据搜索方法、装置、介质及设备,该方法通过接收输入的搜索文本;搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。利用本申请实施例提供的数据搜索方法,通过融合搜索文本的视觉强度值,搜索文本与各初始搜索结果对应的图文相关度及字段相关度,得到对应各个初始搜索结果的综合相关度分值。相比传统的跨模态搜索逻辑,本方案能够提供与用户搜索意图更契合的搜索结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据搜索方法的流程示意图。
图2为本申请实施例提供的数据搜索装置的结构示意图。
图3为本申请实施例提供的数据搜索装置的另一结构示意图。
图4为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
需要说明的是,以下内容是对本方案背景做出的简单介绍:
本方案主要是围绕“如何做到搜索结果能够与用户的搜索意图更契合”这一技术问题开展的。可以理解的是,搜索词和文档的相关性计算是搜索引擎中最重要的一环。目前主流的搜索引擎中的相关性计算主要是计算搜索词和文档的标题和正文的相关性。然而随着业务的不断发展,很多搜索场景将图文资源的首图或者视频资源的封面图露出作为文档重要的部分。这种情况下,这种计算相关性的方式带来了很多的问题。比如用户输入的搜索文本是“沙漠”,搜索结果输出的文档中标题或正文都提到与“沙漠”相关的内容,但是展示的配图是一张与用户搜索意图不相关的美女图片,显然不符合用户需求,影响用户点击查看的欲望。
为了解决上述技术问题,本申请实施例提供一种数据搜索方法。利用本申请实施例提供的数据搜索方法,通过融合搜索文本的视觉强度值,搜索文本与各初始搜索结果对应的图文相关度及字段相关度,得到对应各个初始搜索结果的综合相关度分值,选取综合相关度分值排名靠前的若干初始搜索结果作为目标搜索结果。相比传统的跨模态搜索逻辑,本方案能够提供与用户搜索意图更契合的搜索结果。
请参阅图1,图1为本申请实施例提供的数据搜索方法的流程示意图。所述数据搜索方法,应用于终端设备中。可选地,该终端设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电及车载终端等,但并不局限于此。
在一实施例中,所述方法可以包括以下步骤:
步骤101,接收输入的搜索文本。
在本实施例中,运行有本方案提供的数据搜索方法的终端设备可以通过搜索引擎接收用户输入的搜索文本。其中可以将用户主动输入的词语直接作为搜索文本,例如“沙漠”。也可以将用户输入的语句通过关键词提取技术提取出关键词语作为搜索文本,例如用户输入的语句为“怎么撰写好专利文件”,对应的关键词语为“撰写”、“写好”、“专利”。
步骤102,搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果。
在本实施例中,初始搜索结果可以基于现有的搜索引擎搜索得到。
步骤103,获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度。
在本实施例中,可以采用基于深度学习分类模型(bert)训练得到的视觉强度模型对搜索文本进行视觉强度值的判断,视觉强度值是用来描述搜索文本对应的初始搜索结果与图像信息的关联程度,即视觉强度值越大说明书用户的搜索意图更倾向于通过配图来展示结果信息,此时字段内容是否与搜索文本相关不是用户重点关注的,更多是需要搜索结果中的配图内容与搜索文本形成强关联。相反,视觉强度值越小说明用户的搜索意图更倾向于通过字段来展示结果信息,此时配图内容是否与搜索文本相关不是用户重点关注的,更多是需要搜索结果中的字段内容与搜索文本形成强关联。具体地,视觉强度值用0、1、2三个数值分别表示弱中强三个等级。
在一些实施例中,视觉强度模型的训练过程包括:
获取待训练的视觉强度模型的第一训练样本,所述第一训练样本包括设置有标签的搜索文本,所述标签用于指示所述搜索文本的视觉强度值;
通过所述待训练的视觉强度模型对所述初始的第一训练样本中的搜索文本进行特征提取,得到与所述搜索文本对应的文本特征向量;
通过所述待训练的视觉强度模型,基于所述文本特征向量判断所述第一训练样本中的搜索文本的视觉强度值,得到与所述搜索文本对应的判断结果;
基于所述判断结果及所述第一训练样本的标签,调整所述待训练的视觉强度模型的参数,得到预训练的视觉强度模型。
步骤104,获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度。
为了获取搜索文本与各初始搜索结果对应的图文相关度及字段相关度,在本实施例中,通过以下步骤实现:
搜索文本与初始搜索结果对应的图文相关度通过以下步骤得到:
提取所述搜索文本的第一字段特征;
提取所述配图的图像特征;
构建第一字段特征-图像特征组;
将所述第一字段特征-图像特征组输入训练好的图文相关性识别模型中进行图文相关性识别操作,得到所述搜索文本与各初始搜索结果对应的图文相关度。
搜索文本与初始搜索结果对应的文本相关度通过以下步骤得到:
提取所述字段的第二字段特征;
构建第一字段特征-第二字段特征组;
将所述第一字段特征-第二字段特征组输入训练好的字段相关性识别模型中进行字段相关性识别操作,得到所述搜索文本与各初始搜索结果对应的字段相关度。
需要说明的是,针对字段特征及图像特征的获取,可以使用预训练的第一特征提取模型分别提取所述搜索文本的第一字段特征及所述字段的第二字段特征。具体地,可以选用RoBERTa模型提取搜索文本的第一字段特征及字段的第二字段特征;选用ResNet50模型提取配图的图像特征。可以理解的是,字段特征及图像特征也可以采用其他神经网络模型提取,在此不做限定。
针对图文相关度的获取,可以利用对比学习训练字段/配图的语义向量模型,使得匹配的搜索词和首图的语义向量足够接近,然后利用深度模型(dnn模型)以搜索词/首图向量作为输入,利用人工标注的搜索词和配图的相关性档位训练dnn模型,最终输出一个0-1的浮点数来代表搜索文本和配图的相关性。同样地,字段相关度的获取方式与图文相关度的获取方式相似,在此不做赘述。
步骤105,基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
在本实施例中,评估模型的训练过程包括:
获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;在一些实施例中,预设维度数据还包括搜索文本的字段长度及搜索文本中的实体(即文本中词性判定为主语的关键词)数量。
基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;
通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
可以理解的是,评估模型的运行原理是通过将初始搜索结果对应的视觉强度值、图文相关度及字段相关度输入训练好的评估模型中;根据视觉强度值自动分配对应图文相关度及字段相关度的第一权重系数和第二权重系数(模型会自动进行拟合决策);基于第一权重系数、第二权重系数、图文相关度及字段相关度进行分值计算,得到对应各初始搜索结果的综合相关度分值。
需要说明的是,当视觉强度值越大,与之对应的第一权重系数越大,同时第二权重系数越小。
简单理解为综合相关度分值score=x*字段相关度+y*图文相关度
x和y分别是第一权重系数和第二权重系数。当视觉强度值越大,与之对应的第一权重系数越大,同时第二权重系数越小,从而决定综合相关度分值取决于图文相关性还是字段相关性。对于视觉强度越强的搜索文本,进行最终相关性的打分决策的时候,不再仅仅使用字段相关性,也更重视图文相关性的分数。
在一些实施例中,可以选取综合相关度分值排名靠前的若干初始搜索结果作为目标搜索结果进行展示。其中,将综合相关度分值排名靠前的初始搜索结果作为目标搜索结果展示给用户进行选择。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的数据搜索方法通过接收输入的搜索文本;搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。利用本申请实施例提供的数据搜索方法,通过融合搜索文本的视觉强度值,搜索文本与各初始搜索结果对应的图文相关度及字段相关度,得到对应各个初始搜索结果的综合相关度分值,选取综合相关度分值排名靠前的若干初始搜索结果作为目标搜索结果。相比传统的跨模态搜索逻辑,本方案能够提供与用户搜索意图更契合的搜索结果。
本申请实施例还提供一种数据搜索装置,所述数据搜索装置可以集成在终端设备中。
请参阅图2,图2为本申请实施例提供的数据搜索装置的结构示意图。数据搜索装置30可以包括:
数据接收模块31,用于接收输入的搜索文本;
数据匹配模块32,用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
第一获取模块33,用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
第二获取模块34,用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
分值计算模块35,用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值;
在一些实施例中,所述分值计算模块35,用于将所述初始搜索结果对应的所述视觉强度值、图文相关度及字段相关度输入训练好的评估模型中进行分值计算操作,得到所述初始搜索结果的综合相关度分值;所述评估模型的训练过程包括:获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。
由上可知,本申请实施例提供的数据搜索装置30,其中数据接收模块31用于接收输入的搜索文本;数据匹配模块32用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;第一获取模块33用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;第二获取模块34用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;分值计算模块35用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。
请参阅图3,图3为本申请实施例提供的数据搜索装置的另一结构示意图,数据搜索装置30包括存储器120、一个或多个处理器180、以及一个或多个应用程序,其中该一个或多个应用程序被存储于该存储器120中,并配置为由该处理器180执行;该处理器180可以包括数据接收模块31、数据匹配模块32、第一获取模块33、第二获取模块34以及分值计算模块35。例如,以上各个部件的结构和连接关系可以如下:
存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序,从而执行各种功能应用以及数据处理。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180对存储器120的访问。
处理器180是装置的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的应用程序,以及调用存储在存储器120内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
具体在本实施例中,处理器180会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中,并由处理器180来运行存储在存储器120中的应用程序,从而实现各种功能:
数据接收指令,用于接收输入的搜索文本;
数据匹配指令,用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
第一获取指令,用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
第二获取指令,用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
分值计算指令,用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
在一些实施例中,所述分值计算指令,用于将所述初始搜索结果对应的所述视觉强度值、图文相关度及字段相关度输入训练好的评估模型中进行分值计算操作,得到所述初始搜索结果的综合相关度分值;所述评估模型的训练过程包括:获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
本申请实施例还提供一种终端设备。所述终端设备可以是服务器、智能手机、电脑、平板电脑等设备。
请参阅图4,图4示出了本申请实施例提供的终端设备的结构示意图,该终端设备可以用于实施上述实施例中提供的数据搜索方法。该终端设备1200可以为电视机或智能手机或平板电脑。
如图4所示,终端设备1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解,图4中示出的终端设备1200结构并不构成对终端设备1200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。
存储器120可用于存储软件程序以及模块,如上述实施例中数据搜索方法对应的程序指令/模块,处理器180通过运行存储在存储器120内的软件程序以及模块,从而执行各种功能应用以及数据处理,可以根据终端设备所处的当前场景来自动选择振动提醒模式来进行数据搜索,既能够保证会议等场景不被打扰,又能保证用户可以感知来电,提升了终端设备的智能性。存储器120可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器120可进一步包括相对于处理器180远程设置的存储器,这些远程存储器可以通过网络连接至终端设备1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触控显示屏或者触控板,可收集用户在其上或附近的触控操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触控检测装置和触控控制器两个部分。其中,触控检测装置检测用户的触控方位,并检测触控操作带来的信号,将信号传送给触控控制器;触控控制器从触控检测装置上接收触控信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1200的各种图形用户接口,这些图形用户接口可以由图形、字段、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触控操作后,传送给处理器180以确定触控事件的类型,随后处理器180根据触控事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端设备1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端设备1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端设备1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端设备1200的通信。
终端设备1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170,但是可以理解的是,其并不属于终端设备1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端设备1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端设备1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;在一些实施例中,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端设备1200还包括给各个部件供电的电源190,在一些实施例中,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,终端设备1200的显示单元140是触控屏显示器,终端设备1200还包括有存储器120,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器120中,且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令:
数据接收指令,用于接收输入的搜索文本;
数据匹配指令,用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
第一获取指令,用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
第二获取指令,用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
分值计算指令,用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
在一些实施例中,所述分值计算指令,用于将所述初始搜索结果对应的所述视觉强度值、图文相关度及字段相关度输入训练好的评估模型中进行分值计算操作,得到所述初始搜索结果的综合相关度分值;所述评估模型的训练过程包括:获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
本申请实施例还提供一种终端设备。所述终端设备可以是智能手机、电脑等设备。
由上可知,本申请实施例提供了一种终端设备1200,所述终端设备1200执行以下步骤:
接收输入的搜索文本;
搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的数据搜索方法。
需要说明的是,对本申请所述数据搜索方法而言,本领域普通测试人员可以理解实现本申请实施例所述数据搜索方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在终端设备的存储器中,并被该终端设备内的至少一个处理器执行,在执行过程中可包括如所述数据搜索方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储器(ROM,ReadOnly Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述数据搜索装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的数据搜索方法、装置、介质及设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种数据搜索方法,其特征在于,包括:
接收输入的搜索文本;
搜索得到与所述搜索文本匹配的包含配图及字段的初始搜索结果;
获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
2.如权利要求1所述的数据搜索方法,其特征在于,在所述获取所述搜索文本的视觉强度值之前,所述方法还包括:
将所述搜索文本输入训练好的视觉强度模型中进行视觉强度判断操作,得到与所述搜索文本对应的视觉强度值;
所述视觉强度模型的训练过程包括:
获取待训练的视觉强度模型的第一训练样本,所述第一训练样本包括设置有标签的搜索文本,所述标签用于指示所述搜索文本的视觉强度值;
通过所述待训练的视觉强度模型对所述初始的第一训练样本中的搜索文本进行特征提取,得到与所述搜索文本对应的文本特征向量;
通过所述待训练的视觉强度模型,基于所述文本特征向量判断所述第一训练样本中的搜索文本的视觉强度值,得到与所述搜索文本对应的判断结果;
基于所述判断结果及所述第一训练样本的标签,调整所述待训练的视觉强度模型的参数,得到预训练的视觉强度模型。
3.如权利要求1所述的数据搜索方法,其特征在于,所述搜索文本与初始搜索结果对应的图文相关度通过以下步骤得到:
提取所述搜索文本的第一字段特征;
提取所述配图的图像特征;
构建第一字段特征-图像特征组;
将所述第一字段特征-图像特征组输入训练好的图文相关性识别模型中进行图文相关性识别操作,得到所述搜索文本与各初始搜索结果对应的图文相关度。
4.如权利要求1所述的数据搜索方法,其特征在于,所述搜索文本与初始搜索结果对应的文本相关度通过以下步骤得到:
提取所述字段的第二字段特征;
构建第一字段特征-第二字段特征组;
将所述第一字段特征-第二字段特征组输入训练好的字段相关性识别模型中进行字段相关性识别操作,得到所述搜索文本与各初始搜索结果对应的字段相关度。
5.如权利要求4所述的数据搜索方法,其特征在于,所述方法还包括:
使用预训练的第一特征提取模型分别提取所述搜索文本的第一字段特征及所述字段的第二字段特征;
使用预训练的第二特征提取模型提取所述配图的图像特征。
6.如权利要求1所述的数据搜索方法,其特征在于,所述基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值,包括:
将所述初始搜索结果对应的所述视觉强度值、图文相关度及字段相关度输入训练好的评估模型中进行分值计算操作,得到所述初始搜索结果的综合相关度分值;
所述评估模型的训练过程包括:
获取第二样本数据,所述第二训练样本集包括由预设维度数据与人为实际评分组成的样本对,所述维度数据包括搜索文本的视觉强度值、图文相关度及字段相关度;
基于所述第二训练样本对树模型进行训练,并计算所述预设维度数据的预测得分;
通过所述预测得分与所述实际评分计算所述树模型的损失函数,直至所述树模型收敛,得到训练后的评估模型。
7.如权利要求6所述的数据搜索方法,其特征在于,所述预设维度数据还包括搜索文本的字段长度及所述搜索文本中的实体数量。
8.一种数据搜索装置,其特征在于,包括:
数据接收模块,用于接收输入的搜索文本;
数据匹配模块,用于搜索得到与所述搜索文本匹配的若干包含配图及字段的初始搜索结果;
第一获取模块,用于获取所述搜索文本的视觉强度值,其中所述视觉强度值用于指示搜索文本对应的视觉需求程度;
第二获取模块,用于获取所述搜索文本与所述初始搜索结果对应的图文相关度及字段相关度;
分值计算模块,用于基于所述搜索文本的视觉强度值、所述初始搜索结果对应的图文相关度及字段相关度,得到所述初始搜索结果与所述搜索文本的综合相关度分值。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-7任一项所述的数据搜索方法。
10.一种终端设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行权利要求1-7任一项所述的数据搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533693.XA CN117725244A (zh) | 2023-05-11 | 2023-05-11 | 数据搜索方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533693.XA CN117725244A (zh) | 2023-05-11 | 2023-05-11 | 数据搜索方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725244A true CN117725244A (zh) | 2024-03-19 |
Family
ID=90207546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310533693.XA Pending CN117725244A (zh) | 2023-05-11 | 2023-05-11 | 数据搜索方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725244A (zh) |
-
2023
- 2023-05-11 CN CN202310533693.XA patent/CN117725244A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
WO2021147421A1 (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN112269853A (zh) | 检索处理方法、装置及存储介质 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN113192537A (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 | |
CN117454954A (zh) | 模型训练方法、装置、计算机设备及存储介质 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN116775915A (zh) | 资源推荐方法、推荐预测模型训练方法、装置及设备 | |
CN116307394A (zh) | 产品用户体验评分方法、装置、介质及设备 | |
CN111597823B (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN112070586B (zh) | 基于语义识别的物品推荐方法、装置、计算机设备及介质 | |
CN114970562A (zh) | 语义理解方法、装置、介质及设备 | |
CN116933149A (zh) | 一种对象意图预测方法、装置、电子设备和存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN117725244A (zh) | 数据搜索方法、装置、介质及设备 | |
CN114281937A (zh) | 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置 | |
CN113806533B (zh) | 比喻句式特征词语提取方法、装置、介质及设备 | |
CN113806532B (zh) | 比喻句式判断模型的训练方法、装置、介质及设备 | |
CN110119383A (zh) | 一种文件管理方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |