CN113434775A - 搜索内容的确定方法及装置 - Google Patents
搜索内容的确定方法及装置 Download PDFInfo
- Publication number
- CN113434775A CN113434775A CN202110802012.6A CN202110802012A CN113434775A CN 113434775 A CN113434775 A CN 113434775A CN 202110802012 A CN202110802012 A CN 202110802012A CN 113434775 A CN113434775 A CN 113434775A
- Authority
- CN
- China
- Prior art keywords
- content
- contents
- target
- result
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 95
- 238000011156 evaluation Methods 0.000 claims abstract description 67
- 238000012163 sequencing technique Methods 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 67
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种搜索内容的确定方法及装置,该方法包括:接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果;将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果;将过滤结果确定为搜索词对应的搜索内容,本公开至少解决相关技术中搜索系统搜索到的内容与搜索词不协调的问题。
Description
技术领域
本公开涉及数据搜索技术领域,尤其涉及一种搜索内容的确定方法及装置。
背景技术
随着人工智能技术的快速发展,通过计算机对多媒体内容进行理解的精准度日渐提高,基于内容的搜索系统也逐渐成为除推荐系统之外的另一个重要的用户内容平台。
与推荐系统不同的是,搜索系统会带有明确的用户意图,使得在推荐系统满足不了用户的内容需求的情况下,请求获取更多用户感兴趣的内容。
但是,通过搜索系统进行内容搜索时,搜索结果中容易出现与搜索词不协调的内容,例如,在与敏感内容相关的搜索词下搜索到敏感内容,不会存在不协调的情况,而在比较严肃的搜索词下搜索到敏感内容,则体现出搜索结果与搜索词不协调,因而,需要对搜索到的不协调的内容进行过滤。
在相关技术中,为了对搜索到的敏感内容进行过滤,将搜索内容呈现给用户前使用敏感内容识别模型识别搜索内容,并对模型识别到的敏感内容进行过滤,该方法虽然可以达到过滤敏感内容的效果,但是容易过滤掉很多并非与搜索词不协调的内容。
针对相关技术中搜索系统搜索到的内容与搜索词不协调的问题,目前尚未提出有效的解决方案。
发明内容
本公开提供一种搜索内容的确定方法及装置,以至少解决相关技术中搜索系统搜索到的内容与搜索词不协调的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种搜索内容的确定方法,包括:接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度;将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容;将过滤结果确定为搜索词对应的搜索内容。
可选地,从多个内容中筛选得到目标筛选结果包括:获取每个内容关联的预设特征,其中,特征至少包括以下之一:用户特征以及内容特征;将每个内容关联的预设特征输入排序模型进行处理,得到每个内容对应的排序分数;根据每个内容对应的排序分数对多个内容进行排序,得到第一排序结果;获取第一排序结果中位于前列的第一数目的内容,得到目标筛选结果。
可选地,确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果包括:从多个内容中筛选得到第一筛选结果,其中,第一筛选结果为用户感兴趣的内容,第一筛选结果的数量大于目标筛选结果的数量;确定第一筛选结果在目标评估指标下的指标值;根据每个内容对应的指标值对第一筛选结果进行排序,得到目标排序结果。
可选地,目标排序结果为多个内容对应的指标值从小到大的排序结果,目标分位数大于50%。
可选地,在确定多个内容在目标评估指标下的指标值之前,该方法还包括:获取多个样本内容以及多个样本内容在目标评估指标下的指标值,得到训练集数据,并基于训练集数据训练得到预设模型。
可选地,确定多个内容在目标评估指标下的指标值包括:采用预设模型对每个内容进行处理,得到多个内容在目标评估指标下的指标值。
根据本公开实施例的第二方面,提供一种搜索内容的确定装置,包括:接收单元,被配置为接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;第一确定单元,被配置为确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度;第二确定单元,被配置为将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;筛选单元,被配置为从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容;第三确定单元,被配置为将过滤结果确定为搜索词对应的搜索内容。
可选地,筛选单元包括:第一获取模块,被配置为获取每个内容关联的预设特征,其中,特征至少包括以下之一:用户特征以及内容特征;处理模块,被配置为将每个内容关联的预设特征输入排序模型进行处理,得到每个内容对应的排序分数;第一排序模块,被配置为根据每个内容对应的排序分数对多个内容进行排序,得到第一排序结果;第二获取模块,被配置为获取第一排序结果中位于前列的第一数目的内容,得到目标筛选结果。
可选地,第一确定单元包括:筛选模块,被配置为从多个内容中筛选得到第一筛选结果,其中,第一筛选结果为用户感兴趣的内容,第一筛选结果的数量大于目标筛选结果的数量;第二确定模块,被配置为确定第一筛选结果在目标评估指标下的指标值;第二排序模块,被配置为根据每个内容对应的指标值对第一筛选结果进行排序,得到目标排序结果。
可选地,目标排序结果为多个内容对应的指标值从小到大的排序结果,目标分位数大于50%。
可选地,装置还包括:获取单元,用于在确定多个内容在目标评估指标下的指标值之前,获取多个样本内容以及多个样本内容在目标评估指标下的指标值,得到训练集数据,并基于训练集数据训练得到预设模型。
可选地,确定多个内容在目标评估指标下的指标值包括:采用预设模型对每个内容进行处理,得到多个内容在目标评估指标下的指标值。
根据本公开实施例的第三方面,提供一种搜索内容的确定装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述任一项的搜索内容的确定方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由缓存装置/电子设备/服务器的处理器执行时,使得搜索内容的确定方法的电子设备能够执行上述任一项的搜索内容的确定方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任一项的搜索内容的确定方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度;将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容;将过滤结果确定为搜索词对应的搜索内容,可以达到基于召回内容确定用于过滤待舍弃类别的内容的阈值,并通过阈值对召回内容中的目标筛选结果进行过滤的目的,实现了对搜索词下出现的待舍弃类别的内容进行合理过滤的技术效果,解决了相关技术中搜索系统搜索到的内容与搜索词不协调的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种搜索内容的确定方法的应用场景示意图。
图2是根据一示例性实施例示出的一种搜索内容的确定方法的流程图。
图3是根据一示例性实施例示出的一种搜索内容的确定装置的框图。
图4是根据一示例性实施例示出的一种终端的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例一所提供的方法实施例可以在移动终端或者计算机终端中执行。图1是根据一示例性实施例示出的一种搜索内容的确定方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的搜索内容的确定方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的缓存。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机终端10可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机终端10中的部件的类型。
图2是根据一示例性实施例示出的一种搜索内容的确定方法的流程图,如图2所示,搜索内容的确定方法用于服务器中,包括以下步骤。
根据本公开实施例的第一方面,提供一种搜索内容的确定方法,包括:
在步骤S201中,接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容。
具体地,数据库可以为用户内容创作平台的数据库,用户可以在平台上创作内容,并保存在数据库中,从而得到数据库中的内容,用户还可以将创作内容上传至平台,并保存在数据库中,从而得到数据库中的内容。
本实施例不限定内容的类型,例如,对于视频创作平台,数据库中的内容可以为视频内容,对于音频创作平台,数据库中的内容可以为音频内容,对于图像创作平台,数据库中的内容为图像内容。
进一步的,将用户创作的内容保存到数据库后,用户可以在用户内容创作平台的搜索输入框中输入搜索词,从而基于搜索词对数据库中内容进行召回,具体地,用户可以输入一个搜索词,也可以输入多个搜索词。
需要说明的是,基于搜索词对数据库中的内容进行召回,可以为单路召回,也可以为多路召回,多路召回即为从不同维度进行内容的召回。
在一种实施方式中,可以为两路召回,一路基于用户画像数据进行内容的召回,另一路基于内容与搜索词的相关性大小进行召回,从而将两路召回的内容进行融合,得到多个内容。
在步骤S202中,确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度。
需要说明的是,在召回内容中包含与搜索词不协调的内容的情况下,需要在将内容推送给用户之前,对与搜索词不协调的内容进行过滤,避免产生推送内容与搜索词不协调的情况下。
具体地,与搜索词不协调的内容可以为待舍弃类别的内容,计算召回内容与待舍弃类别的内容之间的相似度,得到内容在目标评估指标下的指标值,并根据对应的指标值对多个内容进行排序,得到目标排序结果。其中,若指标值大,说明内容与待舍弃类别的内容之间的相似度高,若指标值小,说明内容与待舍弃类别的内容之间的相似度低,目标排序结果表征内容与待舍弃类别的内容之间的相似度排序结果。
在一种实施方式中,搜索词为严肃的搜索词,待舍弃类别的内容为敏感内容,目标评估指标可以为敏感内容评估指标,确定召回内容中的每个内容在敏感内容评估指标下的指标值,得到多个指标值,并根据指标值对召回内容进行排序,得到内容与敏感内容之间的相似度排序结果。
在步骤S203中,将目标排序结果中的目标分位数的内容对应的指标值确定为阈值。
可选地,在本公开的实施方式中,目标排序结果为多个内容对应的指标值从小到大的排序结果,目标分位数大于50%。
在一种实施方式中,目标排序结果为多个内容对应的指标值从小到大的排序结果,可以将排序结果中较高分位数对应的指标值确定为阈值,例如,可以将排序结果中80分位数对应的指标值确定为阈值,可以将排序结果中90分位数对应的指标值确定为阈值。
在另一种实施方式中,目标排序结果为多个内容对应的指标值从大到小的排序结果,可以将排序结果中较低分位数对应的指标值确定为阈值,例如,可以将排序结果中10分位数对应的指标值确定为阈值,可以将排序结果中20分位数对应的指标值确定为阈值。
例如,在一种实施方式中,搜索内容可以为视频,目标评估指标可以为敏感内容评估指标,在召回阶段召回M个视频之后,对M个视频经过粗排和精排,得到N个待推送给用户的视频。可以确定M个视频中的每个视频在敏感内容评估指标下对应的指标值,并根据指标值从大到小的顺序对M个视频进行排序,取序列的90分位数对应的指标值,作为阈值,以对精排阶段得到的视频中包含敏感内容的视频的过滤。
通过本实施例,由于召回内容比较多,对召回内容筛选后待推送给用户的内容较少,可以根据召回阶段的目标排序结果确定阈值,从而根据阈值对待推送给用户的内容中的离群点对应的内容进行过滤,实现对待舍弃类别内容的准确过滤。
在步骤S204中,从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容。
需要说明的是,由于召回阶段是快速召回大量的内容,在将内容推送给用户之前,还需要对内容进行排序以及筛选,得到用户感兴趣的目标筛选结果,而在得到目标筛选结果后,还需要对其中的待舍弃类别的内容进行过滤,并将过滤结果推送给用户。
具体地,由于内容对应的指标值大,则内容与待舍弃类别的内容之间的相似度高,内容对应的指标值小,则内容与待舍弃类别的内容之间的相似度低,可以根据表征相似度的阈值将指标值大于阈值的内容进行过滤,保留指标值小于等于阈值的内容,实现对待舍弃类别的内容的过滤。
在一种实施方式中,待舍弃类别的内容可以为敏感内容,目标评估指标可以为敏感内容评估指标,可以根据召回内容在敏感内容评估指标下的指标值设定阈值,将指标值大于阈值的内容进行过滤,保留指标值小于等于阈值的内容,实现对目标筛选结果中离群点对应的敏感内容的过滤。
此外,还需要说明的是,一个类别的内容是否为待舍弃类别的内容,可以根据该类别的内容与搜索词的相关性确定,在搜索词与目标类型内容不相关的情况下,可以将目标类型内容确定为待舍弃类别的内容,可以通过阈值过滤掉与搜索词不协调的目标类型的内容,在搜索词与目标类型内容相关的情况下,也可以实现目标类型内容的展示,避免了对目标类型的内容的误过滤。
在步骤S205中,将过滤结果确定为搜索词对应的搜索内容。
具体地,可以在搜索系统的搜索框下方显示搜索词对应的搜索内容,用户可以点击并查看搜索词对应的搜索内容。
例如,可以将与搜索词相关性高的内容显示在靠近搜索框的位置,将与搜索词相关性低的内容显示在远离搜索框的位置,从而方便用户查看与搜索词相关性高的内容。
再例如,可以将用户兴趣度高的内容显示在靠近搜索框的位置,将用户兴趣度低的内容显示在远离搜索框的位置,从而方便用户查看更感兴趣的内容。
本公开通过接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度;将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容;将过滤结果确定为搜索词对应的搜索内容,可以达到基于召回内容确定用于过滤待舍弃类别的内容的阈值,并通过阈值对召回内容中的目标筛选结果进行过滤的目的,实现了对搜索词下出现的待舍弃类别的内容进行合理过滤的技术效果,解决了相关技术中搜索系统搜索到的内容与搜索词不协调的问题。
用户感兴趣的内容至少可以从用户特征和内容特征两个维度来确定,可选地,在本公开的实施方式中,从多个内容中筛选得到目标筛选结果包括:获取每个内容关联的预设特征,其中,特征至少包括以下之一:用户特征以及内容特征;将每个内容关联的预设特征输入排序模型进行处理,得到每个内容对应的排序分数;根据每个内容对应的排序分数对多个内容进行排序,得到第一排序结果;获取第一排序结果中位于前列的第一数目的内容,得到目标筛选结果。
需要说明的是,排序模型的选择根据内容关联的预设特征的数量确定,在样本量大且特征量多的情况下,排序模型可以为逻辑回归模型,在样本量大而特征量少的情况下,排序模型可以为树模型,此外,为了提高对非线性特征的处理效果,排序模型还可以为支持向量机模型。
需要说明的是,为了快速准确地确定出待推送给用户的目标筛选结果,可以对召回的多个内容进行多次排序和筛选,在多次排序和筛选中确定阈值,为了提高阈值的确定效率,可选地,在本公开的实施方式中,确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果包括:从多个内容中筛选得到第一筛选结果,其中,第一筛选结果为用户感兴趣的内容,第一筛选结果的数量大于目标筛选结果的数量;确定第一筛选结果在目标评估指标下的指标值;根据每个内容对应的指标值对第一筛选结果进行排序,得到目标排序结果。
具体地,召回内容数据量较大,若直接基于召回内容计算指标值并确定阈值,则计算量大,计算速度低,本实施例可以将召回阶段得到的数据量较大的内容中筛选得到数据量适中的第一筛选结果,并对第一筛选结果进行排序,得到目标排序结果。
在一种实施方式中,搜索内容可以为视频,在召回阶段召回M视频之后,在排序阶段对召回的视频进行筛选,例如,排序阶段可以包括粗排和精排两次排序和筛选。
具体地,在粗排阶段对M个视频进行打分,并根据打分结果进行排序,取排序结果中的前N个视频,作为第一筛选结果,并根据第一筛选结果的指标值进行排序,得到目标排序结果。进一步的,在精排阶段对N个视频进行打分,并根据打分结果进行排序,取排序结果中的前Z个视频,作为目标筛选结果,也即,待推送给用户的视频。
通过本实施例,对召回阶段得到的数据量较大的内容中进行多次排序与筛选,采用第一筛选结果在目标评估指标下的指标值确定目标排序结果,从而根据目标排序结果确定阈值,提高了确定目标评估指标下的指标值对应的阈值的准确度和效率,从而提高了过滤目标筛选结果中离群内容的准确度。
为了提高目标评估指标下的指标值的计算准确度以及计算效率,可选地,在本公开的实施方式中,在确定多个内容在目标评估指标下的指标值之前,该方法还包括:获取多个样本内容以及多个样本内容在目标评估指标下的指标值,得到训练集数据,并基于训练集数据训练得到预设模型。
具体地,可以获取多个样本内容,在目标评估指标下对每个样本内容进行打分,得到指标值,并将每个样本内容和对应的指标值进行关联,形成一组训练数据,从而得到多组训练数据,并由多组训练数据构成训练集数据。
进一步的,采用训练集数据进行打分模型的训练,得到预设模型,预设模型用于确定内容在目标评估指标下的指标值。
可选地,在本公开的实施方式中,确定多个内容在目标评估指标下的指标值包括:采用预设模型对每个内容进行处理,得到多个内容在目标评估指标下的指标值。
具体地,将待评估内容输入预设模型,预设模型输出待评估内容在目标评估指标下的指标值。
在一种实施方式中,搜索内容可以为视频内容,目标评估指标可以为敏感内容评估指标,在训练预设模型时,可以获取多个样本视频,根据敏感内容评估指标对每个样本视频进行打分,得到指标值,由多个样本视频及其对应的指标值构成训练集数据,并采用训练集数据进行模型的训练,得到预设模型,将待测视频输入预设模型,得到待测视频在敏感内容评估指标下的指标值。
通过本公开实施例,根据预训练的打分模型对内容进行处理,得到内容对应的指标值,从而提高了确定内容在目标评估指标下的指标值的准确度和效率。
图3是根据一示例性实施例示出的一种搜索内容的确定装置框图。参照图3,该装置包括:
接收单元301,被配置为接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容。
第一确定单元302,被配置为确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度。
第二确定单元303,被配置为将目标排序结果中的目标分位数的内容对应的指标值确定为阈值。
筛选单元304,被配置为从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容。
第三确定单元305,被配置为将过滤结果确定为搜索词对应的搜索内容。
本公开通过接收单元301,被配置为接收搜索词,并基于搜索词对数据库中的内容进行召回,得到多个内容;第一确定单元302确定多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对多个内容进行排序,得到目标排序结果,其中,目标评估指标用于评估内容与待舍弃类别的内容之间的相似度;第二确定单元303将目标排序结果中的目标分位数的内容对应的指标值确定为阈值;筛选单元304从多个内容中筛选得到目标筛选结果,并获取目标筛选结果中对应的指标值小于阈值的内容,得到过滤结果,其中,目标筛选结果为用户感兴趣的内容;第三确定单元305将过滤结果确定为搜索词对应的搜索内容,可以达到基于召回内容确定用于过滤待舍弃类别的内容的阈值,并通过阈值对召回内容中的目标筛选结果进行过滤的目的,实现了对搜索词下出现的待舍弃类别的内容进行合理过滤的技术效果,解决了相关技术中搜索系统搜索到的内容与搜索词不协调的问题。
可选地,在本公开的实施方式中,筛选单元304包括:第一获取模块,被配置为获取每个内容关联的预设特征,其中,特征至少包括以下之一:用户特征以及内容特征;处理模块,被配置为将每个内容关联的预设特征输入排序模型进行处理,得到每个内容对应的排序分数;第一排序模块,被配置为根据每个内容对应的排序分数对多个内容进行排序,得到第一排序结果;第二获取模块,被配置为获取第一排序结果中位于前列的第一数目的内容,得到目标筛选结果。
可选地,在本公开的实施方式中,第一确定单元302包括:筛选模块,被配置为从多个内容中筛选得到第一筛选结果,其中,第一筛选结果为用户感兴趣的内容,第一筛选结果的数量大于目标筛选结果的数量;第二确定模块,被配置为确定第一筛选结果在目标评估指标下的指标值;第二排序模块,被配置为根据每个内容对应的指标值对第一筛选结果进行排序,得到目标排序结果。
可选地,在本公开的实施方式中,目标排序结果为多个内容对应的指标值从小到大的排序结果,目标分位数大于50%。
可选地,在本公开的实施方式中,装置还包括:获取单元,用于在确定多个内容在目标评估指标下的指标值之前,获取多个样本内容以及多个样本内容在目标评估指标下的指标值,得到训练集数据,并基于训练集数据训练得到预设模型。
可选地,在本公开的实施方式中,第一确定单元302还用于采用预设模型对每个内容进行处理,得到多个内容在目标评估指标下的指标值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述任一项的搜索内容的确定方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当存储介质中的指令由信息处理方法的电子设备的处理器执行时,使得信息处理方法的电子设备能够执行上述任一项的搜索内容的确定方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化上述任一项所述的搜索内容的确定方法的程序。该计算机产品可以是一种终端,该终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本公开实施例中,上述终端也可以为移动终端等终端设备。
可选地,在本公开实施例中,上述终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图4是根据一示例性实施例示出的一种终端的结构框图。如图4所示,该终端可以包括:一个或多个(图中仅示出一个)处理器41、用于存储处理器可执行指令的存储器43;其中,处理器被配置为执行指令,以实现上述任一项的搜索内容的确定方法。
其中,存储器可用于存储软件程序以及模块,如本公开实施例中的搜索内容的确定方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的搜索内容的确定方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域普通技术人员可以理解,图4所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如,终端5还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示不同的配置。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种搜索内容的确定方法,其特征在于,包括:
接收搜索词,并基于所述搜索词对数据库中的内容进行召回,得到多个内容;
确定所述多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对所述多个内容进行排序,得到目标排序结果,其中,所述目标评估指标用于评估所述内容与待舍弃类别的内容之间的相似度;
将所述目标排序结果中的目标分位数的内容对应的指标值确定为阈值;
从所述多个内容中筛选得到目标筛选结果,并获取所述目标筛选结果中对应的指标值小于所述阈值的内容,得到过滤结果,其中,所述目标筛选结果为用户感兴趣的内容;
将所述过滤结果确定为所述搜索词对应的搜索内容。
2.根据权利要求1所述的搜索内容的确定方法,其特征在于,所述从所述多个内容中筛选得到目标筛选结果包括:
获取每个所述内容关联的预设特征,其中,所述特征至少包括以下之一:用户特征以及内容特征;
将每个所述内容关联的所述预设特征输入排序模型进行处理,得到每个所述内容对应的排序分数;
根据每个内容对应的所述排序分数对所述多个内容进行排序,得到第一排序结果;
获取所述第一排序结果中位于前列的第一数目的内容,得到所述目标筛选结果。
3.根据权利要求1所述的搜索内容的确定方法,其特征在于,所述确定所述多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对所述多个内容进行排序,得到目标排序结果包括:
从所述多个内容中筛选得到第一筛选结果,其中,所述第一筛选结果为用户感兴趣的内容,所述第一筛选结果的数量大于所述目标筛选结果的数量;
确定所述第一筛选结果在所述目标评估指标下的指标值;
根据每个内容对应的指标值对所述第一筛选结果进行排序,得到所述目标排序结果。
4.根据权利要求1所述的搜索内容的确定方法,其特征在于,所述目标排序结果为所述多个内容对应的指标值从小到大的排序结果,所述目标分位数大于50%。
5.根据权利要求1所述的搜索内容的确定方法,其特征在于,在所述确定所述多个内容在目标评估指标下的指标值之前,所述方法还包括:
获取多个样本内容以及所述多个样本内容在所述目标评估指标下的指标值,得到训练集数据,并基于所述训练集数据训练得到预设模型。
6.根据权利要求5所述的搜索内容的确定方法,其特征在于,所述确定所述多个内容在目标评估指标下的指标值包括:采用所述预设模型对每个内容进行处理,得到所述多个内容在所述目标评估指标下的指标值。
7.一种搜索内容的确定装置,其特征在于,包括:
接收单元,被配置为接收搜索词,并基于所述搜索词对数据库中的内容进行召回,得到多个内容;
第一确定单元,被配置为确定所述多个内容在目标评估指标下的指标值,并根据每个内容对应的指标值对所述多个内容进行排序,得到目标排序结果,其中,所述目标评估指标用于评估所述内容与待舍弃类别的内容之间的相似度;
第二确定单元,被配置为将所述目标排序结果中的目标分位数的内容对应的指标值确定为阈值;
筛选单元,被配置为从所述多个内容中筛选得到目标筛选结果,并获取所述目标筛选结果中对应的指标值小于所述阈值的内容,得到过滤结果,其中,所述目标筛选结果为用户感兴趣的内容;
第三确定单元,被配置为将所述过滤结果确定为所述搜索词对应的搜索内容。
8.根据权利要求7所述的搜索内容的确定装置,其特征在于,所述筛选单元包括:
第一获取模块,被配置为获取每个所述内容关联的预设特征,其中,所述特征至少包括以下之一:用户特征以及内容特征;
处理模块,被配置为将每个所述内容关联的所述预设特征输入排序模型进行处理,得到每个所述内容对应的排序分数;
第一排序模块,被配置为根据每个内容对应的所述排序分数对所述多个内容进行排序,得到第一排序结果;
第二获取模块,被配置为获取所述第一排序结果中位于前列的第一数目的内容,得到所述目标筛选结果。
9.一种搜索内容的确定装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的搜索内容的确定方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由搜索内容的确定装置的处理器执行时,使得搜索内容的确定装置能够执行如权利要求1至6中任一项所述的搜索内容的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110802012.6A CN113434775B (zh) | 2021-07-15 | 2021-07-15 | 搜索内容的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110802012.6A CN113434775B (zh) | 2021-07-15 | 2021-07-15 | 搜索内容的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434775A true CN113434775A (zh) | 2021-09-24 |
CN113434775B CN113434775B (zh) | 2024-03-26 |
Family
ID=77760620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110802012.6A Active CN113434775B (zh) | 2021-07-15 | 2021-07-15 | 搜索内容的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434775B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372194A (zh) * | 2021-12-08 | 2022-04-19 | 北京声智科技有限公司 | 一种资源搜索方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636409A (zh) * | 2013-11-12 | 2015-05-20 | 国际商业机器公司 | 对受保护上下文数据的用户特定搜索 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN110134773A (zh) * | 2019-04-24 | 2019-08-16 | 珠海市珠澳跨境工业区好易通科技有限公司 | 一种搜索推荐方法及系统 |
CN111343142A (zh) * | 2020-01-22 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 一种基于区块链网络的数据处理方法、装置及存储介质 |
CN112231440A (zh) * | 2020-10-09 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种基于人工智能的语音搜索方法 |
CN112287268A (zh) * | 2019-07-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 网络资源搜索的处理方法及装置 |
CN112364637A (zh) * | 2020-11-30 | 2021-02-12 | 北京天融信网络安全技术有限公司 | 一种敏感词检测方法、装置,电子设备及存储介质 |
CN112784141A (zh) * | 2019-10-23 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 搜索结果质量确定方法、装置、存储介质和计算机设备 |
-
2021
- 2021-07-15 CN CN202110802012.6A patent/CN113434775B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636409A (zh) * | 2013-11-12 | 2015-05-20 | 国际商业机器公司 | 对受保护上下文数据的用户特定搜索 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN110134773A (zh) * | 2019-04-24 | 2019-08-16 | 珠海市珠澳跨境工业区好易通科技有限公司 | 一种搜索推荐方法及系统 |
CN112287268A (zh) * | 2019-07-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 网络资源搜索的处理方法及装置 |
CN112784141A (zh) * | 2019-10-23 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 搜索结果质量确定方法、装置、存储介质和计算机设备 |
CN111343142A (zh) * | 2020-01-22 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 一种基于区块链网络的数据处理方法、装置及存储介质 |
CN112231440A (zh) * | 2020-10-09 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种基于人工智能的语音搜索方法 |
CN112364637A (zh) * | 2020-11-30 | 2021-02-12 | 北京天融信网络安全技术有限公司 | 一种敏感词检测方法、装置,电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372194A (zh) * | 2021-12-08 | 2022-04-19 | 北京声智科技有限公司 | 一种资源搜索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113434775B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN110019896B (zh) | 一种图像检索方法、装置及电子设备 | |
CN110390033B (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 | |
CN106326391B (zh) | 多媒体资源推荐方法及装置 | |
CN107404656A (zh) | 直播视频推荐方法、装置及服务器 | |
WO2018157625A1 (zh) | 基于强化学习的排序学习方法及服务器 | |
CN107526846B (zh) | 频道排序模型的生成、排序方法、装置、服务器和介质 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN105893390B (zh) | 一种应用程序的处理方法及电子设备 | |
CN111191133B (zh) | 业务搜索处理方法、装置及设备 | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN104636407B (zh) | 参数取值训练及搜索请求处理方法和装置 | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
CN112199582A (zh) | 一种内容推荐方法、装置、设备及介质 | |
CN113434775B (zh) | 搜索内容的确定方法及装置 | |
CN105446845B (zh) | 一种智能终端rom流畅度评测方法及系统 | |
CN111126457A (zh) | 信息的获取方法和装置、存储介质和电子装置 | |
CN105786858A (zh) | 信息搜索系统及方法 | |
CN112820404A (zh) | 应用于大数据智慧医疗的信息处理方法及智慧医疗服务器 | |
CN110188277B (zh) | 一种资源的推荐方法及装置 | |
CN110895555B (zh) | 数据检索方法和装置、存储介质及电子装置 | |
CN110971973A (zh) | 一种视频推送方法、装置及电子设备 | |
CN113392266B (zh) | 排序模型的训练、排序方法、装置、电子设备及存储介质 | |
CN115098777A (zh) | 一种基于数据分析的用户个性化推荐方法和系统 | |
CN111597444B (zh) | 一种搜索方法、装置、服务器、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |