CN111881349B - 一种内容搜索的方法及装置 - Google Patents
一种内容搜索的方法及装置 Download PDFInfo
- Publication number
- CN111881349B CN111881349B CN202010699772.4A CN202010699772A CN111881349B CN 111881349 B CN111881349 B CN 111881349B CN 202010699772 A CN202010699772 A CN 202010699772A CN 111881349 B CN111881349 B CN 111881349B
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- account
- resource
- content search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域,公开了一种内容搜索的方法及装置,用以提高搜索准确度。该方法包括:根据接收到的账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息;再对每组资源关联信息分别进行特征拼接,得到多个交叉特征信息;基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定账号与各个候选资源信息的预测相关度;基于各个预测相关度对各个候选资源信息进行排序。综合考虑搜索信息、账号信息与候选资源信息,有利于提高预测准确率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种内容搜索的方法及装置。
背景技术
随着科学技术的飞速发展,深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络(CNN)作为深度学习的一个重要分支,由于其超强的拟合能力以及端到端的全局优化能力,使得搜索领域在应用了卷积神经网络之后,模型精度大幅提升。
虽然模型精度大幅度提升,但模型在确定目标推荐内容集合时,仅考虑了用户的搜索请求这一单一元素,导致模型输出的目标推荐内容集合中可能存在不符合用户审美偏好的内容,降低了搜索准确度。
有鉴于此,需要设计一种新的内容搜索的方法,以克服上述缺陷。
发明内容
本申请实施例提供一种内容搜索的方法及装置,用以解决搜索准确度低的问题。
本申请实施例提供的具体技术方案如下:
第一方面,本发明实施例提供了一种内容搜索的方法,包括:
根据接收到的账号的搜索信息,获取所述账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用所述搜索信息、所述账号的账号信息和所述账号对应的一个候选资源信息进行特征提取得到的资源关联信息;
对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,所述交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;
基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定所述账号与各个候选资源信息间的预测相关度,其中,所述第一关联度特征表征同一资源关联信息中各个元素之间的关联度,所述第二关联度特征表征各个资源关联信息的元素之间的关联度,所述预测相关度表征所述账号对所述一个候选资源信息执行交互操作的概率;
基于各个预测相关度,对所述各个候选资源信息进行排序。
可选的,基于一个交叉特征信息,确定对应的第一关联度特征和第二关联度特征,包括:
采用第一卷积核对所述一个交叉特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核对所述一个交叉特征信息进行特征提取,得到所述第二关联度特征。
可选的,对所述各个资源关联信息进行特征拼接得到交叉特征信息之后,进一步包括:
对所述交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括所述同一资源关联信息的各个元素,以及所述各个资源关联信息的元素。
可选的,进一步包括:
采用第一卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第二关联度特征。
可选的,基于各个预测相关度,对所述各个候选资源信息进行排序之后,进一步包括:
将排序后的各个候选资源信息推送给客户端,以使所述客户端展示所述排序后的各个候选资源信息。
第二方面,本发明实施例还提供了一种内容搜索的装置,包括:
获取单元,用于根据接收到的账号的搜索信息,获取所述账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用所述搜索信息、所述账号的账号信息和所述账号对应的一个候选资源信息进行特征提取得到的资源关联信息;
拼接单元,用于对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,所述交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;
预测单元,用于基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定所述账号与各个候选资源信息间的预测相关度,其中,所述第一关联度特征表征同一资源关联信息中各个元素之间的关联度,所述第二关联度特征表征各个资源关联信息的元素之间的关联度,所述预测相关度表征所述账号对所述一个候选资源信息执行交互操作的概率;
排序单元,用于基于各个预测相关度,对所述各个候选资源信息进行排序。
可选的,基于一个交叉特征信息,确定对应的第一关联度特征和第二关联度特征,所述预测单元用于:
采用第一卷积核对所述一个交叉特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核对所述一个交叉特征信息进行特征提取,得到所述第二关联度特征。
可选的,对所述各个资源关联信息进行特征拼接得到交叉特征信息之后,所述拼接单元进一步用于:
对所述交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括所述同一资源关联信息的各个元素,以及所述各个资源关联信息的元素。
可选的,所述预测单元进一步用于:
采用第一卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第二关联度特征。
可选的,基于各个预测相关度,对所述各个候选资源信息进行排序之后,所述排序单元进一步用于:
将排序后的各个候选资源信息推送给客户端,以使所述客户端展示所述排序后的各个候选资源信息。
第三方面,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一项内容搜索的方法。
第四方面,本发明实施例还提供了一种存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述任一项内容搜索的方法。
本申请有益效果如下:
本申请实施例中,根据接收到的账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息;再对每组资源关联信息分别进行特征拼接,得到多个交叉特征信息,其中,交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定账号与各个候选资源信息间的预测相关度,其中,第一关联度特征表征同一资源关联信息中各个元素之间的关联度,第二关联度特征表征各个资源关联信息的元素之间的关联度,预测相关度表征账号对一个候选资源信息执行交互操作的概率;基于各个预测相关度,对各个候选资源信息进行排序。综合考虑搜索信息、账号信息与候选资源信息之间的关系,有利于提高预测准确率。
附图说明
图1为本申请实施例提供的内容搜索的流程示意图;
图2为本申请实施例提供的内容搜索模型的结构示意图;
图3为本申请实施例提供的训练内容搜索模型的流程示意图;
图4为本申请实施例提供的一种内容搜索的装置结构示意图;
图5为本申请实施例提供的计算设备的结构示意图。
具体实施方式
为了提高搜索准确度,本申请实施例中,提出了一种新的内容搜索方案。该方案包括:根据接收到的账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息;再对每组资源关联信息分别进行特征拼接,得到多个交叉特征信息,其中,交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定账号与各个候选资源信息间的预测相关度,其中,第一关联度特征表征同一资源关联信息中各个元素之间的关联度,第二关联度特征表征各个资源关联信息的元素之间的关联度,预测相关度表征账号对一个候选资源信息执行交互操作的概率;基于各个预测相关度,对各个候选资源信息进行排序。
下面结合附图对本发明优选的实施方式作出详细说明。
参阅图1所示,本发明实施例提供了内容搜索的流程示意图。
S101:根据接收到账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息。
可选的,可采用以下两种方式对搜索信息进行特征提取,得到资源关联信息:
方式一:对搜索信息进行降维映射,得到对应的词向量,并将词向量作为资源关联信息。
将高维的离散数据降维映射为低维的词向量,不仅可以从离散数据中提取出有效特征,还可以舍弃无用特征,减少后续计算量,有利于提高预测点击率的准确率。例如,对搜索信息“猫”进行降维映射,得到的词向量是一维矩阵[1,2,3,4,5]。
方式二:分别对搜索信息,以及搜索信息对应的标识信息进行映射,得到词向量和第一标识向量;
再对词向量和第一标识向量进行特征融合,得到资源关联信息。
通过特征融合的方式,同时考虑搜索信息与对应的标识信息,有利于提高预测点击率的准确率。例如,对搜索信息“猫”进行降维映射,得到的词向量是一维矩阵[1,2,3,4,5],搜索信息“猫”对应的标识信息是20201952X02,经过降维映射,得到的第一标识向量是一维矩阵[5,4,3,2,1];分别将两个一维矩阵中处于同行同列的两个元素相乘,得到资源关联信息是一维矩阵[5,8,9,8,5]。
可选的,可采用以下两种方式对一个候选资源信息x进行特征提取,得到资源关联信息:
方式一:对候选资源信息x进行特征提取,得到对应的内容向量,将内容向量作为资源关联信息。
本发明实施例中的候选资源信息x可为视频或者单张图像,通过对视频的首帧图像或者单张图像进行特征提取,得到对应的内容向量。例如,对一张包含猫咪的图像进行特征提取,得到对应的内容向量是一维矩阵[5,4,2,8,1]。
方式二:对候选资源信息x进行特征提取,得到内容向量,以及对候选资源信息x对应的标识信息进行映射,得到第二标识向量;
再对内容向量和第二标识向量进行特征融合,得到资源关联信息。
通过特征融合的方式,同时考虑候选资源信息x与对应的标识信息,有利于提高预测点击率的准确率。例如,对一张包含猫咪的图像进行特征提取,得到对应的内容向量是一维矩阵[5,4,2,8,1],所述图像对应的标识是2020100852X,经过降维映射,得到的第二标识向量是一维矩阵[1,2,2,1,8];分别将两个一维矩阵中的处于同行同列的两个元素相乘,得到资源关联信息是一维矩阵[5,8,4,8,8]。
可选的,本发明实施例的账号信息可以是账户标识信息,采用降维映射的方式对账号信息执行特征提取操作,得到对应的第三标识向量,将第三标识向量作为资源关联信息。
S102:对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素。
一组资源关联信息中包含三个资源关联信息,采用特征拼接的方式,将三个资源关联信息转换为交叉特征信息,至少综合考虑搜索信息、账号信息以及候选资源信息x这三个信息源,有利于提高预测点击率的准确率。
例如,第一组资源关联信息中包括词向量[1,2,3,4,5],内容向量[5,4,2,8,1],以及第三标识向量[5,2,3,8,4],那么特征拼接后得到的交叉特征信息是三维矩阵其中,交叉特征信息的第一行表征词向量内的各个元素,第一列表征词向量、内容向量和第三标识向量内的元素。
进一步地,在对各个资源关联信息进行特征拼接得到交叉特征信息之后,还包括:
对交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素。对交叉特征信息执行转置操作,可以提高信息的多样性,增加映射关系复杂度,有利于探索出搜索信息、账号信息与候选资源信息之间的相关性。
S103:基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定对应的候选资源信息的预测点击率,其中,第一关联度特征表征同一资源关联信息中各个元素之间的关联度,第二关联度特征表征各个资源关联信息的元素之间的关联度,预测相关度表征账号对一个候选资源信息执行交互操作的概率。
可选的,基于一个交叉特征信息,确定对应的第一关联度特征和第二关联度特征的过程如下:
采用第一卷积核对该交叉特征信息进行特征提取,得到第一关联度特征;
采用第二卷积核对该交叉特征信息进行特征提取,得到第二关联度特征。
具体地,采用第一卷积核[S1,N]对该交叉特征信息提取,得到第一关联度特征,该特征表征同一资源关联信息中各个元素之间的关联度;采用第二卷积核[N,S2]对该交叉特征提取,得到第二关联度特征,该特征表征各个资源关联信息中的元素之间的关联度。其中,N表示交叉特征信息中的信息源总数,S1和S2是根据实际情况设置的参数。采用不同的卷积核,分别确定同一资源关联信息中各个元素之间的关联度,以及不同资源关联信息中元素之间的关联度,探索出在各种排列组合下的元素间的关联度,而这些关联度对后续确定账号与各个候选资源信息间的预测相关度起到了重要作用。
可选的,基于一个交叉特征信息和对应的转置特征信息,确定对应的第一关联度特征和第二关联度特征的过程如下:
采用第一卷积核分别对交叉特征信息和转置特征信息进行特征提取,得到第一关联度特征;
采用第二卷积核分别对交叉特征信息和转置特征信息进行特征提取,得到第二关联度特征。
具体地,采用第一卷积核[S1,N]分别对该交叉特征信息和对应的转置特征信息提取,得到对应的第一关联度特征;采用第二卷积核[N,S2]对该交叉特征提取,得到对应的第二关联度特征。
优选地,还可以将交叉特征信息的第一关联度特征,与转置特征信息的第一关联度特征拼接在一起,形成一个新的第一关联度特征;同样地,将交叉特征信息的第二关联度特征,与转置特征信息的第二关联度特征拼接在一起,形成一个新的第二关联度特征。相比于仅确定交叉特征信息的第一关联度特征和第二关联度特征来说,本发明实施例提出的优选方式可以得到同时包含交叉特征信息和转置特征信息的第一关联度特征、第二关联度特征,增加了数据的多样性,更加有利于提高预测点击率的准确率。
例如,交叉特征信息的第一关联度特征为[5,8,4,8,8],与转置特征信息的第一关联度特征[1,8,4,3,2]拼接在一起,形成一个新的第一关联度特征[5,4,2,2,8,1,8,4,3,2]。
S104:基于各个预测相关度,对各个候选资源信息进行排序。
进一步地,在对各个候选资源信息进行排序之后,将排序后的各个候选资源信息推送给客户端,以使客户端展示排序后的各个候选资源信息。采用上述方式筛选排序得到账户可能感兴趣的多个候选资源信息,不仅提高了预测准确率,还可以提高账户浏览、点击候选资源信息的概率,进而增加用户黏性,有利于产品的传播与推广。
为了便于理解,下面以一具体实施例介绍上述内容搜索的过程。
A1:根据接收到账号的搜索信息,获取账号的账号信息以及账号对应的各个候选资源信息。
A2:将搜索信息、账号信息和各个候选资源信息划分为多组待处理数据,其中,一组待处理数据包括搜索信息、账号信息和一个候选资源信息x。
A3:将各组待处理数据输入到训练完毕的内容搜索模型中,确定各组待处理数据中账号与候选资源信息x间的预测相关度。
具体地,内容搜索模型是基于多个样本账号对应的历史日志集合训练得到的,内容搜索模型的结构示意图如图2所示,至少包括Word2Vector模型、Embedding1模型、卷积神经网络1、卷积神经网络2和深度神经网络。其中,Word2Vector模型用于对输入的搜索信息进行降维映射,得到对应的词向量;Embedding1模型用于对输入的账号信息进行降维映射,得到对应的第三标识向量;卷积神经网络1用于对输入的候选资源信息x进行特征提取,得到对应的内容向量;卷积神经网络2用于对一个交叉特征信息进行特征提取,得到对应的第一关联度特征和第二关联度特征;深度神经网络是基于第一关联度特征和第二关联度特征,确定账号与候选资源信息x间的预测相关度。
若输入的数据中还包括搜索信息对应的标识信息,和候选资源信息x对应的标识信息的话,还可以使用Embedding2模型对搜索信息对应的标识信息进行降维映射,得到对应的第一标识向量,以及使用Embedding3模型对候选资源信息x对应的标识信息进行降维映射,得到对应的第二标识向量。
A4:基于各个预测相关度,对各个候选资源信息进行排序。
参阅图3所示,本发明实施例的内容搜索模型的训练过程如下:
S301:对获取的多个样本账号对应的历史日志集合进行预处理,得到多个组训练样本。
具体地,基于一个样本账号的搜索信息,会得到多个与搜索信息相关的样本资源信息,而每个样本资源信息都会生成一条历史日志,因此,每处理一条历史日志,就可以得到对应的一个训练样本,其中,一个训练样本包括一个样本账号的账号信息,一个样本账号的搜索信息,与搜索信息对应的一个样本资源信息y,以及样本账号与样本资源信息y间的真实相关度。另外,若样本资源信息y被该样本账号点击过,其真实相关度被标记为1;若样本资源信息y未被该样本账号点击过,其真实相关度被标记为0。
S302:读取一个训练样本。
S303:基于一个训练样本的账号信息、搜索信息和样本资源信息y,生成对应的一组资源关联信息。
具体地,使用Word2Vector模型对输入的搜索信息进行降维映射,得到对应的词向量;使用Embedding1模型对输入的账号信息进行降维映射,得到对应的第三标识向量;使用卷积神经网络1对输入的候选资源信息x进行特征提取,得到对应的内容向量。
S304:对一组资源关联信息进行特征拼接,得到一个交叉特征信息。
S305:基于该交叉特征信息,确定对应的第一关联度特征和第二关联度特征。
具体地,使用卷积神经网络2对一个交叉特征信息进行特征提取,得到对应的第一关联度特征和第二关联度特征。
S306:基于第一关联度特征和第二关联度特征,确定样本账号与样本资源信息y间的预测相关度。
具体地,使用深度神经网络基于第一关联度特征和第二关联度特征,确定样本账号与样本资源信息y的预测相关度。
S307:基于样本账号与样本资源信息y的预测相关度与其真实相关度之间的误差,调整内容搜索模型的权重参数。
具体地,需要调整内容搜索模型中所有模型的权重参数。
S308:判断是否达到设定轮次,若是,执行步骤309;否则,返回步骤302。
S309:输出训练完毕的内容搜索模型。
基于同一发明构思,本发明实施例中,提供一种内容搜索的装置,参阅图4所示,至少包括获取单元401、拼接单元402、预测单元403和排序单元404,其中,
获取单元401,用于根据接收到的账号的搜索信息,获取所述账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用所述搜索信息、所述账号的账号信息和所述账号对应的一个候选资源信息进行特征提取得到的资源关联信息;
拼接单元402,用于对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,所述交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;
预测单元403,用于基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定所述账号与各个候选资源信息间的预测相关度,其中,所述第一关联度特征表征同一资源关联信息中各个元素之间的关联度,所述第二关联度特征表征各个资源关联信息的元素之间的关联度,所述预测相关度表征所述账号对所述一个候选资源信息执行交互操作的概率;
排序单元404,用于基于各个预测相关度,对所述各个候选资源信息进行排序。
可选的,基于一个交叉特征信息,确定对应的第一关联度特征和第二关联度特征,所述预测单元403用于:
采用第一卷积核对所述一个交叉特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核对所述一个交叉特征信息进行特征提取,得到所述第二关联度特征。
可选的,对所述各个资源关联信息进行特征拼接得到交叉特征信息之后,所述拼接单元402进一步用于:
对所述交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括所述同一资源关联信息的各个元素,以及所述各个资源关联信息的元素。
可选的,所述预测单元403进一步用于:
采用第一卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第一关联度特征;
采用第二卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第二关联度特征。
可选的,基于各个预测相关度,对所述各个候选资源信息进行排序之后,所述排序单元404进一步用于:
将排序后的各个候选资源信息推送给客户端,以使所述客户端展示所述排序后的各个候选资源信息。
基于同一发明构思,本发明实施例中,提供一种计算设备,参阅图5所示,至少包括存储器501和至少一个处理器502,其中,存储器501和处理器502通过通信总线完成相互间的通信;
存储器501用于存储程序指令;
处理器502用于调用存储器501中存储的程序指令,按照获得的程序执行前述内容搜索的方法。
基于同一发明构思,本发明实施例中,提供一种存储介质,至少包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行前述内容搜索的方法。
综上所述,根据接收到的账号的搜索信息,获取账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用搜索信息、账号的账号信息和账号对应的一个候选资源信息进行特征提取得到的资源关联信息;再对每组资源关联信息分别进行特征拼接,得到多个交叉特征信息,其中,交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;基于各个交叉特征信息,分别确定对应的第一关联度特征和第二关联度特征,并基于各个第一关联度特征和对应的第二关联度特征,确定账号与各个候选资源信息的预测相关度,其中,第一关联度特征表征同一资源关联信息中各个元素之间的关联度,第二关联度特征表征各个资源关联信息的元素之间的关联度;基于各个预测相关度对各个候选资源信息进行排序。综合考虑搜索信息、账号信息与候选资源信息之间的关系,有利于提高预测准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种内容搜索的方法,其特征在于,包括:
预设的内容搜索模型根据接收到的账号的搜索信息,获取所述账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用所述搜索信息、所述账号的账号信息和所述账号对应的一个候选资源信息进行特征提取得到的资源关联信息;
所述内容搜索模型对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,所述交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;
所述内容搜索模型采用第一卷积核对各个交叉特征信息进行特征提取,得到对应的第一关联度特征,以及所述内容搜索模型采用第二卷积核对所述各个交叉特征信息进行特征提取,得到对应的第二关联度特征;
所述内容搜索模型基于各个第一关联度特征和对应的第二关联度特征,确定所述账号与各个候选资源信息间的预测相关度,其中,所述第一关联度特征表征同一资源关联信息中各个元素之间的关联度,所述第二关联度特征表征各个资源关联信息的元素之间的关联度,所述预测相关度表征所述账号对所述一个候选资源信息执行交互操作的概率;
所述内容搜索模型基于各个预测相关度,对所述各个候选资源信息进行排序;
其中,所述内容搜索模型是基于多个训练样本训练得到的,每个训练样本包括一个样本账号的账号信息、所述一个样本账号的搜索信息,与所述搜索信息对应的一个样本资源信息,以及所述一个样本账号与所述一个样本资源信息之间的真实相关度。
2.如权利要求1所述的方法,其特征在于,所述内容搜索模型对所述每组资源关联信息进行特征拼接得到交叉特征信息之后,进一步包括:
所述内容搜索模型对所述交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括所述同一资源关联信息的各个元素,以及所述各个资源关联信息的元素。
3.如权利要求2所述的方法,其特征在于,进一步包括:
所述内容搜索模型采用第一卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第一关联度特征;
所述内容搜索模型采用第二卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第二关联度特征。
4.如权利要求1-3任一项所述的方法,其特征在于,所述内容搜索模型基于各个预测相关度,对所述各个候选资源信息进行排序之后,进一步包括:
所述内容搜索模型将排序后的各个候选资源信息推送给客户端,以使所述客户端展示所述排序后的各个候选资源信息。
5.一种内容搜索的装置,其特征在于,包括:
获取单元,用于预设的内容搜索模型根据接收到的账号的搜索信息,获取所述账号对应的至少一组资源关联信息,每组资源关联信息包括分别利用所述搜索信息、所述账号的账号信息和所述账号对应的一个候选资源信息进行特征提取得到的资源关联信息;
拼接单元,用于所述内容搜索模型对每组资源关联信息分别进行特征拼接得到多个交叉特征信息,其中,所述交叉特征信息包括同一资源关联信息的各个元素,以及各个资源关联信息的元素;
预测单元,用于所述内容搜索模型采用第一卷积核对各个交叉特征信息进行特征提取,得到对应的第一关联度特征,所述内容搜索模型采用第二卷积核对所述各个交叉特征信息进行特征提取,得到对应的第二关联度特征;
所述内容搜索模型基于各个第一关联度特征和对应的第二关联度特征,确定所述账号与各个候选资源信息间的预测相关度,其中,所述第一关联度特征表征同一资源关联信息中各个元素之间的关联度,所述第二关联度特征表征各个资源关联信息的元素之间的关联度,所述预测相关度表征所述账号对所述一个候选资源信息执行交互操作的概率;
排序单元,用于所述内容搜索模型基于各个预测相关度,对所述各个候选资源信息进行排序;
其中,所述内容搜索模型是基于多个训练样本训练得到的,每个训练样本包括一个样本账号的账号信息、所述一个样本账号的搜索信息,与所述搜索信息对应的一个样本资源信息,以及所述一个样本账号与所述一个样本资源信息之间的真实相关度。
6.如权利要求5所述的装置,其特征在于,所述内容搜索模型对所述各个资源关联信息进行特征拼接得到交叉特征信息之后,所述拼接单元进一步用于:
所述内容搜索模型对所述交叉特征信息进行转置,得到对应的转置特征信息,其中,所述转置特征信息包括所述同一资源关联信息的各个元素,以及所述各个资源关联信息的元素。
7.如权利要求6所述的装置,其特征在于,所述预测单元进一步用于:
所述内容搜索模型采用第一卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第一关联度特征;
所述内容搜索模型采用第二卷积核分别对所述交叉特征信息和所述转置特征信息进行特征提取,得到所述第二关联度特征。
8.如权利要求5-7任一项所述的装置,其特征在于,所述内容搜索模型基于各个预测相关度,对所述各个候选资源信息进行排序之后,所述排序单元进一步用于:
所述内容搜索模型将排序后的各个候选资源信息推送给客户端,以使所述客户端展示所述排序后的各个候选资源信息。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1-4任一项所述的方法。
10.一种存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699772.4A CN111881349B (zh) | 2020-07-20 | 2020-07-20 | 一种内容搜索的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699772.4A CN111881349B (zh) | 2020-07-20 | 2020-07-20 | 一种内容搜索的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881349A CN111881349A (zh) | 2020-11-03 |
CN111881349B true CN111881349B (zh) | 2022-04-22 |
Family
ID=73154640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010699772.4A Active CN111881349B (zh) | 2020-07-20 | 2020-07-20 | 一种内容搜索的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881349B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653572A (zh) * | 2015-08-20 | 2016-06-08 | 乐视网信息技术(北京)股份有限公司 | 一种资源的处理方法及装置 |
CN110162535A (zh) * | 2019-03-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于执行个性化的搜索方法、装置、设备以及存储介质 |
CN110909182A (zh) * | 2019-11-29 | 2020-03-24 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN110990533A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 确定查询文本所对应标准文本的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2640639C2 (ru) * | 2015-11-17 | 2018-01-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система обработки поискового запроса |
CN110020094B (zh) * | 2017-07-14 | 2023-06-13 | 阿里巴巴集团控股有限公司 | 一种搜索结果的展示方法和相关装置 |
US10803055B2 (en) * | 2017-12-15 | 2020-10-13 | Accenture Global Solutions Limited | Cognitive searches based on deep-learning neural networks |
US20190205761A1 (en) * | 2017-12-28 | 2019-07-04 | Adeptmind Inc. | System and method for dynamic online search result generation |
CN111339419A (zh) * | 2020-02-27 | 2020-06-26 | 厦门美图之家科技有限公司 | 信息推荐方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-20 CN CN202010699772.4A patent/CN111881349B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653572A (zh) * | 2015-08-20 | 2016-06-08 | 乐视网信息技术(北京)股份有限公司 | 一种资源的处理方法及装置 |
CN110162535A (zh) * | 2019-03-26 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于执行个性化的搜索方法、装置、设备以及存储介质 |
CN110909182A (zh) * | 2019-11-29 | 2020-03-24 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN110990533A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 确定查询文本所对应标准文本的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111881349A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11934956B2 (en) | Regularizing machine learning models | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN110147551B (zh) | 多类别实体识别模型训练、实体识别方法、服务器及终端 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN106815252B (zh) | 一种搜索方法和设备 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
US8515212B1 (en) | Image relevance model | |
CN112119388A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
CN110909145A (zh) | 针对多任务模型的训练方法及装置 | |
CN111767737A (zh) | 文本意图相似度确定方法、装置、电子设备和存储介质 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN112074828A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN113220864B (zh) | 智能问答数据处理系统 | |
CN109189922B (zh) | 评论评估模型的训练方法和装置 | |
CN110738059A (zh) | 一种文本相似度计算方法及系统 | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN112434142A (zh) | 一种标记训练样本的方法、服务器、计算设备及存储介质 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN111881349B (zh) | 一种内容搜索的方法及装置 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN114817480A (zh) | 一种土地资源值确定方法、装置、电子设备及存储介质 | |
US20230063686A1 (en) | Fine-grained stochastic neural architecture search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |