CN111625715A - 信息提取方法、装置、电子设备及存储介质 - Google Patents
信息提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111625715A CN111625715A CN202010388074.2A CN202010388074A CN111625715A CN 111625715 A CN111625715 A CN 111625715A CN 202010388074 A CN202010388074 A CN 202010388074A CN 111625715 A CN111625715 A CN 111625715A
- Authority
- CN
- China
- Prior art keywords
- target
- target object
- account
- information
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种信息提取方法、装置、电子设备及存储介质,涉及信息处理技术领域,用以解决相关技术中对象元信息较为复杂,缺乏针对性,无法准确高效应用的问题,本公开方法包括:获取目标对象对应的标签集合以及目标账户的账户信息,其中标签集合包括至少两个用于描述对象的标签;基于预设映射方式,获取根据账户信息映射得到的注意力特征,其中注意力特征包含标签集合中各个标签对应的权重,预设映射方式是根据样本账户对应的样本对象的历史行为确定的;根据注意力特征以及标签集合,确定目标账户对应的目标对象元信息。由于本公开实施例可以得到与用户关联的注意力特征,可以表示出用户对标签集合中各个标签的关注度,针对性地刻画目标对象。
Description
技术领域
本公开涉及信息处理技术领域,尤其涉及一种信息提取方法、装置、电子设备及存储介质。
背景技术
随着科学技术的飞速发展,深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络(CNN)作为深度学习的一个重要分支,由于其超强的拟合能力以及端到端的全局优化能力,使得图像分类任务在应用卷积神经网络之后,预测精度大幅提升。
虽然模型精度大幅度提升,但是与正常的使用场景却有着一定界限。由于算法感知出来的特征维度比较多,因此难以对视频进行更具针对性的刻画,应用到具体的场景下。例如在搜索场景下,用户输入了某某游戏,但是在给用户展示该游戏相关视频时,具体是展示该游戏相关的精彩视频,或者是该游戏相关的不精彩的视频,还是与该游戏相关的其他视频时,由于感知到的特征较为复杂,不具有针对性,无法在具体场景下准确高效地应用这些特征。
发明内容
本公开提供一种信息提取方法、装置、电子设备及存储介质,以至少解决相关技术中的对象元信息较为复杂,缺乏针对性,无法准确高效应用的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种信息提取方法,包括:
获取目标对象对应的标签集合以及目标账户的账户信息,其中所述标签集合包括至少两个用于描述对象的标签;
基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,其中所述注意力特征包含所述标签集合中各个标签对应的权重,所述预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
根据所述注意力特征以及所述标签集合,确定所述目标账户对应的目标对象元信息。
在一种可选的实施方式中,所述基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,包括:
将所述账户信息进行嵌入处理,得到所述目标账户的账户信息向量;
根据所述预设映射方式将所述账户信息向量映射为账户特征向量,其中所述账户特征向量的维数与所述标签集合中标签的数量相同;
将所述账户特征向量进行归一化处理,得到所述注意力特征。
在一种可选的实施方式中,所述标签集合中的各个标签是按照预设排序方式排列的;
所述根据所述注意力特征以及所述标签集合,确定与所述目标账户对应的目标对象元信息,包括:
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行筛选获得至少一个目标标签,并将所述目标标签作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行排序,并将排序结果作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对将所述各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为所述目标对象元信息。
在一种可选的实施方式中,在所述将所述目标标签作为所述目标对象的元信息之后,还包括:
响应所述目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度;
根据所述各个目标对象对应的匹配度,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度,包括:
针对任意一个目标对象,确定所述目标对象对应的各个目标标签与所述搜索请求的匹配度;
根据所述各个目标标签对应的权重对所述各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为所述目标对象对应的匹配度。
在一种可选的实施方式中,在所述将所述注意力加权特征作为对象元信息之后,还包括:
根据各个目标对象对应的注意力加权特征,获取所述目标账户对所述各个目标对象的第一预估点击率;
根据各个目标对象对应的第一预估点击率,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述根据所述注意力加权特征获取所述目标账户对所述目标对象的第一预估点击率,包括:
分别将所述各个目标对象对应的注意力加权特征与所述目标账户的账户信息向量进行拼接,得到与所述各个目标对象对应的目标特征向量;
分别将所述各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取所述点击率预估模型输出的所述各个目标对象对应的第一预估点击率。
在一种可选的实施方式中,所述获取目标对象对应的标签集合,包括:
获取所述目标对象对应的至少一个第一标签以及文档描述信息;
将所述文档描述信息通过分词处理得到至少一个第二标签;
将所述第一标签和所述第二标签去重后,组合生成所述标签集合。
在一种可选的实施方式中,通过下列方式确定所述预设映射方式:
对初始的预设映射方式对应的映射参数进行多轮调整,其中所述初始的预设映射方式对应的映射参数是预先设定的,每轮调整都执行下列过程:
基于所述样本对象对应的标签集合中标签的数量以及所述预设映射方式,获取根据所述样本账户的样本账户信息映射得到的预估注意力特征;
根据所述预估注意力特征,对所述样本对象对应的标签集合中各个标签对应的样本特征向量进行加权求和,得到预估注意力加权特征;
根据所述预估注意力加权特征以及所述样本账户的样本账户信息向量,确定所述样本账户对所述样本对象的第二预估点击率;
将所述第二预估点击率与根据所述样本账户对应的历史行为确定的真实点击率进行对比,基于比对结果调整所述预设映射方式对应的映射参数。
在一种可选的实施方式中,所述基于所述样本对象对应的标签集合中标签的数量以及所述预设映射方式,获取根据所述样本账户的样本账户信息映射得到的预估注意力特征,包括:
将所述样本账户信息进行嵌入处理,得到所述样本账户的所述样本账户信息向量;
根据所述预设映射方式将所述样本账户信息向量映射为样本账户特征向量,其中所述样本账户特征向量的维数与所述样本对象对应的标签集合中标签的数量相同;
将所述样本账户特征向量进行归一化处理,得到所述预估注意力特征。
在一种可选的实施方式中,所述样本对象对应的标签集合中各个标签对应的样本特征向量是对通过嵌入处理得到的。
所述标签集合中的各个标签是按照预设排序方式排列的;
所述根据所述注意力特征以及所述标签集合,确定与所述目标账户对应的目标对象元信息,包括:
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行筛选获得至少一个目标标签,并将所述目标标签作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行排序,并将排序结果作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对将所述各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为所述目标对象元信息。
在一种可选的实施方式中,在所述将所述目标标签作为所述目标对象的元信息之后,还包括:
响应所述目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度;
根据所述各个目标对象对应的匹配度,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度,包括:
针对任意一个目标对象,确定所述目标对象对应的各个目标标签与所述搜索请求的匹配度;
根据所述各个目标标签对应的权重对所述各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为所述目标对象对应的匹配度。
在一种可选的实施方式中,在所述将所述注意力加权特征作为对象元信息之后,还包括:
根据各个目标对象对应的注意力加权特征,获取所述目标账户对所述各个目标对象的第一预估点击率;
根据各个目标对象对应的第一预估点击率,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述根据所述注意力加权特征获取所述目标账户对所述目标对象的第一预估点击率,包括:
分别将所述各个目标对象对应的注意力加权特征与所述目标账户的账户信息向量进行拼接,得到与所述各个目标对象对应的目标特征向量;
分别将所述各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取所述点击率预估模型输出的所述各个目标对象对应的第一预估点击率。
在一种可选的实施方式中,所述获取目标对象对应的标签集合,包括:
获取所述目标对象对应的至少一个第一标签以及文档描述信息;
将所述文档描述信息通过分词处理得到至少一个第二标签;
将所述第一标签和所述第二标签去重后,组合生成所述标签集合。
在一种可选的实施方式中,通过下列方式确定所述预设映射方式:
对初始的预设映射方式对应的映射参数进行多轮调整,其中所述初始的预设映射方式对应的映射参数是预先设定的,每轮调整都执行下列过程:
基于所述样本对象对应的标签集合中标签的数量以及所述预设映射方式,获取根据所述样本账户的样本账户信息映射得到的预估注意力特征;
根据所述预估注意力特征,对所述样本对象对应的标签集合中各个标签对应的样本特征向量进行加权求和,得到预估注意力加权特征;
根据所述预估注意力加权特征以及所述样本账户的样本账户信息向量,确定所述样本账户对所述样本对象的第二预估点击率;
将所述第二预估点击率与根据所述样本账户对应的历史行为确定的真实点击率进行对比,基于比对结果调整所述预设映射方式对应的映射参数。
在一种可选的实施方式中,所述基于所述样本对象对应的标签集合中标签的数量以及所述预设映射方式,获取根据所述样本账户的样本账户信息映射得到的预估注意力特征,包括:
将所述样本账户信息进行嵌入处理,得到所述样本账户的所述样本账户信息向量;
根据所述预设映射方式将所述样本账户信息向量映射为样本账户特征向量,其中所述样本账户特征向量的维数与所述样本对象对应的标签集合中标签的数量相同;
将所述样本账户特征向量进行归一化处理,得到所述预估注意力特征。
在一种可选的实施方式中,所述样本对象对应的标签集合中各个标签对应的样本特征向量是对通过嵌入处理得到的。
根据本公开实施例的第二方面,提供一种信息提取装置,包括:
获取单元,被配置为执行获取目标对象对应的标签集合以及目标账户的账户信息,其中所述标签集合包括至少两个用于描述对象的标签;
权重确定单元,被配置为执行基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,其中所述注意力特征包含所述标签集合中各个标签对应的权重,所述预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
元信息提取单元,被配置为执行根据所述注意力特征以及所述标签集合,确定所述目标账户对应的目标对象元信息。
在一种可选的实施方式中,所述权重确定单元具体被配置为执行:
将所述账户信息进行嵌入处理,得到所述目标账户的账户信息向量;
根据所述预设映射方式将所述账户信息向量映射为账户特征向量,其中所述账户特征向量的维数与所述标签集合中标签的数量相同;
将所述账户特征向量进行归一化处理,得到所述注意力特征。
在一种可选的实施方式中,所述标签集合中的各个标签是按照预设排序方式排列的;
所述元信息提取单元具体被配置为执行:
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行筛选获得至少一个目标标签,并将所述目标标签作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行排序,并将排序结果作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对将所述各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为所述目标对象元信息。
在一种可选的实施方式中,所述装置还包括:
第一应用单元,被配置为执行在所述原信息提取模块将所述目标标签作为所述目标对象的元信息之后,响应所述目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度;
根据所述各个目标对象对应的匹配度,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述第一应用单元具体被配置为执行:
针对任意一个目标对象,确定所述目标对象对应的各个目标标签与所述搜索请求的匹配度;
将所述各个目标标签对应的权重对所述各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为所述目标对象对应的匹配度。
在一种可选的实施方式中,所述装置还包括:
第二应用单元,被配置为执行在所述元信息提取单元将所述注意力加权特征作为对象元信息之后,根据各个目标对象对应的注意力加权特征,获取所述目标账户对所述各个目标对象的第一预估点击率;
根据各个目标对象对应的第一预估点击率,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
在一种可选的实施方式中,所述第二应用单元具体被配置为执行:
分别将所述各个目标对象对应的注意力加权特征与所述目标账户的账户信息向量进行拼接,得到与所述各个目标对象对应的目标特征向量;
分别将所述各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取所述点击率预估模型输出的所述各个目标对象对应的第一预估点击率。
在一种可选的实施方式中,所述获取单元具体被配置为执行:
获取所述目标对象对应的至少一个第一标签以及文档描述信息;
将所述文档描述信息通过分词处理得到至少一个第二标签;
将所述第一标签和所述第二标签去重后,组合生成所述标签集合。
在一种可选的实施方式中,所述装置还包括:
学习单元,被配置为执行通过下列方式确定所述预设映射方式:
对初始的预设映射方式对应的映射参数进行多轮调整,其中所述初始的预设映射方式对应的映射参数是预先设定的,每轮调整都执行下列过程:
基于所述样本对象对应的标签集合中标签的数量以及所述预设映射方式,获取根据所述样本账户的样本账户信息映射得到的预估注意力特征;
根据所述预估注意力特征,对所述样本对象对应的标签集合中各个标签对应的样本特征向量进行加权求和,得到预估注意力加权特征;
根据所述预估注意力加权特征以及所述样本账户的样本账户信息向量,确定所述样本账户对所述样本对象的第二预估点击率;
将所述第二预估点击率与根据所述样本账户对应的历史行为确定的真实点击率进行对比,基于比对结果调整所述预设映射方式对应的映射参数。
在一种可选的实施方式中,所述学习单元具体被配置为执行:
将所述样本账户信息进行嵌入处理,得到所述样本账户的所述样本账户信息向量;
根据所述预设映射方式将所述样本账户信息向量映射为样本账户特征向量,其中所述样本账户特征向量的维数与所述样本对象对应的标签集合中标签的数量相同;
将所述样本账户特征向量进行归一化处理,得到所述预估注意力特征。
在一种可选的实施方式中,所述样本对象对应的标签集合中各个标签对应的样本特征向量是对通过嵌入处理得到的。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现本公开实施例第一方面中任一项所述的信息提取方法。
根据本公开实施例的第四方面,提供一种非易失性可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例第一方面中任一项所述的信息提取方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
由于本公开实施例基于用户的历史行为提取用户的注意力特征,学习用户对不同标签的注意力,在本公开实施例中,注意力实质是指各个标签对应的权重,权重越大,表明用户越重视该标签,因此基于获取到的注意力特征以及标签集合,可以有效刻画出与用户相对应的目标对象元信息,基于获取到的目标对象元信息可以更加简洁地刻画出用户对于目标对象更加关注的内容,因此可以更加有针对性地刻画目标对象,便于后期向用户进行个性化推荐等,降低算法感知出的元信息的复杂度,以更加高效准确地应用提取到的目标对象元信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种游戏界面的示意图;
图2是根据一示例性实施例示出的一种应用场景的示意图;
图3是根据一示例性实施例示出的一种信息提取方法的流程图;
图4A是根据一示例性实施例示出的第一种展示界面的示意图;
图4B是根据一示例性实施例示出的第二种展示界面的示意图;
图5是根据一示例性实施例示出的一种元信息提取模型结构的示意图;
图6是根据一示例性实施例示出的一种预设映射方式的调整方法的流程图;
图7是根据一示例性实施例示出的一种信息提取的完整方法的流程图;
图8是根据一示例性实施例示出的一种信息提取装置的框图;
图9是根据一示例性实施例示出的一种电子设备的框图;
图10是根据一示例性实施例示出的一种计算装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的账户,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面对文中出现的一些词语进行解释:
1、和/或:描述关联账户的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联账户是一种“或”的关系。
2、电子设备:可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
3、元信息:是关于信息的信息,元信息允许服务器提供所发送数据的信息,如HTTP(超文本传输协议)可以提高所发的账户语言和账户,也可以用元信息来实现有条件请求以及报告事务完成。收到数据的浏览器可以根据元信息确定服务器发来的是什么内容,预料有什么数据,确知是否接收完整的数据,以及过程中是否出错,这样客户就可以知道传输账户的类型。在本公开实施例中,元信息指经过图像识别算法、自然语言处理算法、语音识别算法等算法对对象进行感知得到的信息,例如针对图1所示的游戏界面的示意图,通过算法感知出的元信息有【某某游戏】、【某某游戏-孙悟空】、【五杀】等文本信息。
4、中文分词:指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,常见的中文分词工具有很多,包括盘古分词、Yaha(哑哈)分词、Jieba(结巴)分词等,本公开实施例中主要是以Jieba分词为例进行介绍的。
5、停用词:是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
6、字典序:在数学中,字典或词典顺序(也称为词汇顺序,字典顺序,字母顺序或词典顺序)是基于字母顺序排列的单词按字母顺序排列的方法。这种泛化主要在于定义有序完全有序集合(通常称为字母表)的元素的序列(通常称为计算机科学中的单词)的总顺序。在本公开实施例中,字典序可以是一种具体的预设排列方式。
7、维数:是指向量的长度,例如向量v={a1,a2,....,an},向量有n个特征维度,则维数为n,向量个数就是v的个数,如果有m个样本,每个样本都可以用一个向量vi表示(i=1,2,...,m),则向量个数为m。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本公开实施例中提出的信息提取方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练注意力模块(预设映射方式),使得训练样本中样本账户的样本账户信息通过注意力模块后,得到注意力特征,通过优化算法不断调整模型参数,得到已训练的注意力模块;应用部分用于通过使用在训练部分训练得到的注意力模块,获得目标账户的注意力特征,进而依据该注意力特征对目标对象的元信息进行提取,获取对于目标账户来说较为重要的目标对象元信息,与目标账户关联度较高的目标对象元信息。
本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本公开的描述中,除非另有说明,“多个”的含义。
如图2所示,其为本公开实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器230,可通过终端设备210登录内容推荐的相关界面220。终端设备210与服务器230之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
在本公开实施例中,终端设备210为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器230连接,服务器230可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
可选的,服务器230可以包括用于实现注意力特征提取平台231的服务器;可选的,服务器230还可以包括用于实现点击率预估平台232的服务器;可选的,服务器230还可以包括用于实现对象管理平台233的服务器。
其中,点击率预估平台232用于从网络上发布的各个目标对象中确定出可向目标账户进行展示的至少一个目标对象。
可选的,对象管理平台233存储有各个用户针对网络上发布的各个对象所产生的历史行为。其中,这些历史行为可以是用户对对象的点击、未点击、浏览、点赞、回复、分享、评分以及引用等的用户行为。
可选的,对象管理平台233还用于维护以及向终端设备210推送对象,以便终端设备210向用户进行展示,这里的对象包括但不限于电子书籍、网络文章、新闻、资讯、视频、商品以及论坛帖子等。本公开实施例对于对象的具体形式不做限定。
需要说明的是,上述两个终端设备只是举例说明,在本公开实施例中实际一般可涉及若干终端设备。此外,上述注意力特征提取平台231、点击率预估平台232、对象管理平台233的服务器可以是相互之间独立的服务器,或者也可以任意两个平台或三个平台实现在同一个服务器中。当上述多个平台实现在多个服务器中时,这多个服务器之间通过通信网络相连。
图3是根据一示例性实施例示出的一种信息提取方法的流程图,如图3所示,包括以下步骤。
在步骤S31中,获取目标对象对应的标签集合以及目标账户的账户信息,其中标签集合包括至少两个用于描述对象的标签;
在步骤S32中,基于预设映射方式,获取根据账户信息映射得到的注意力特征,其中注意力特征包含标签集合中各个标签对应的权重,预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
在步骤S33中,根据注意力特征以及标签集合,确定目标账户对应的目标对象元信息。
通过上述方案,基于用户的历史行为学习用户对对象的偏好,基于此来提取用户的注意力特征,学习用户对不同标签的注意力。在本公开实施例中,注意力实质是指各个标签对应的权重,权重越大,表明用户越重视该标签,因此基于获取到的注意力特征以及标签集合,可以有效刻画出与用户相对应的目标对象元信息,基于获取到的目标对象元信息可以更加简洁地刻画出用户对于目标对象更加关注的内容,因此可以更加有针对性地刻画目标对象,便于后期向用户进行个性化推荐等,降低算法感知出的元信息的复杂度,以更加高效准确地应用提取到的目标对象元信息。
在一种可选的实施方式中,获取目标对象对应的标签集合时,具体过程如下:
获取目标对象对应的至少一个第一标签以及文档描述信息;将文档描述信息通过分词处理得到至少一个第二标签;将第一标签和第二标签去重后,组合生成标签集合。
其中,目标对象对应的第一标签以及文档描述信息都是通过感知系统感知得到的,在本公开实施例中的感知系统指图像识别、语音识别、文本识别等系统。基于感知系统即可获得对象在图像、语音、文本等各种维度下的特征,下文中主要是以对象为视频为例进行详细介绍:
假设感知系统对一个视频数据进行N个维度的感知,这时对于任何一个维度i,都可以表示为2种结果的形式:
二、文档形式,用doci表示。
其中标签形式的结果即获取到的至少一个第一标签,文档形式的结果即获取到的文档描述信息。接下来使用分词工具对任意维度的文档形式的数据doci进行分词,并去掉停用词之后,得到至少一个第二标签k为分词之后的任意单词。
例如doci=“杭州|西湖|的|风景|很|好|,|是|旅游胜地|!|”,划分后可得到8个分词。其中,在去除停用词时,主要是指去掉其中的虚词,比如“的”这样的,或者是预先设置的停用词。
在本公开实施例中,将第一标签和第二标签融合即可得到标签集合,并且需要去除重复的标签,即将所有的标签取并集进行融合,得到标签集合label:
例如,去除停用词后得到的第二标签有:杭州、西湖、旅游胜地,而基于感知系统得到的第一标签有:杭州、浙江,则得到的标签集合label为{浙江,杭州,西湖,旅游胜地}。
基于上述实施方式,可获得较为丰富的标签元信息,但是这标签是用于描述目标对象的,与目标账户无关,因此基于上述方式获取到较为丰富的元信息后,以便基于这些元信息获取到与目标账户对应的对象元信息,实现与目标账户相关的目标对象的刻画,基于此刻画的目标对象更具针对性,更加符合目标账户的偏好,或者更能体现目标账户的偏好。
在一种可选的实施方式中,获取目标对象的标签集合之后,即可基于预设映射方式,获取根据账户信息映射得到的注意力特征,具体过程如下:
将账户信息进行嵌入处理,得到目标账户的账户信息向量;根据预设映射方式将账户信息向量映射为账户特征向量,其中账户特征向量的维数与标签集合中标签的数量相同;将账户特征向量进行归一化处理,得到注意力特征。
在本公开实施例中,账户信息至少包括账户的唯一标识,例如账户ID(Identity,标识),此外,还可包括与账户对应的用户画像、用户偏好、用户历史行为等信息。
这些账户信息可基于预设字典或是词典,由字符等形式转换one-hot(独热编码)形式,是一种二进制编码形式的向量,不过由于这些特征属于离散化特征,转换为one-hot类型的特征输入到神经网络中,会导致网络参数太多。因此,可基于嵌入层(Embedding)进行嵌入处理,将one-hot形式的特征进行降维处理,得到dense feature(稠密特征)形式的账户信息向量featurey,基于上述过程即可把离散的变量(账户信息)转换为连续的向量(账户信息向量)。例如账户信息向量为一个64维的向量。
在获得账户信息向量之后,首先需要将账户信息向量经过DNN(深度神经网络),映射到一个维数与标签集合中标签的数量相同的向量featureattn。例如标签集合中标签的数量为4,则可将64维的账户信息向量featurey映射为4维的账户特征向量featureattn,例如featureattn为[1,2,3,4]。
需要说明的是,本公开实施例中标签集合中的标签是按照预设排列方式排列的,因此账户特征向量中的各个元素与标签一一对应,例如1对应label1,2对应label2,3对应label3,4对应label4。因此对账户特征向量进行归一化后得到的注意力特征中的权重也是与标签一一对应的。
在本公开实施例中,对账户特征向量进行归一化处理时的方式有很多种,下面列举两种:
方式一、基于softmax函数进行归一化处理。
Attnx=softmax(featureattn);
其中,Attnx是对featureattn进行归一化处理得到的4维的注意力特征,也是向量的形式。在本公开实施例中,Softmax函数的输出值相互关联,其输出的各个权重的总和始终为1,因此,在Softmax函数中,为增大某一标签的权重,其他标签的权重必须相应减少。
例如featureattn为[1,2,3,4],Attnx为[0.0320,0.0871,0.2368,0.6439],其中,Attnx包含标签集合中各个标签对应的权重,且各个权重之和为1。具体的,0.0320对应label1,0.0871对应label2,0.2368对应label3,0.6439对应label4。
方式二、基于sigmoid函数进行归一化处理。
Attnx=sigmoid(featureattn);
在本公开实施例中,Sigmoid函数会分别处理账户特征向量中的各个值,因此其结果相互独立,权重总和不一定为1。
例如featureattn为[1,2,3,4],Attnx为[0.37,0.48,0.77,0.91],其中0.37对应label1,0.48对应label2,0.77对应label3,0.91对应label4。其中,每一个权重都是0~1之间的数值,且0.37+0.77+0.48+0.91=2.53。
在本公开实施例中,Sigmoid函数或Softmax函数或者是其它可用于归一化处理的函数,可以将featureattn映射为用于表示对应标签重要性的权重向量,即注意力特征Attnx,基于注意力特征即可实现对标签集合的进一步处理,刻画出符合用户的目标对象元信息。
在一种可选的实施方式中,根据注意力特征以及标签集合,确定目标账户对应的目标对象元信息时,可分为以下几种表示方法:
表示方法一、根据注意力特征中各个标签对应的权重,对各个标签进行筛选获得至少一个目标标签,并将目标标签作为目标对象元信息。
该方式即重要标签表示方法。通过Attnx的数值大小可以获得最重要的M个标签表示此对象。其中M为正整数,且M小于标签集合中标签的总数量。
以对象为视频为例,其中该视频对应的标签集合一共包含4个标签,分别为label1、label2、label3、label4。假设Attnx=[0.0320,0.0871,0.2368,0.6439],若M=2,则对应的标签为label4以及label3。因此这两个标签为目标标签,即该视频的元信息,这里确定的元信息是与用户相关的,并非是针对每一个用户而言都相同。
表示方法二、根据注意力特征中各个标签对应的权重,对各个标签进行排序,并将排序结果作为目标对象元信息。
仍以表示方法一中所列举的Attnx为例,若按照对应的权重由大到小的顺序排序,则对各个标签排序得到的排序结果为:label4、label3、label2、label1。
反之,若按照各个标签对应的权重由小到大的顺序排序,则对各个标签排序得到的排序结果为:label1、label2、label3、label4。
该方式下,仅需要对标签进行排序,可以保证目标对象元信息的完整性,并且基于排序即可体现出用户更加关注的元信息,使得元信息更具有针对性。
表示方法三、根据注意力特征中各个标签对应的权重,对将各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为目标对象元信息。
其中,各个标签对应的特征向量也是基于Embedding网络对各个标签进行嵌入处理得到的,具体过程同账户信息的处理方式类似,首先基于预设的字典或词典获取各个标签对应的稀疏向量,维度较高,经过Embedding网络对稀疏向量进行降维处理,得到稠密向量,即各个标签对应的特征向量,可用featurex表示,例如featurex是一个32维的特征向量。
在本公开实施例中,确定各个标签对应的特征向量featurex之后,通过各个标签对应的权重对这些特征向量进行加权求和,得到注意力加权特征,可表示为向量的形式,其中注意力加权特征中的各个元素attn-可基于下列公式计算得到:
其中,i表示标签在标签集合中的位置,N为标签集合中标签的总数量,j为特征中元素对应的位置,即注意力加权特征中的第几个元素,或者第几列的元素。
假设featurex的数量为4个,则4个标签的特征向量所组成的向量组或矩阵A为4*32维,i的取值为0~3(表示矩阵A中的第i行,一行对应一个标签),j的取值为0~31(表示矩阵A中的第j列);注意力特征表示为矩阵为1*4维的矩阵B,则B*A为1*32维的矩阵C,表示为32维的向量即注意力加权特征,即C中第j列的元素的值,通过加权之后的连续特征表示目标对象。
若A为3*3的矩阵,B为1*3的矩阵,则C为1*3的矩阵,计算方式如下所示:
在上述实施方式中,通过注意力特征对标签集合中的标签进行筛选、排序或是对标签的特征向量进行加权求和等几种方式,可以有效体现出这些标签针对用户而言哪些标签更加重要,用户更加关注哪些标签,其中筛选得到的目标标签对标签集合中的标签进行了过滤,筛选出了用户更加感兴趣的标签,基于此在执行相关业务时,减少了元信息的复杂度,而且增强了元信息与用户之间的关联;针对排序或者是加权求和这两种表示方法保存了元信息的完整性,且体现出了针对用户而言元信息之间的重要性,使得元信息与用户相关联,更具有针对性。
在本公开实施例中,获取到与目标账户对应的目标对象元信息之后,这些目标对象元信息可应用的业务场景有很多种,例如垂类频道,在用户打开应用时向用户进行推荐,响应用户的搜索请求等等。
需要说明的是,由于本公开实施例中的预设映射方式是基于大量的样本账户对应的样本对象的历史行为确定的,因此基于预设映射方式映射得到的注意力特征除了可以反映用户对该目标对象的关注程度之外,在一定程度上可以反映出大量用户之间的共性。其中第一种和第二种形式的元信息表示方法直接是字符形式的标签,更加适用于非技术人员更加直观;,第三种形式的元信息表示方法,保留了目标对象完整的元信息,且采用向量的形式进行表示,更加适用于输入神经网络模型中进行应用等,例如输入点击率预估模型中预估用户对目标对象的点击率。
下面将对搜索和推荐这两种业务场景进行详细介绍:
在一种可选的实施方式中,将目标标签作为目标对象的元信息之后,可响应目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与搜索请求的匹配度;根据各个目标对象对应的匹配度,从各个目标对象中选取至少一个目标对象向目标账户进行展示,以实现搜索业务。
其中,在选取目标对象进行展示时,具体展示方式为:可设置匹配度阈值,将各个目标对象中对应的匹配度高于匹配度阈值的目标对象向目标账户进行展示,展示的顺序可以依据各个目标对象的匹配度进行排序,匹配度越高,展示位置越靠前。
例如,一共5个目标对象,各个目标对象的匹配度分别为:P1、P2、P3、P4、P5,假设匹配度阈值为T1,其中P2>P3>P5>T1>P1>P4,则可将第2个,第3个以及第5个目标对象向目标账户进行展示。如图4A所示,其中目标对象为新闻资讯,其中第一条新闻资讯即匹配度为P2的目标对象,第二条新闻资讯即匹配度为P3的目标对象,第三条新闻资讯即匹配度为P5的目标对象。
在一种可选的实施方式中,根据各个目标对象对应的目标标签确定各个目标对象与搜索请求的匹配度时,具体过程如下:
针对任意一个目标对象,确定目标对象对应的各个目标标签与搜索请求的匹配度;根据各个目标标签对应的权重对各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为目标对象对应的匹配度。
例如,针对目标对象1,目标标签有2个,其中目标标签1与搜索请求的匹配度为P11,目标标签2与搜索请求的匹配度为P12,且目标标签1对应的权重为λ1,目标标签2对应的权重为λ2,则P1=λ1*P11+λ2*P12,针对其他目标对象计算方式相同,其中目标标签对应的权重可基于注意力特征获取。
该方式下,基于与用户关联度较高的目标标签来筛选目标对象,通过此方式获取到的目标对象更加贴近用户偏好,因此基于此向用户展示有助于提高转化率,提升用户体验。
在一种可选的实施方式中,在将注意力加权特征作为对象元信息之后,还包括:
根据各个目标对象对应的注意力加权特征,获取目标账户对各个目标对象的第一预估点击率;根据各个目标对象对应的第一预估点击率,从各个目标对象中选取至少一个目标对象向目标账户进行展示。
其中,展示方式与上述搜索过程类似,可设置点击率阈值,将各个目标对象中对应的第一预估点击率高于点击率阈值的目标对象向目标账户进行展示(通过终端)向目标对象进行展示,展示的顺序可以依据各个目标对象的第一预估点击率进行排序,第一预估点击率越高,展示位置越靠前。
例如,一共10个目标对象,各个目标对象对应的第一预估点击率分别为:C1、C2、C3、C4、C5、C6、C7、C8、C9、C10,假设点击率阈值为T2,其中C1>C3>C2>C7>T2>C6>C4>C5>C9>C10>C8,则可将第1个,第3个,第2个以及第7个目标对象向目标账户进行展示。如图4B所示,当用户打开某短视频应用时,则需要向用户推荐一些短视频,这些短视频即目标对象,图中是以两个目标视频一排的方式进行展示的,其中第一排左边的视频即第1个目标对象,右边的视频即第3个目标对象,第二排左边的视频即第2个目标对象,右边的视频即第7个目标对象。
在一种可选的实施方式中,根据注意力加权特征获取目标账户对目标对象的第一预估点击率时,具体过程如下:
分别将各个目标对象对应的注意力加权特征与目标账户的账户信息向量进行拼接,得到与各个目标对象对应的目标特征向量;分别将各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取点击率预估模型输出的各个目标对象对应的第一预估点击率。
在上述实施方式中,拼接得到的目标特征向量既包含了目标对象的相关信息,又包含了目标账户的相关信息,因此将目标特征向量输入已训练的点击率预估模型中即可获取向目标账户推荐目标对象后,目标账户可能会点击该目标对象的一个概率,即第一预估点击率,取值可以是0~1之间的一个概率值,数值越大,则表明登录目标账户的用户点击目标对象的可能性越大。
此外,本公开实施例中的点击率预估模型可以是简单的神经网络模型,也可以是较为复杂的点击率预估模型,例如DeepFM(Deep Factorization Machine,深度因子分解机)模型、AutoInt(Automatic Feature Interaction Learning via Self-AttentiveNeural Networks,基于自关注神经网络的特征交互学习)模型等。
需要说明的是,上述列举的从几个目标对象筛选是为了简单举例说明,实际上候选的目标对象会有很多,筛选出来的目标对象也可以有很多,若当前页面无法完全展示筛选出的目标对象时,用户可通过上滑等方式获取未展示出的更多的目标对象。
在本公开实施例中,基于注意力特征对标签集合中的标签进行排序或者筛选之后,则可直接依据排序结果或者是筛选结果,对目标对象进行垂类频道的划分,例如图4B中的游戏、短剧、探店、直播等都属于不同的垂类频道标签,在基于排序结果或者是筛选结果将目标对象分类时,可主要依据对于用户而言重要性最高的标签直接划分,或者是采用上述过程中所列举的计算方式,确定各个目标对象与垂类频道标签之间的匹配度,基于匹配度来划分,例如目标视频1与游戏的匹配度为D1、与短剧的匹配度为D2…,其中D1大于预设阈值,则可将目标视频1划分为游戏这一频道下,其中一个目标对象也可划分在多个频道之下,这里不做具体限定。
参阅图5所示,为本公开实施例中的一种元信息提取模型的结构示意图,主要包括Embedding网络和注意力模块以及深度神经网络,以目标对象为视频、账户信息为用户ID为例,首先基于左侧的Embedding网络对标签进行嵌入处理,获取各个标签对应的特征向量featurex,基于右侧的Embedding网络对用户ID进行嵌入处理,获得账户信息向量featurey,其中图5左侧的Embedding网络和右侧的Embedding网络可以是同一个网络,也可以是结构类似的两个网络。
其中的注意力模块主要用于获取账户信息向量对应的注意力特征,在本公开实施例中,注意力模块可以采用DNN+softmax的结构,基于DNN将账户信息向量映射为账户特征向量featureattn,再经过softmax进行归一化处理,获取账户特征向量归一化得到的注意力特征Attnx。
在获取注意力特征之后,则可基于Attnx与各个标签对应的featurex进行加权求和,获取注意力加权特征将与featurey进行拼接,也就是特征融合,得到目标特征向量后,将目标特征向量输入深度神经网络即可获取模型输出的点击率,也就是第二预估点击率。
结合图5所示的模型可以调整预设映射方式,在本公开实施例中,预设映射方式是基于注意力模块获取到的一种映射方式,对应的映射参数可以指注意力模块中的相关参数,下面结合图6对预设映射方式的调整过程进行详细介绍。
参阅图6所示,为本公开实施例中的一种预设映射方式的调整方法示意图:
在本公开实施例中,可以通过下列方式对初始的预设映射方式对应的映射参数进行多轮调整,其中初始的预设映射方式对应的映射参数是预先设定的,每轮调整都执行下列过程:
S61:基于样本对象对应的标签集合中标签的数量以及预设映射方式,获取根据样本账户的样本账户信息映射得到的预估注意力特征;
S62:根据预估注意力特征,对样本对象对应的标签集合中各个标签对应的样本特征向量进行加权求和,得到预估注意力加权特征;
S63:根据预估注意力加权特征以及样本账户的样本账户信息向量,确定样本账户对样本对象的第二预估点击率;
S64:将第二预估点击率与根据样本账户对应的历史行为确定的真实点击率进行对比,基于比对结果调整预设映射方式对应的映射参数。
可选的,在本公开实施例中,需要对初始的预设映射方式对应的映射参数进行多轮调整,调整的停止条件有很多种,下面主要列举两种:
方式一、调整次数达到预设上限。
假设预设上限K=5,则在重复步骤S61~S645轮之后,则可停止调整,并基于最后一次调整得到的映射参数,获得最终的预设映射方式。
方式二、第二预估点击率与真实点击率的差异在指定范围内,模型收敛。
在本公开实施例中,预设映射方式可基于神经网络模型来实现,如图5所示的注意力模块,该模型的内部结构实质上是DNN+softmax(或sigmoid等),通过不断调整模型中的参数,调整模型输出的注意力特征,并基于模型输出的注意力特征来确定第二预估点击率,并与真实点击率进行对比,根据比对结果不断调整模型参数,直至模型收敛则可停止调整,并基于最后一次调整得到的映射参数,获得最终的预设映射方式。
具体是指将图5中深度神经网络输出的Click与根据用户的历史行为确定的真实点击率进行比较,通过反向传播等方式不断调整注意力模块,得到最终的预设映射方式。
在本公开实施例中,一个训练样本是根据一个样本账户对一个样本对象的一次历史行为生成的,即样本账户对应的样本对象的历史行为,根据该历史行为可以确定使用样本账户的用户是否点击样本对象。
以目标对象为视频为例,对于一个短视频平台,可以很方便地获取到<x,user,click>这样的三元组,用来表示用户对任意一个视频是否点击,即根据用户的历史行为确定的真实点击率。
例如用户A在短视频平台A上浏览短视频时,针对其中一个短视频,用户A会产生点击或是未点击等历史行为,此时用户A或者用户A当前登录的账户即样本账户,用户A当前浏览的短视频即样本对象。若用户A点赞该短视频,此时click可以表示为1,表示用户点击该短视频。
在一种可选的实施方式中,基于样本对象对应的标签集合中标签的数量以及预设映射方式,获取根据样本账户的样本账户信息映射得到的预估注意力特征时,具体过程如下:
将样本账户信息进行嵌入处理,得到样本账户的样本账户信息向量;根据预设映射方式将样本账户信息向量映射为样本账户特征向量,其中样本账户特征向量的维数与样本对象对应的标签集合中标签的数量相同;将样本账户特征向量进行归一化处理,得到预估注意力特征。
需要说明的是,样本账户信息也可采用上述实施例中所列举的嵌入处理方式进行处理,获得样本账户信息向量,与上文中的featurey相同,可以表示为一个64维的向量;基于DNN对样本账户信息向量进行映射,即可得到样本账户特征向量,例如样本账户特征向量为4维,与featureattn相同;基于softmax对样本账户特征向量进行归一化处理得到预估注意力特征,与Attnx相同,可表示为一个4维的权重向量,标签集合中一共有4个标签。
在一种可选的实施方式中,样本对象对应的标签集合中各个标签对应的样本特征向量是对通过嵌入处理得到的,与featurex相同,可表示为一个32维的特征向量。
在上述实施方式中,通过上述预设映射方式可以建立用户账户信息与注意力特征之间的映射关系,基于该映射关系即可获取用户对目标对象对应的各个标签的关注程度,即获取各个标签与用户之间的关联强度,权重越大表明用户越关注该权重对应的标签,因此基于该标签向用户进行推荐时,用户点击的可能性会更高,以便提高点击率,提升用户体验。
图7是根据一示例性实施例示出的一种目标对象元信息提取的完整方法流程图,具体包括以下步骤:
S71:经过预处理获取目标对象对应的标签集合;
S72:获取目标账户的账户ID;
S73:将标签集合中的各个标签进行嵌入处理,得到各个标签对应的特征向量;
S74:将目标账户的账户ID进行嵌入处理,得到账户信息向量;
S75:基于预设映射方式将账户信息向量进行映射得到账户特征向量,并将账户特征向量进行归一化处理得到注意力特征;
S76:响应目标对象输入的搜索请求;
S77:根据各个目标对象对应的目标标签确定各个目标对象与搜索请求的匹配度;根据各个目标对象对应的匹配度,从各个目标对象中选取至少一个目标对象向目标账户进行展示;
S76’:根据注意力特征中各个标签对应的权重,对将各个标签进行嵌入处理得到的特征向量进行加权求和,得到注意力加权特征;
S77’:根据各个目标对象对应的注意力加权特征,获取目标账户对各个目标对象的第一预估点击率;根据各个目标对象对应的第一预估点击率,从各个目标对象中选取至少一个目标对象向目标账户进行展示。
需要说明的是,S71与S72在时间上可以不用详细区分,可同时执行;S73与S74同理。
其中,S76~S77和S76’~S77’为本公开实施例中列举的两种不同形式的目标对象元信息在不同场景下的应用,其中S76~S77为搜索场景,S76’~S77’为推荐场景。
图8是根据一示例性实施例示出的一种信息提取装置800框图。参照图8,该装置包括获取单元801,权重确定单元802和元信息提取单元803。
获取单元801,被配置为执行获取目标对象对应的标签集合以及目标账户的账户信息,其中标签集合包括至少两个用于描述对象的标签;
权重确定单元802,被配置为执行基于预设映射方式,获取根据账户信息映射得到的注意力特征,其中注意力特征包含标签集合中各个标签对应的权重,预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
元信息提取单元803,被配置为执行根据注意力特征以及标签集合,确定目标账户对应的目标对象元信息。
在一种可选的实施方式中,权重确定单元802具体被配置为执行:
将账户信息进行嵌入处理,得到目标账户的账户信息向量;
根据预设映射方式将账户信息向量映射为账户特征向量,其中账户特征向量的维数与标签集合中标签的数量相同;
将账户特征向量进行归一化处理,得到注意力特征。
在一种可选的实施方式中,标签集合中的各个标签是按照预设排序方式排列的;
元信息提取单元803具体被配置为执行:
根据注意力特征中各个标签对应的权重,对各个标签进行筛选获得至少一个目标标签,并将目标标签作为目标对象元信息;或
根据注意力特征中各个标签对应的权重,对各个标签进行排序,并将排序结果作为目标对象元信息;或
根据注意力特征中各个标签对应的权重,对将各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为目标对象元信息。
在一种可选的实施方式中,装置还包括:
第一应用单元804,被配置为执行在原信息提取模块将目标标签作为目标对象的元信息之后,响应目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与搜索请求的匹配度;
根据各个目标对象对应的匹配度,从各个目标对象中选取至少一个目标对象向目标账户进行展示。
在一种可选的实施方式中,第一应用单元804具体被配置为执行:
针对任意一个目标对象,确定目标对象对应的各个目标标签与搜索请求的匹配度;
将各个目标标签对应的权重对各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为目标对象对应的匹配度。
在一种可选的实施方式中,装置还包括:
第二应用单元805,被配置为执行在元信息提取单元803将注意力加权特征作为对象元信息之后,根据各个目标对象对应的注意力加权特征,获取目标账户对各个目标对象的第一预估点击率;
根据各个目标对象对应的第一预估点击率,从各个目标对象中选取至少一个目标对象向目标账户进行展示。
在一种可选的实施方式中,第二应用单元805具体被配置为执行:
分别将各个目标对象对应的注意力加权特征与目标账户的账户信息向量进行拼接,得到与各个目标对象对应的目标特征向量;
分别将各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取点击率预估模型输出的各个目标对象对应的第一预估点击率。
在一种可选的实施方式中,获取单元801具体被配置为执行:
获取目标对象对应的至少一个第一标签以及文档描述信息;
将文档描述信息通过分词处理得到至少一个第二标签;
将第一标签和第二标签去重后,组合生成标签集合。
在一种可选的实施方式中,装置还包括:
学习单元806,被配置为执行通过下列方式确定预设映射方式:
对初始的预设映射方式对应的映射参数进行多轮调整,其中初始的预设映射方式对应的映射参数是预先设定的,每轮调整都执行下列过程:
基于样本对象对应的标签集合中标签的数量以及预设映射方式,获取根据样本账户的样本账户信息映射得到的预估注意力特征;
根据预估注意力特征,对样本对象对应的标签集合中各个标签对应的样本特征向量进行加权求和,得到预估注意力加权特征;
根据预估注意力加权特征以及样本账户的样本账户信息向量,确定样本账户对样本对象的第二预估点击率;
将第二预估点击率与根据样本账户对应的历史行为确定的真实点击率进行对比,基于比对结果调整预设映射方式对应的映射参数。
在一种可选的实施方式中,学习单元806具体被配置为执行:
将样本账户信息进行嵌入处理,得到样本账户的样本账户信息向量;
根据预设映射方式将样本账户信息向量映射为样本账户特征向量,其中样本账户特征向量的维数与样本对象对应的标签集合中标签的数量相同;
将样本账户特征向量进行归一化处理,得到预估注意力特征。
在一种可选的实施方式中,样本对象对应的标签集合中各个标签对应的样本特征向量是对通过嵌入处理得到的。
关于上述实施例中的装置,其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种电子设备900的框图,该装置包括:
处理器901;
用于存储处理器901可执行指令的存储器902;
其中,处理器901被配置为执行指令,以实现本公开实施例中的信息提取方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器902,上述指令可由电子设备900的处理器901执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一些可能的实施方式中,本公开实施例还提供一种计算装置,可以至少包括至少一个处理单元、以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述描述的根据本公开各种示例性实施方式的服务调用方法中的步骤。例如,处理单元可以执行如图3中所示的步骤。
下面参照图10来描述根据本公开的这种实施方式的计算装置100。图10的计算装置100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10,计算装置100以通用计算装置的形式表现。计算装置100的组件可以包括但不限于:上述至少一个处理单元101、上述至少一个存储单元102、连接不同系统组件(包括存储单元102和处理单元101)的总线103。
总线103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储器(ROM)1023。
存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置100交互的设备通信,和/或与使得该计算装置100能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算装置100还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器106通过总线103与用于计算装置100的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本公开提供的信息提取方法的每个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的信息提取方法中的步骤,例如,计算机设备可以执行如图3中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本公开的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由上面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种信息提取方法,其特征在于,包括:
获取目标对象对应的标签集合以及目标账户的账户信息,其中所述标签集合包括至少两个用于描述对象的标签;
基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,其中所述注意力特征包含所述标签集合中各个标签对应的权重,所述预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
根据所述注意力特征以及所述标签集合,确定所述目标账户对应的目标对象元信息。
2.如权利要求1所述的方法,其特征在于,所述基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,包括:
将所述账户信息进行嵌入处理,得到所述目标账户的账户信息向量;
根据所述预设映射方式将所述账户信息向量映射为账户特征向量,其中所述账户特征向量的维数与所述标签集合中标签的数量相同;
将所述账户特征向量进行归一化处理,得到所述注意力特征。
3.如权利要求2所述的方法,其特征在于,所述标签集合中的各个标签是按照预设排序方式排列的;
所述根据所述注意力特征以及所述标签集合,确定与所述目标账户对应的目标对象元信息,包括:
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行筛选获得至少一个目标标签,并将所述目标标签作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对所述各个标签进行排序,并将排序结果作为所述目标对象元信息;或
根据所述注意力特征中所述各个标签对应的权重,对将所述各个标签进行嵌入处理得到的特征向量进行加权求和,并将加权求和得到的注意力加权特征作为所述目标对象元信息。
4.如权利要求3所述的方法,其特征在于,在所述将所述目标标签作为所述目标对象的元信息之后,还包括:
响应所述目标对象输入的搜索请求,根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度;
根据所述各个目标对象对应的匹配度,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
5.如权利要求4所述的方法,其特征在于,所述根据各个目标对象对应的目标标签确定各个目标对象与所述搜索请求的匹配度,包括:
针对任意一个目标对象,确定所述目标对象对应的各个目标标签与所述搜索请求的匹配度;
根据所述各个目标标签对应的权重对所述各个目标标签对应的匹配度进行加权平均,将加权平均后得到的匹配度作为所述目标对象对应的匹配度。
6.如权利要求3所述的方法,其特征在于,在所述将所述注意力加权特征作为对象元信息之后,还包括:
根据各个目标对象对应的注意力加权特征,获取所述目标账户对所述各个目标对象的第一预估点击率;
根据各个目标对象对应的第一预估点击率,从所述各个目标对象中选取至少一个目标对象向所述目标账户进行展示。
7.如权利要求6所述的方法,其特征在于,所述根据所述注意力加权特征获取所述目标账户对所述目标对象的第一预估点击率,包括:
分别将所述各个目标对象对应的注意力加权特征与所述目标账户的账户信息向量进行拼接,得到与所述各个目标对象对应的目标特征向量;
分别将所述各个目标对象对应的目标特征向量输入已训练的点击率预估模型,获取所述点击率预估模型输出的所述各个目标对象对应的第一预估点击率。
8.一种信息提取装置,其特征在于,包括:
获取单元,被配置为执行获取目标对象对应的标签集合以及目标账户的账户信息,其中所述标签集合包括至少两个用于描述对象的标签;
权重确定单元,被配置为执行基于预设映射方式,获取根据所述账户信息映射得到的注意力特征,其中所述注意力特征包含所述标签集合中各个标签对应的权重,所述预设映射方式是根据样本账户对应的样本对象的历史行为确定的;
元信息提取单元,被配置为执行根据所述注意力特征以及所述标签集合,确定所述目标账户对应的目标对象元信息。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至权利要求7中任一项所述的信息提取方法。
10.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388074.2A CN111625715B (zh) | 2020-05-09 | 2020-05-09 | 信息提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388074.2A CN111625715B (zh) | 2020-05-09 | 2020-05-09 | 信息提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625715A true CN111625715A (zh) | 2020-09-04 |
CN111625715B CN111625715B (zh) | 2022-04-22 |
Family
ID=72272804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010388074.2A Active CN111625715B (zh) | 2020-05-09 | 2020-05-09 | 信息提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625715B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163164A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 一种用户标签确定方法和相关装置 |
CN112380356A (zh) * | 2020-11-30 | 2021-02-19 | 百度国际科技(深圳)有限公司 | 用于构建配餐知识图谱的方法、装置、电子设备及介质 |
CN113076487A (zh) * | 2021-04-30 | 2021-07-06 | 北京爱奇艺科技有限公司 | 一种用户兴趣表征及内容推荐方法、装置和设备 |
CN113379449A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源召回方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334539A (zh) * | 2017-12-15 | 2018-07-27 | 努比亚技术有限公司 | 对象推荐方法、移动终端及计算机可读存储介质 |
US20180357225A1 (en) * | 2017-06-13 | 2018-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium |
CN109543714A (zh) * | 2018-10-16 | 2019-03-29 | 北京达佳互联信息技术有限公司 | 数据特征的获取方法、装置、电子设备及存储介质 |
CN111125495A (zh) * | 2019-12-19 | 2020-05-08 | 京东方科技集团股份有限公司 | 一种信息推荐方法、设备及存储介质 |
-
2020
- 2020-05-09 CN CN202010388074.2A patent/CN111625715B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357225A1 (en) * | 2017-06-13 | 2018-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium |
CN108334539A (zh) * | 2017-12-15 | 2018-07-27 | 努比亚技术有限公司 | 对象推荐方法、移动终端及计算机可读存储介质 |
CN109543714A (zh) * | 2018-10-16 | 2019-03-29 | 北京达佳互联信息技术有限公司 | 数据特征的获取方法、装置、电子设备及存储介质 |
CN111125495A (zh) * | 2019-12-19 | 2020-05-08 | 京东方科技集团股份有限公司 | 一种信息推荐方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王学斌: "一种基于深度偏好网络的点击率预估模型的设计与评价", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163164A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 一种用户标签确定方法和相关装置 |
CN112163164B (zh) * | 2020-10-16 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种用户标签确定方法和相关装置 |
CN112380356A (zh) * | 2020-11-30 | 2021-02-19 | 百度国际科技(深圳)有限公司 | 用于构建配餐知识图谱的方法、装置、电子设备及介质 |
CN113076487A (zh) * | 2021-04-30 | 2021-07-06 | 北京爱奇艺科技有限公司 | 一种用户兴趣表征及内容推荐方法、装置和设备 |
CN113076487B (zh) * | 2021-04-30 | 2024-03-08 | 北京爱奇艺科技有限公司 | 一种用户兴趣表征及内容推荐方法、装置和设备 |
CN113379449A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 多媒体资源召回方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111625715B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11893071B2 (en) | Content recommendation method and apparatus, electronic device, and storage medium | |
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
EP3717984B1 (en) | Method and apparatus for providing personalized self-help experience | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
EP2973038A1 (en) | Classifying resources using a deep network | |
CN113705299A (zh) | 一种视频识别的方法、装置及存储介质 | |
CN111382361A (zh) | 信息推送方法、装置、存储介质和计算机设备 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
US11822590B2 (en) | Method and system for detection of misinformation | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN114580533A (zh) | 特征提取模型的训练方法、装置、设备、介质及程序产品 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN114741587A (zh) | 一种物品推荐方法、装置、介质及设备 | |
CN111897943A (zh) | 会话记录搜索方法、装置、电子设备及存储介质 | |
CN113792163B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 | |
Chen et al. | Expert2Vec: distributed expert representation learning in question answering community | |
CN116957685A (zh) | 广告推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |