CN115239429A

CN115239429A - 属性信息编码方法及其装置、设备、介质、产品

Info

Publication number: CN115239429A
Application number: CN202210907273.9A
Authority: CN
Inventors: 葛莉
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-25

Abstract

本申请涉及属性信息编码方法及其装置、设备、介质、产品，所述方法包括：获取数据集中多个属性样本，属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，属性类别为其成员属性的类别空间中的成员类别；统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵；初始化词嵌入矩阵，其中包含属性空间下全量属性项相对应的词向量，词向量包括前缀向量和后缀向量，前缀向量为相应的属性项的成员属性的独热编码向量，后缀向量为随机向量；以任意两个属性项的词向量拟合共现词频矩阵中该两个属性项的共现词频，修正词向量。本申请能将属性信息表示为低维稠密向量。

Description

属性信息编码方法及其装置、设备、介质、产品

技术领域

本申请涉及信息编码技术领域，尤其涉及一种属性信息编码方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

互联网领域所采集的数据中，常常有类别型的属性信息，譬如：男女、地区、爱好等，这些数据在实施很多应用场景的算法建模之前，需要转化为数值型，特别常见的，是将属性信息进行向量化表示，即用一组数值来表示每一个类别。电商领域涉及到的属性信息尤甚，譬如，在描述服饰类商品的样本数据时，与材质、颜色、风格等相关的属性信息便非常丰富。这些属性信息作为描述服饰类商品的重要维度，常常需要作为一些应用场景的算法模型的输入特征，这样的应用场景包括但不限于：相似商品推荐、用户感兴趣商品推荐、商品销量预估、商品广告的点击率预估。

属性类别向量化表示的通常的做法是：将多类别的属性特征先用数字编码，然后采用独热编码，得到每一个类别对应的向量表示。以独热编码表示属性信息的做法至少存在两个突出的问题：

一是维度灾难，这样表示的向量非常稀疏，会给训练和存储过程造成巨大的开销，甚至会影响算法模型的选型、泛化能力和收敛性。例如，在电商平台中，服装的“材质”属性就需要成千上万维的向量。

二是向量之间无法衡量相似性，因为每个向量都是正交的，无论采用欧式距离还是余弦距离等常用相似度衡量算法，任意两个向量的相似度都为0。例如，服装的“颜色”属性中的“红色”向量和“中国红”向量的相似度，与“红色”和“蓝色”的向量之间的相似度相同，这显然是不符合认知的，表明独热编码向量往往无法有效衡量两个数据之间数据距离，影响到下游任务的正确执行。

以上可知，能否对属性信息进行有效的编码处理，影响到数据挖掘的有效性和计算机系统资源的高效利用，因而，值得进一步探索。

发明内容

本申请的目的在于解决上述问题而提供一种属性信息编码方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、

适应本申请的各个目的，采用如下技术方案：

一个方面，适应本申请的目的之一而提供一种属性信息编码方法，包括：

获取数据集，其中包括多个属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；

统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵；

初始化词嵌入矩阵，其中包含所述属性空间下全量属性项相对应的词向量，每个词向量包括前缀向量和后缀向量，所述前缀向量为相应的属性项的成员属性的独热编码向量，所述后缀向量为随机向量；

以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量。

另一方面，适应本申请的目的之一而提供一种属性信息编码装置，包括：

样本调用模块，用于获取数据集，其中包括多个属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；

词频统计模块，用于统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵；

属性嵌入模块，用于初始化词嵌入矩阵，其中包含所述属性空间下全量属性项相对应的词向量，每个词向量包括前缀向量和后缀向量，所述前缀向量为相应的属性项的成员属性的独热编码向量，所述后缀向量为随机向量；

向量修正模块，用于以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的属性信息编码方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的属性信息编码方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述属性信息编码方法的步骤。

相对于现有技术，本申请取得多方面优势，包括但不限于：

首先，不同于采用独热编码将属性信息表示为高维稀疏向量的方式，本申请基于一个给定的属性空间内的全量属性项确定其共现词频，在初始化的词向量的基础上，对两两属性项之间的共现词频进行拟合，通过数据拟合修正词向量，来获得各个属性项相对应的词向量，该词向量是低维稠密向量，后续需要针对某个属性项获取其词向量时，直接词嵌入矩阵中查询出即可。

其次，由于本申请在初始化表示各处属性项的词向量时，还进一步结合了属性项相对应的成员属性的独热编码作为词向量中的前缀向量，使得相同属性项的词向量在初始化阶段能够获得更相近的向量表示，最终所获得的词向量是低维稠密向量，相对于完全采用独热编码表示属性项获得高维稀疏向量来说，本申请一方面能够有效避免维度灾难，可以节省系统开销和存储空间，提升属性信息的词向量对各种机器学习模型的普遍适应性，协助各种模型快速训练至收敛，节省各种模型的实现成本；另一方面，本申请所获得的属性信息的词向量之间可以通过计算数据距离有效衡量相似度，方便直接比较结果，有助于词向量之间的相似匹配计算。

此外，在电商信息技术领域应用本申请的技术方案，由于商品信息中存在大量的属性信息，可以高效地实现对商品信息的有效语义表征，使商品信息的向量化表示更为精准高效，方便取得数据挖掘成效，能够确保诸如相似商品推荐、用户感兴趣商品推荐、商品销量预估、商品广告的点击率预估等下游任务获得有效的基础信息，确保这些下游任务取得精准高效的处理结果。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的属性信息编码方法的一种实施例的流程示意图。

图2为本申请实施例中确定共现词频矩阵的流程示意图。

图3为本申请实施例中初始化词嵌入矩阵的流程示意图。

图4为本申请实施例中采用数学模型修正词向量的流程示意图。

图5为本申请实施例中利用词嵌入矩阵确定属性信息的属性向量的流程示意图。

图6为本申请实施例中将属性信息的属性向量用于执行分类任务的流程示意图。

图7为本申请的属性信息编码装置的原理框图；

图8为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种属性信息编码方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现。

请参阅图1，本申请的属性信息编码方法在其一种实施例中，通过采用包含属性样本的数据集来制备一个充当编码词表的词嵌入矩阵，使该词嵌入矩阵中包含属性项到其词向量之间的映射关系数据，包括如下步骤：

步骤S1100、获取数据集，其中包括多个属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；

预备一个数据集，所述数据集中包含预先采集的足量的属性样本，以便足以涵盖预设的属性空间中的全部属性项。

一种实施例中，每个属性样本可以对应预设的属性空间而包含该属性空间内所有成员属性相对应的属性项，例如，当属性样本为电商平台中的目标商品的商品信息时，为了描述每个商品的属性信息，会预先定义一个属性空间，该属性空间包括确定的多个成员属性，例如服装商品的“材质”、“颜色”等不同成员属性，由此，相应的属性样本中，对应各个成员属性，提供一个相应的属性项。

其他实施例中，也允许部分属性样本所包含的成员属性与其他部分属性样本所包含的成员属性不全等，只要所采集的属性样本的数量足够丰富，足以使根据这些属性样本而提取的共现词频分布具有代表性即可。

每个属性项中，可以采用其相应的成员属性的属性名称加上对应的属性类别进行表示，例如，对于红色衣服，可以在属性名称“颜色”的基础上关联其属性类别“红色”构成“颜色|红色”，作为对属性项的文字表示。不难理解，对应每个成员属性预先定义有一个类别空间，每个类别空间包括多个成员类别。在表示一个属性项时，以该属性项对应的成员属性的属性名称结合该属性名称所指向的类别空间中的一个成员类别作为属性类别，以“属性名称+属性类别”构成属性项。可见，类别空间与成员属性一一对应，每个类别空间均包含其自身相对应的成员类别集合。

一般来说，在构造所述的属性样本时，其中每个属性项所指向的成员属性，其对应的属性类别有且只有一个。对于单个成员属性包含有多个属性类别的情况，随机确定其中之一即可，使得每个属性项中仅包含单独一个属性类别。当然，如果属性信息中一个成员属性对应具有多个属性类别，可以相应派生出多个属性项，将这些属性项跟其他属性项相结合，而派生出多个属性样本，可以丰富整个数据集的总量。由此可见，根据本申请的一个实施例，数据集中的每个属性样本，包含有若干个属性项，每个属性项对应所述属性空间中的唯一一个成员属性，且该属性项有且只有一个属性类别，属于所述成员属性相对应的类别空间中的成员类别。

对于所述属性空间而言，由于其具有多个成员属性，且每个成员属性对应一个类别空间，每个类别空间包含多个成员类别，由成员属性的属性名称与该成员属性所指向的类别空间中的一个成员类别相结合构成一个属性项，根据这样的原理，不难理解，如果按照属性类别为末端节点对属性空间的各个属性项进行展开，可以获得属性空间下的全量属性项，其总数便是所有属性类别的总数。

步骤S1200、统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵；

为了基于所述数据集中的所有属性样本，确定所述属性空间下，任意两两属性项之间的关联信息，一个实施例中，基于所述数据集中的所有属性样本内的属性项进行统计，统计出其中任意两个属性项之间的共现词频。

所述属性空间下的全部属性项之间的共现词频，构成一个概率分布，即共现词频分布，为了便于后续调用，一种实施例中，可采用一个共现词频矩阵来表示所述该共现词频分布，具有可按照全量属性项为行和列，在行列相对应的元素处存储行和列相对应的属性项的共现词频。至此，便实现基于所述数据集中的各个属性样本，对所述属性空间中的各个属性项之间的关联信息的特征表示，可以在后续用于作为数据拟合的参考信息。

步骤S1300、初始化词嵌入矩阵，其中包含所述属性空间下全量属性项相对应的词向量，每个词向量包括前缀向量和后缀向量，所述前缀向量为相应的属性项的成员属性的独热编码向量，所述后缀向量为随机向量；

为了表示各个属性项的词向量，可以先初始化一个词嵌入矩阵，使该词嵌入矩阵中的各个行向量，用做所述属性空间下的一个对应的属性项的词向量。当然，该词向量需要经过数据拟合来固化。

本申请中，在初始化各个属性项的词向量而创建词嵌入矩阵时，在数据结构上，设置每个词向量包括两个部分，分别表示前缀向量和后缀向量，其中，前缀向量的维数等于所述属性空间中所有成员属性的总数，用于存储相应的属性项的独热编码；后缀向量可以人工设定，例如可以是在100至300维之间取任意整数值，以便限定整个词向量的总维数，使其表示为一个低维稠密向量。

在构造每个属性项的词向量中的前缀向量时，采用独热编码的方式实施，可以使得对应相同成员属性的属性项的前缀向量之间的内积为1，而对应不同成员属性的属性项的前缀向量之间的内积为0，对应相同成员属性的属性项在初始化阶段可以获得更相近的向量表示。

在构造每个属性项的词向量中的后缀向量时，可以采用随机值为该后缀向量的各个元素赋值，使各个后缀向量以随机向量进行初始化表示，以便在此基础上实施数据拟合操作。一个实施例中，还可以为每个属性项的词向量配置一个偏置系数，以期提升数据拟合效率。

通过初始化词嵌入矩阵，便确定了所述属性空间中各个属性项相对应的初始化词向量，初始化的词向量尚不具备有效表示属性项的语义的能力，因而可以通过后续的数据拟合步骤来增强其语义表示能力。

步骤S1400、以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量。

在确定了所述的共现词频矩阵和所述的词嵌入矩阵之后，便可通过建模设立数学模型，实现设定预设算法，进行数据拟合操作，通过数据拟合操作，实现对所述词嵌入矩阵中的各个词向量进行修正，在完成数据拟合操作后，固化所述的词嵌入矩阵，将其作为编码词表，用于根据属性项查询出其相对应的词向量，获得属性项的低维稠密向量表示，以便做下游任务的应用。

本申请中，实施数据拟合的原理，在于根据从所述词嵌入矩阵中获取的任意两个属性项的词向量，通过计算两者之间的内积来拟合该两个属性项在所述共现词频矩阵中相对应的共现词频，根据拟合结果与实际的共现词频之间的误差确定损失值，根据该损失值对所述词嵌入矩阵中的相应的词向量进行修正。

通常，可以迭代多次数据拟合过程，来实现对全量属性项的词向量的修正，最终以达到预设条件时，终止迭代。所述的预设条件，可以是用于判断所述数学模型是否达到收敛状态的预设收敛条件，例如，所述预设收敛条件可以预先配置为通过判断所述损失是否达到预设阈值来确认，也可以配置为通过判断迭代次数是否达到预设数值来确认，诸如此类，可以灵活设定。

一个实施例中，根据本申请前文所揭示的实施例，所述词嵌入矩阵中，每个词向量可以通过一个偏置系数来调节，因而，在确定每次迭代的损失值时，可以结合相应的偏置系数计算所述的损失值，并且，在每次迭代修正两个属性项的词向量的过程中，包括修正所述两个属性项的词向量的权重和/或偏置系数。其中，在修正所述词向量时，可设置修正幅度与所述两个属性项的词向量在所述共现词频矩阵中的共现词频成正比，使得共现词频越大，其对应的修正幅度越大，以便以合理的修正步调设置，促使数学模型快速收敛，提升词嵌入矩阵的数据拟合效率，快速产出适于作为属性信息的编码词表的词嵌入矩阵。

根据以上实施例可以看出，本申请具有多方面优势，包括但不限于：

在本申请任意一个实施例的基础上，统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵，请参阅图2，包括：

步骤S1210、采用自然数值作为索引特征对属性空间下全量属性项进行有序编码，获得各个属性项与其索引特征之间的映射关系数据；

为了给所述属性空间下的各个属性项赋予特征值，本实施例中，采用自然数值作为索引特征，用于标示所述属性空间下的各个属性项，建立各个属性项与其相应的索引特征之间的映射关系数据，然后将其存储为一个属性索引表，以便查询。

所述的自然数值，可以采用正整数，例如从0开始进行渐增表示，示例而言，按照上述方式，可以获得属性索引表结构示例如下：

{1:“A属性|类别A_1”,2:“A属性|类别A_2”,……,N:“X属性|类别X_1”,N+1:“X属性|类别X_2”,……}

根据该示例性结构，不难理解，描述服饰类商品的属性项与其索引特征之间的映射关系数据集可以示例性表示为：

{1:“材质|纯棉”,……，5000:“版型|宽松”,……,10001:“风格|休闲”,……}

步骤S1220、根据所述映射关系数据查找获得每个属性样本的样本向量，其中每个属性项表示为其相对应的索引特征；

当需要确定一个属性样本的样本向量时，通过查询所述的属性索引表，便可确定出所述属性样本中各个属性项相对应的索引特征，然后将这些索引特征构造为相应的样本向量即可。

结合以上示例，当对一个属性样本进行初步表示时，给定属性样本[“材质|纯棉”，“版型|宽松”，“风格|休闲”，……]，可以获得一个相对应的样本向量如下：

[1,5000,10001,……]

步骤S1230、基于全量属性样本的样本向量，计算所述属性空间下全量属性项中两两属性项之间的共现词频；

经过以上过程，数据集中的每个属性样本，均可获得一个相应的样本向量，至此，便可开始统计所述属性空间下任意两个属性项之间，共同出现在全量属性样本中的次数，即其共现次数，在一种实施例中，可以直接确定所述的共现次数为相应的两个属性项的共现词频。为方便进行后续处理，可将所述共现次数进行最大值归一化，将其表示为给定的数值区间例如[0,1]范围内的数值。

步骤S1240、将所述属性空间下两两属性项之间的共现词频分布表示为共现词频矩阵，其中每个元素表示其所在的行相对应的属性项与其所在的列相对应属性项之间的共现词频。

当所述属性空间下的每两个属性项之间的共现词频均通过以上过程计算确定之后，实际上获得所述属性空间下的所有属性项中两两之间的共现词频分布，据此，可创建一个共现词频矩阵，使其行和列均按照所述属性空间下的全量属性项对应展开，然后，将所述共现词频分布存储于该共现高频矩阵中，使得其中每个元素存储并表示其所在的行相对应的属性项与其所在的列相对应的属性项之间的共现词频。后续通过这一数据结构，便可快速获取任意两个属性项之间的共现词频。

根据以上实施例，不难理解，通过对所述数据集中的全量属性样本进行词频统计，确定所述属性空间下，两两属性项之间的共现词频，抽象出所述属性空间下任意两个属性项之间的关联信息，该关联信息可以作为数据拟合操作的参考信息，为词向量的修正提供了重要的决策基础，通过参考所述的关联信息，可以指导相应的数学模型有效拟合词向量，最终产出有效表示各个属性项的语义的词嵌入矩阵作为用于对属性信息中的属性项进行编码的编码词表。

在本申请任意一个实施例的基础上，初始化词嵌入矩阵，请参阅图3，包括：

步骤S1310、创建词嵌入矩阵，将其各行分别用于表示所述属性空间下各个属性项的词向量，使每个词向量包括前缀向量和后缀向量；

为了初始化实现对所述属性空间下的各个属性项的词向量的初始化，以方便通过数据拟合来产出有效表示所述属性项的语义的词向量，先对应全量属性项创建一个空的词嵌入矩阵，其行数与所述属性空间下的属性项的总数相对应，使每一行用于对应单独一个属性项，每一行由多个列相对应的元素构成而表现为一个行向量，该行向量便可用于表示其相应的属性项的词向量。所述词嵌入矩阵的列数，包括两个部分相对应的列数，其中第一部分的列数根据所述属性空间中的成员属性总数设定，一个行向量中，与第一部分相对应的列的元素构成相应的词向量中的前缀向量，可用于存储相应的属性项相对应的成员属性的独热编码；其中第二部分的列数根据预设维数而确定，例如可以设置为100至300维中的任意整数值。

步骤S1320、对所述属性空间中的各个成员属性进行独热编码，将各个属性项相对应的成员属性的独热编码存储为该词嵌入矩阵中相应属性项的前缀向量；

关于所述属性空间中每个成员属性，可以对其进行独热编码处理，也即按照属性空间的成员属性的总数设置独热编码的维数，对成员属性进行排序，按照排序关系，每个成员属性获得的独热编码中，位置与该成员属性的排序关系相对应的元素被赋值为1，其余元素则被赋值为0。不难理解，这种独热编码是稀疏的，但由于每个属性空间中的成员属性总量一般不大，因而，在构造词向量过程中，引入成员属性的独热编码，仍然可以确保整个词向量是低维且稠密的，与此同时，每个属性项的词向量由于均通过初始化包含了其相应的成员属性的独热编码，可以在数据拟合过程中，提供更为丰富的关联信息，使相同成员属性的词向量在语义表示上更为相近，而对不同成员属性的词向量则可扩大差异。

每个属性项均有其对应的成员属性，因而，对于所述词嵌入矩阵中的各个属性项相对应的词向量，相应将每个属性项的成员属性的独热编码存储为其词向量的前缀向量，便可完成对所述词嵌入矩阵的第一部分列的赋值处理。

步骤S1330、采用随机数为所述词嵌入矩阵中各个词向量的后缀向量赋值，所述随机数符合正态分布或均匀分布。

对于所述词嵌入矩阵中，各个属性项相对应的词向量的后缀向量部分，如前所述，可以采用随机数进行赋值。本实施例中，为提升数据拟合效率，可优选符合正态分布或者符合均匀分布的随机数对词嵌入矩阵中的各个词向量的后缀向量进行初始化赋值。

当完成词嵌入矩阵中的各个词向量的前缀向量和后缀向量的赋值之后，便完成对所述词嵌入矩阵的初始化，便可用于启动数据拟合操作。

根据以上实施例可知，通过初始化词嵌入矩阵，借助每个属性项对应的成员属性增强词嵌入矩阵中各个词向量的语义表示空间，使各个词向量之间，对其属性项所属的成员属性的异同进行有效表示，有助于提升数据拟合效率，快速将所述的词嵌入矩阵训练至收敛，高效产出所述词嵌入矩阵作为编码词表。

在本申请任意一个实施例的基础上，以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量，请参阅图4，包括：

步骤S1410、单次或批量调用所述词嵌入矩阵中的任意两个属性项的词向量构成的向量对，输入预建模的数学模型；

本实施例，为了实施对所述词嵌入矩阵中词向量的修正操作，根据传统机器学习原理，通过预建模获得一个数学模型，然后，对该数学模型实施多次迭代训练，在每次迭代训练的过程中，实施对所述词向量的修正。

在每次迭代训练时，可采用所述词嵌入矩阵中的任意两个属性项的词向量构成向量对作为所述数学模型的输入，再由该数学模型执行数据拟合操作，以该两个属性项的词向量所构成的向量对拟合该两个属性项在所述共现词频矩阵中的共现词频。

步骤S1420、由所述数学模型应用预设损失函数，根据所述两个属性项的词向量构成的向量对拟合出该两个属性项的共现词频，与该两个属性项在所述共现词频矩阵中的共现词频计算出损失值；

在建模所述数学模型时，预设一个损失函数，根据该损失函数建模获得所述的数学模型。一种实施例中，所述的损失函数以如下公式表示：

其中，f(X_i,j)是对损失函数中每一个损失项进行加权，原则就是让共现词频较大的损失项对应的权重也较高；i和j表示属性项在词嵌入矩阵中的序号值，而且限定这样的属性项对是共现词频大于一定的预设值的(例如所述共现词频对应表示共现次数大于等于2)；v_i和v_j表示词嵌入矩阵的第i行和第j行的词向量；

表示求取v_i的转置矩阵与v_j的内积；b_i和b_j表示偏置系数向量中第i和第j个数值，vocab表示整个词嵌入矩阵范围。

可选的，f(X_i,j)可以采用如下公式：

当X_i,j<＝2时，f(X_i,j)＝0

当X_i,j>2而且X_i,j<＝xm(xm是常数)时，

当X_i,j>xm时，f(X_i,j)＝1

根据以上示例性的损失函数不难理解，本实施例的数学模型，其本质在于根据每次迭代时所采用的两个属性项的词向量及其偏置系数去拟合该两个属性在所述共现词频矩阵中相对应的共现词频，在这个过程中，借助损失函数计算出相应的损失值，以便根据损失值去更新相应的词向量。理论上，通过遍历所述词嵌入矩阵中每两个属性项构成的属性项对，可以实现对词嵌入矩阵中全部词向量的修正。

步骤S1430、判断所述损失值或迭代次数是否达到预设收敛条件，当未达到预设收敛条件时，根据所述损失值修正所述两个属性项的词向量，继续单次或批量调用所述词嵌入矩阵中的任意两个属性项的词向量对所述数学模型实施迭代训练，直至达到预设收敛条件时终止迭代。

一种方式中，可以采用预设阈值作为预设收敛条件，表示当所述损失值达到所述预设阈值时，便可判断所述数学模型达到收敛状态，否则未达到收敛状态。所述预设阈值例如可以是0，也可以是无限趋近于0的一个极小数值，由本领域技术人员灵活确定即可。

另一种方式中，可以采用预设次数作为预设收敛条件，表示当对数学模型实施迭代训练相对应的迭代次数大于或等于所述预设次数时，便可判断所述数学模型达到收敛状态，否则未达到收敛状态。所述预设次数可以由本领域技术人员根据经验灵活设定。

当所述预设收敛条件被满足时，意味着所述数学模型已经达到收敛状态，也表示其相应的词嵌入矩阵中的各个词向量也已经能够准确表征相应的属性项的语义，因而，可以终止对所述数学模型的训练，在此状态下获得的词嵌入矩阵，可以直接作为编码词表使用，其中包含各个属性项与其相应的词向量的映射关系数据，在该编码词表中，所述属性项可表示为其索引特征。

当所述预设收敛条件未被满足时，意味着所述数学模型未达到收敛状态，所述词嵌入矩阵中的各个词向量也未能有效表征其相应的属性项的语义，因而，可以根据所述损失值对所述数学模型实施梯度更新，通过反向传播修正所述各个权重参数及偏置系数，使相应的词向量得到修正。

在对所述数学模型进行梯度更新以修正各个相应的词向量时，可以单次迭代后便根据所述损失值进行单次修正，也可以是多次迭代后，根据历次获得的损失值的均值进行批量修正，对此，均不影响本申请的创造精神的体现。

根据以上实施例，不难看出，本申请以词嵌入矩阵为基础，参考共现词频矩阵所提供的关联信息，在预建模的数学模型的多次训练过程中，渐次修正词嵌入矩阵中的各个属性项的词向量，最终在数学模型达到收敛状态时，获得有效表示各个属性项的语义的词向量，使所述词嵌入矩阵经训练后可以作为编码词表使用，方便后续直接从该编码词中查询出属性信息中的属性项相应的词向量，避免采用独热编码作为属性项的向量表示，从而可以有效压缩向量维数，避免维度灾难以提升计算机对属性信息的处理效率，节省系统开销和存储开销。

本实施例所采用的数学模型，是较为轻省的传统机器学习模型，无需依赖深度学习模型便可高效快速地将词嵌入矩阵训练至收敛状态而产出有效的编码词表，对于诸如电商平台的商品的属性信息的表示，具有非常基础的贡献作用，其实现成本低，实现效率高。

在本申请任意一个实施例的基础上，其特征在于，以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量之后，请参阅图5，包括：

步骤S2100、获取待处理的属性信息，所述属性信息包括至少一个所述的属性项；

如前所述，所述数学模型被训练至收敛状态后，所述词嵌入矩阵便可作为编码词表用于个别查询各个属性项相对应的词向量。为了执行这样的查询，先确定需要进行编码处理的属性信息。所述的属性信息，不难理解，其包括本申请所述的属性空间和其中各个成员属性相对应的类别空间中的各个成员类别进行穷举拼接可以获得的全量属性项中一个或任意多个，也即，所述属性信息包括一个或多个所述的属性项，每个属性项以其相应的成员属性的属性名称及该成员属性相对应的类别空间中的一个属性类别相拼接而成的文本进行表示。

一个实施例中，所述的属性信息可以是对应电商平台的商品信息库中的一个商品的商品信息而采集的。通常，商品信息按照一定的属性空间所包括的全部成员属性而提供相应的描述信息，针对其中的每个成员属性，也相应提供其对应的成员类别，由此而包括为多个属性项。采集其中目标商品的全部这些属性项，便构成该目标商品相对应的属性信息。

步骤S2200、从所述词嵌入矩阵中查询出所述属性信息的各个属性项相对应的词向量；

由于本申请的属性索引表已经预先存储了本申请的各个可能的属性项与其索引特征之间的映射关系数据，因而，针对所述属性信息中的各个属性项，逐一查询所述的属性索引表，便可确定各个属性项相对应的索引特征。

所述属性信息中的各个属性项的索引特征通过查询确定之后，进一步在所述编码词表中进行查询，利用每个属性项的索引特征，便可查询出编码词表中相对应的词向量，由此而获得各个属性项相对应的词向量。

步骤S2300、将所述各个词向量合并构造为所述属性信息相对应的属性向量。

进而，根据属性信息进行特征表示所需的预设排序，对属性信息中各个属性项相对应的词向量进行顺序拼接，便可获得相应的属性向量。不难理解，该属性向量是由所述的各个词向量排列构成的，其实现对属性信息中各个属性项的有效语义表示，可以用于输入机器学习模型进行进一步的特征处理以挖掘出所述属性信息中的深层语义信息，并且服务于各种下游任务。

根据以上实施例，可以看出，本申请的数学模型被训练至收敛后，所产出的编码词表，可以与所述的属性索引表一起，服务于属性项的词向量个别查询，通过利用属性项、索引特征、词向量三者之间的对应映射关系，可以快速高效地确定属性项的词向量，实现对属性信息的快速语义表征，具有普适性，可替代独热编码方式，而适用于任意机器学习场景。

在本申请任意一个实施例的基础上，将所述各个词向量合并构造为所述属性信息相对应的属性向量之后，请参阅图6，包括：

步骤S2400、将所述属性信息的各个属性向量序列化输入预设的神经网络模型中的特征提取器提取出其深层语义信息，获得深层特征信息；

如前所述的各个实施例中，诸如商品信息之类的属性信息，经过查询所述的编码词表，均可获得一个或多个属性向量，从而可构成属性向量序列。该属性向量序列可以输入预设的机器学习模型中做进一步的处理。

本实施例中，基于神经网络模型搭建一个机器学习模型，所述神经网络模型以文本特征提取器为基础模型，用于从属性信息相对应的属性向量序列中提取其深层语义信息，然后由分类器对所述深层语义信息做分类映射，以确定所述属性信息相对应的类别信息。例如，当所述属性信息采集自目标商品的商品信息时，所述机器学习模型被配置为根据商品信息的属性信息实现对目标商品的分类，以确定出该目标商品属于电商平台预设的品类体系中的具体商品品类。

为此，所述的文本特征提取器，可以采用诸如LSTM、Bert之类的适于处理序列化信息的基础模型来实施，以便根据序列化输入的属性向量，参考上下文，提取出相应的深层特征信息。

步骤S2500、由所述神经网络模型中的分类器将所述深层特征信息映射到分类空间，获得分类空间中各个类别相对应的分类概率；

在经过文本特征提取器获得属性信息相对应的深层特征信息之后，便可由所述的分类器中的全连接层，对所述深层特征信息进行全连接，将其映射到输出层，由输出层中配置的分类函数例如Softmax、Sigmoid等，计算出所述深层特征信息映射到分类器预设的分类空间的各个类别相对应的分类概率，获得分类结果。

步骤S2600、判定分类空间中分类概率最大的类别为所述属性信息的类别信息。

示例而言，适应前述关于利用目标商品的属性信息用于判断其所属的具体商品品类的示例，所述分类器的分类空间，可以对应电商平台预设的品类体系中的所有末级商品品类的总数而设置相应的多个分类，由此，不难理解，其中分类概率最大的分类，其所对应的商品品类，便是所述属性信息所属的目标商品的具体商品品类。由此可见，当获得所述分类空间中的各个类别的分类概率后，便可判定其中分类概率最大的类别，为所述属性信息相对应的类别信息。

当然，本实施例的神经网络模型，事先应采用相应的训练样本进行有监督训练，示例而言，训练样本是商品的商品信息中采集的属性信息，而训练样本相应的监督标签则是该商品所应归属的具体商品品类，经过训练，使所述神经网络模型达致收敛状态后，便可将其用于为各个商品进行快速分类。

根据以上实施例不难理解，本申请所产出的编码词表，具有广泛的应用基础，可以服务于电商平台中的商品的属性信息的向量表示，然后用于执行多种下游任务，包括但不限于相似商品推荐、用户感兴趣商品推荐、商品销量预估、商品广告的点击率预估等下游任务，这些下游任务均可基于本实施例的神经网络模型而实现。

请参阅图7，适应本申请的目的之一而提供一种属性信息编码装置，是对本申请的属性信息编码方法的功能化体现，该装置包括：样本调用模块1100，用于获取数据集，其中包括多个属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；词频统计模块1200，用于统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵；属性嵌入模块1300，用于初始化词嵌入矩阵，其中包含所述属性空间下全量属性项相对应的词向量，每个词向量包括前缀向量和后缀向量，所述前缀向量为相应的属性项的成员属性的独热编码向量，所述后缀向量为随机向量；向量修正模块1400，用于以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量。

在本申请任意一个实施例的基础上，所述词频统计模块1200，包括：数值映射单元，用于采用自然数值作为索引特征对属性空间下全量属性项进行有序编码，获得各个属性项与其索引特征之间的映射关系数据；特征查询单元，用于根据所述映射关系数据查找获得每个属性样本的样本向量，其中每个属性项表示为其相对应的索引特征；词频计算单元，用于基于全量属性样本的样本向量，计算所述属性空间下全量属性项中两两属性项之间的共现词频；分布表示单元，用于将所述属性空间下两两属性项之间的共现词频分布表示为共现词频矩阵，其中每个元素表示其所在的行相对应的属性项与其所在的列相对应属性项之间的共现词频。

在本申请任意一个实施例的基础上，所述属性嵌入模块1300，包括：矩阵创建单元，用于创建词嵌入矩阵，将其各行分别用于表示所述属性空间下各个属性项的词向量，使每个词向量包括前缀向量和后缀向量；前缀处理单元，用于对所述属性空间中的各个成员属性进行独热编码，将各个属性项相对应的成员属性的独热编码存储为该词嵌入矩阵中相应属性项的前缀向量；后缀处理单元，用于采用随机数为所述词嵌入矩阵中各个词向量的后缀向量赋值，所述随机数符合正态分布或均匀分布。

在本申请任意一个实施例的基础上，所述向量修正模块1400，包括：调用输入单元，用于单次调用所述词嵌入矩阵中的任意两个属性项的词向量，输入预建模的数学模型；拟合处理单元，用于由所述数学模型应用预设损失函数，根据所述两个属性项的词向量拟合出该两个属性项的共现词频，与该两个属性项在所述共现词频矩阵中的共现词频计算出损失值；迭代决策单元，用于判断所述损失值或迭代次数是否达到预设收敛条件，当未达到预设收敛条件时，根据所述损失值修正所述两个属性项的词向量，继续单次调用所述词嵌入矩阵中的任意两个属性项的词向量对所述数学模型实施迭代训练，直至达到预设收敛条件时终止迭代。

在本申请任意一个实施例的基础上，所述向量修正模块1400被配置为当其修正所述两个属性项的词向量时，包括修正所述两个属性项的词向量的权重和/或偏置系数，其修正幅度与所述两个属性项的词向量在所述共现词频矩阵中的共现词频成正比。

在本申请任意一个实施例的基础上，后于所述向量修正模块1400，包括：信息获取模块，用于获取待处理的属性信息，所述属性信息包括至少一个所述的属性项；向量查询模块，用于从所述词嵌入矩阵中查询出所述属性信息的各个属性项相对应的词向量；向量构造模块，用于将所述各个词向量合并构造为所述属性信息相对应的属性向量。

在本申请任意一个实施例的基础上，后于所述向量构造模块，包括：特征提取模块，用于将所述属性信息的各个属性向量序列化输入预设的神经网络模型中的特征提取器提取出其深层语义信息，获得深层特征信息；分类映射模块，用于由所述神经网络模型中的分类器将所述深层特征信息映射到分类空间，获得分类空间中各个类别相对应的分类概率；类别判定模块，用于判定分类空间中分类概率最大的类别为所述属性信息的类别信息。

为解决上述技术问题，本申请实施例还提供计算机设备。如图8所示，该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的属性信息编码方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的属性信息编码装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的属性信息编码方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请可以实现对属性信息的高效编码，避免因采用对属性信息进行独热编码所引起的维度灾难，能以低维稠密向量实现对属性信息各个属性项的语义的高效精准表示，并且可以产出方便检索的词嵌入矩阵作为编码词表，为各种机器学习模型处理属性信息提供可靠的基础数据，特别是在电商平台中应用时，方便高效处理商品信息中的各种属性信息，以便基于各种属性信息实现各种各样的下游任务。

Claims

1.一种属性信息编码方法，其特征在于，包括：

2.根据权利要求1所述的属性信息编码方法，其特征在于，统计所有属性样本中每两个属性项的共现词频，获得表示所有属性项的共现词频分布的共现词频矩阵，包括：

采用自然数值作为索引特征对属性空间下全量属性项进行有序编码，获得各个属性项与其索引特征之间的映射关系数据；

根据所述映射关系数据查找获得每个属性样本的样本向量，其中每个属性项表示为其相对应的索引特征；

基于全量属性样本的样本向量，计算所述属性空间下全量属性项中两两属性项之间的共现词频；

将所述属性空间下两两属性项之间的共现词频分布表示为共现词频矩阵，其中每个元素表示其所在的行相对应的属性项与其所在的列相对应属性项之间的共现词频。

3.根据权利要求1所述的属性信息编码方法，其特征在于，初始化词嵌入矩阵，包括：

创建词嵌入矩阵，将其各行分别用于表示所述属性空间下各个属性项的词向量，使每个词向量包括前缀向量和后缀向量；

对所述属性空间中的各个成员属性进行独热编码，将各个属性项相对应的成员属性的独热编码存储为该词嵌入矩阵中相应属性项的前缀向量；

采用随机数为所述词嵌入矩阵中各个词向量的后缀向量赋值，所述随机数符合正态分布或均匀分布。

4.根据权利要求1所述的属性信息编码方法，其特征在于，以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量，包括：

单次或批量调用所述词嵌入矩阵中的任意两个属性项的词向量构成的向量对，输入预建模的数学模型；

由所述数学模型应用预设损失函数，根据所述两个属性项的词向量构成的向量对拟合出该两个属性项的共现词频，与该两个属性项在所述共现词频矩阵中的共现词频计算出损失值；

判断所述损失值或迭代次数是否达到预设收敛条件，当未达到预设收敛条件时，根据所述损失值修正所述两个属性项的词向量，继续单次或批量调用所述词嵌入矩阵中的任意两个属性项的词向量对所述数学模型实施迭代训练，直至达到预设收敛条件时终止迭代。

5.根据权利要求4所述的属性信息编码方法，其特征在于，修正所述两个属性项的词向量的步骤中，包括修正所述两个属性项的词向量的权重和/或偏置系数，其修正幅度与所述两个属性项的词向量在所述共现词频矩阵中的共现词频成正比。

6.根据权利要求1至5中任意一项所述的属性信息编码方法，其特征在于，以任意两个属性项的词向量拟合所述共现词频矩阵中该两个属性项相应的共现词频，修正所述两个属性项的词向量之后，包括：

获取待处理的属性信息，所述属性信息包括至少一个所述的属性项；

从所述词嵌入矩阵中查询出所述属性信息的各个属性项相对应的词向量；

将所述各个词向量合并构造为所述属性信息相对应的属性向量。

7.根据权利要求6所述的属性信息编码方法，其特征在于，将所述各个词向量合并构造为所述属性信息相对应的属性向量之后，包括：

将所述属性信息的各个属性向量序列化输入预设的神经网络模型中的特征提取器提取出其深层语义信息，获得深层特征信息；

由所述神经网络模型中的分类器将所述深层特征信息映射到分类空间，获得分类空间中各个类别相对应的分类概率；

判定分类空间中分类概率最大的类别为所述属性信息的类别信息。

8.一种属性信息编码装置，其特征在于，包括：

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。