CN110674621A

CN110674621A - 一种属性信息填充方法和装置

Info

Publication number: CN110674621A
Application number: CN201810714883.0A
Authority: CN
Inventors: 孟晔; 张瞻; 李聚信; 蒋佳涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2020-01-10
Anticipated expiration: 2038-07-03
Also published as: CN110674621B

Abstract

本发明公开了一种属性信息填充方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据填充对象的描述信息确定填充对象的描述词组；确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性；根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。该实施方式能够准确高效地对填充对象的缺失属性进行填充，降低对人工手动输入的依赖性，通用性好。

Description

一种属性信息填充方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种属性信息填充方法和装置。

背景技术

近年来，不管是用户还是物品，其相关的信息都呈爆炸式发展，例如用户的性别、籍贯、年龄、职业、兴趣爱好、按照不同方式划分的用户标签等，再例如电子商务平台中各类各种商品的种类、价格、生产商等。对用户和物品的属性进行填充有利于后续的统计分析和预测管理。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

(1)数据库中数据噪音严重时各个填充对象的属性值准确性较差；

(2)过分依赖人工手动输入，效率和准确性低。

发明内容

有鉴于此，本发明实施例提供一种属性信息填充方法和装置，能够准确高效地对填充对象的缺失属性进行填充，降低对人工手动输入的依赖性，通用性好。

根据本发明实施例的一个方面，提供了一种属性信息填充方法。

根据本发明实施例的属性信息填充方法，包括：

根据填充对象的描述信息确定填充对象的描述词组；

确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性；

根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。

可选地，根据填充对象的描述信息确定填充对象的描述词组，包括：对填充对象的描述信息进行分词处理得到分词结果；将分词结果与填充对象的已有属性的属性值合并，得到填充对象的描述词组；或者，将填充对象的已有属性的属性值与填充对象的描述信息合并后进行分词处理，得到填充对象的描述词组；其中，已有属性是指不缺失属性值的属性。

可选地，分词处理之后还包括：去除各个分词中的干扰词。

可选地，采用如下公式确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度：

式中，A代表填充对象的缺失属性的预设属性值集合中的属性值；B代表填充对象的描述词组；|A∩B|代表属性值A与填充对象的描述词组B的共有字符串长度；|A|代表属性值A的字符串长度；|B|代表填充对象的描述词组B的字符串长度；ω代表词袋中填充对象的描述词组B的权重，0＜ω≤1；J(A,B)代表填充对象的描述词组B与填充对象的缺失属性的预设属性值集合中属性值A的相似度。

可选地，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度不小于预设相似度阈值，则选取与最高相似度对应的属性值对填充对象的缺失属性进行填充。

可选地，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度小于预设相似度阈值，则采用预测模型预测填充对象的缺失属性的属性值，然后根据预测的属性值对填充对象的缺失属性进行填充；预测模型是采用机器学习算法建立、利用已填充的对象的描述词组作为训练集训练得到的。

可选地，采用多个预测模型预测填充对象的缺失属性的属性值，从预测的多个属性值中选取出现次数最多的属性值对填充对象的缺失属性进行填充。

可选地，对填充对象的缺失属性进行填充之后，还包括：根据填充至填充对象的缺失属性的属性值更新属性值集合；以及采用二部图的形式按照如下步骤对填充对象各个属性的属性值进行校验：

步骤A、缺失值填充：遍历填充对象的描述信息，若存在与更新前待校验属性的属性值集合中的属性值v(i)匹配的分词，则创建一条权重为1的边<k,v(i)>，生成与待校验属性对应的二部图g＝<k,v(i),w(i)>；k代表填充对象的待校验属性，i代表更新前待校验属性的属性值集合中属性值的数量，w(i)代表边<k,v(i)>的权重；

步骤B、错误值校验：遍历填充对象的描述信息，若存在与更新后待校验属性的属性值集合中的属性值v′(j)匹配的分词，如果二部图g＝<k,v(i),w(i)>中不存在边<k,v(j)>，则创建一条权重为1的边<k,v(j)>，否则将边<k,v(j)>的权重增加1，生成新的二部图g′＝<k,v(j),w′(j)>；j代表更新后待校验属性的属性值集合中属性值的数量，w′(j)代表边<k,v(j)>的权重；

步骤C：正确值确认：获取新的二部图g′＝<k,v(j),w′(j)>中具有最大权重maxw′(j)的边，若该边的权重maxw′(j)满足如下条件，则确认填充至填充对象的待校验属性的属性值为正确值；否则，确认填充至填充对象的待校验属性的属性值为错误值：

其中，γ代表保守参数，0≤γ≤1。

可选地，确认填充至填充对象的待校验属性的属性值为错误值之后，还包括：采用该边对应的属性值对填充对象的待校验属性进行重新填充。

根据本发明实施例的再一个方面，提供了一种属性信息填充装置。

根据本发明实施例的属性信息填充装置，包括：

确定模块，根据填充对象的描述信息确定填充对象的描述词组；

匹配模块，确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性；

填充模块，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。

可选地，确定模块根据填充对象的描述信息确定填充对象的描述词组，包括：对填充对象的描述信息进行分词处理得到分词结果；将分词结果与填充对象的已有属性的属性值合并，得到填充对象的描述词组；或者，将填充对象的已有属性的属性值与填充对象的描述信息合并后进行分词处理，得到填充对象的描述词组；其中，已有属性是指不缺失属性值的属性。

可选地，确定模块还用于分词处理之后去除各个分词中的干扰词。

可选地，匹配模块采用如下公式确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度：

可选地，填充模块根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度不小于预设相似度阈值，则选取与最高相似度对应的属性值对填充对象的缺失属性进行填充。

可选地，填充模块根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度小于预设相似度阈值，则采用预测模型预测填充对象的缺失属性的属性值，然后根据预测的属性值对填充对象的缺失属性进行填充；预测模型是采用机器学习算法建立、利用已填充的对象的描述词组作为训练集训练得到的。

可选地，填充模块采用多个预测模型预测填充对象的缺失属性的属性值，从预测的多个属性值中选取出现次数最多的属性值对填充对象的缺失属性进行填充。

可选地，本发明实施例的属性信息填充装置还包括：校验模块，用于对填充对象的缺失属性进行填充之后，根据填充至填充对象的缺失属性的属性值更新属性值集合；以及采用二部图的形式按照如下步骤对填充对象各个属性的属性值进行校验：

步骤B、错误值校验：遍历填充对象的描述信息，若存在与更新后待校验属性的属性值集合中的属性值v(j)匹配的分词，如果二部图g＝<k,v(i),w(i)>中不存在边<k,v(j)>，则创建一条权重为1的边<k,v(j)>，否则将边<k,v(j)>的权重增加1，生成新的二部图g′＝<k,v(j),w′(j)>；j代表更新后待校验属性的属性值集合中属性值的数量，w′(j)代表边<k,v(j)>的权重；

其中，γ代表保守参数，0≤γ≤1。

可选地，填充模块还用于：确认填充至填充对象的待校验属性的属性值为错误值之后，采用该边对应的属性值对填充对象的待校验属性进行重新填充。

根据本发明实施例的另一个方面，提供了一种属性信息填充电子设备。

根据本发明实施例的属性信息填充电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当该一个或多个程序被该一个或多个处理器执行，使得该一个或多个处理器实现本发明实施例第一方面提供的属性信息填充方法。

根据本发明实施例的再一个方面，提供了一种计算机可读介质。

根据本发明实施例的计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例第一方面提供的属性信息填充方法。

上述发明中的一个实施例具有如下优点或有益效果：确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度并根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，能够避免由于填充对象的描述信息存在噪音导致的填充结果不准确的问题，同时降低对人工手动输入的依赖性，通用性好。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的属性信息填充方法的主要流程的示意图；

图2是根据本发明实施例的特征提取的主要步骤的示意图；

图3是根据本发明实施例中对填充至缺失属性的属性值进行校验的主要流程的示意图；

图4是根据本发明实施例的属性信息填充装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的属性信息填充方法的主要流程的示意图。如图1所示，属性信息填充方法，包括：步骤S101、步骤S102和步骤S103。

步骤S101、根据填充对象的描述信息确定填充对象的描述词组。

本发明实施例中的对象可以是人，也可以是物品。填充对象是指至少有一个属性的属性值缺失的对象。填充对象的描述信息是指描述填充对象的有关信息，例如，当填充对象是人时描述信息可以是人物简介，当填充对象是物品时描述信息可以是物品的标题名称等。

根据填充对象的描述信息确定填充对象的描述词组时，可以直接将填充对象的描述信息作为填充对象的描述词组，也可以对填充对象的描述信息进行某种处理以得到描述词组。可选地，根据填充对象的描述信息确定填充对象的描述词组，包括：对填充对象的描述信息进行分词处理得到分词结果；将分词结果与填充对象的已有属性的属性值合并，得到填充对象的描述词组；或者，将填充对象的已有属性的属性值与填充对象的描述信息合并后进行分词处理，得到填充对象的描述词组；其中，已有属性是指不缺失属性值的属性。需要指出的是，合并是指取并集的过程。

某些填充对象的描述信息中可能含有一些与属性填充无关的干扰词，例如当前时间的热门词汇、或者各种填充对象的一些共有信息词汇。这些干扰词对填充结果存在干扰并且还会增加填充过程的复杂程度。鉴于此，分词处理之后还可以包括：去除各个分词中的干扰词。实际应用过程中，可以预先设置干扰词集合，当分词处理之后的各个分词中存在与干扰词集合中系统的词时，将其去除。

步骤S102、确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性。

在执行该步骤之前，可以预先为每个属性设置对应的属性值集合。也可以根据已填充的对象的属性及其属性值生成各个属性的属性值集合。例如，对于属性“性别”，对应的属性值集合可以设置为{男性，女性，未知}；对于属性年龄，对应的属性值集合可以设置为{小于18周岁，大于等于18周岁、小于35周岁，大于等于35周岁、小于60周岁，大于等于60周岁}；对于属性“产地”，对应的属性值集合可以设置为{中国，美国，英国，法国，……}；对于属性“规格”，对应的属性值集合可以设置为{普通包装，瓶装，礼盒装}。属性及其对应的属性值集合可以根据实际情况进行选择性设置，本发明实施例对此不作具体限定。

下表1示出了5种物品各个属性的属性值以及描述词组，其中，每一行对应一种物品，表中NULL代表属性值为空。

表15种物品各个属性的属性值以及描述词组

假设仅有5种物品，则从表种可以看出，属性“产地”的属性值集合为{中国大陆，西班牙}，属性“包装”的属性值集合为{普通装，瓶装，礼盒装}。若要对第一种物品的属性“产地”进行填充，可以分别确定第一种物品的描述词组与属性值集合{中国大陆，西班牙}中每个属性值的相似度。若要对第二种物品的属性“包装”进行填充，可以分别确定第二种物品的描述词组与属性值集合{普通装，瓶装，礼盒装}中每个属性值的相似度。以此类推，可以对第三中物品的属性“产地”进行填充。

本领域技术人员可以根据实际情况选择确定相似度的算法，例如余弦相似性、简单共有词、编辑距离、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离等算法。可选地，采用如下公式确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度：

步骤S103、根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。

现有的属性填充方法当数据库中数据噪音严重时各个填充对象的属性值准确性较差，例如，属性名表达不规范(比如“性别”及“适用性别”)，属性值表达不规范(比如“硕士”及“研究生”)，部分属性的属性值不完全。即使采用人工标注的方式进行属性填充，由于个人行为习惯的不同，也会造成信息异构。本发明实施例中采用字符串匹配算法确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度，然后根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，能够避免由于填充对象的描述信息存在噪音导致的填充结果不准确的问题，同时降低对人工手动输入的依赖性，通用性好。

在一些实施例中，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度不小于预设相似度阈值，则选取与最高相似度对应的属性值对填充对象的缺失属性进行填充。相似度阈值的取值可以根据实际情况进行选择性设定。最高相似度不小于预设相似度阈值时选取与最高相似度对应的属性值进行填充，准确性好。

在另一些实施例中，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度小于预设相似度阈值，则采用预测模型预测填充对象的缺失属性的属性值，然后根据预测的属性值对填充对象的缺失属性进行填充；预测模型是采用机器学习算法建立、利用已填充的对象的描述词组作为训练集训练得到的。最高相似度小于预设相似度阈值时采用预测模型进行预测和填充，能够避免由于属性值集合中属性值不完全(属性值集合中仅包含一部分属性值、缺少另一部分属性值)导致的填充失败。

利用已填充的对象的描述词组作为训练集训练模型时，可以采用TF-TDF算法提取各个对象的特征向量。TF-IDF是NLP中一种用于信息检索与文本挖掘的常用加权技术，其本质上是在为不同的特征训练权重，使得贡献度高的特征被赋予较高的权重。这样的方法可以提高算法的鲁棒性，使得后续分类效果不会因为选取个别表现不佳特征而降低性能。

以下示例性地介绍模型训练的方法：

1)建立词向量：为了提取对象的属性特征，将对象的描述词组转化为机器学习算法可计算的数值类型向量。获取所有已填充的对象的描述词组建立词组集合，用于提取特征。如图2所示，假设共有三个描述词组[我，是，一名，学生]、[我，是，一名，男生]、[我，是，一名，女生]，取三行描述词组中各个词的并集组成词组集合[我，是，一名，学生，男生，女生]，长度为6。

2)特征提取：根据建立的词组集合，按照词组集合中各个词的顺序将每个已填充的对象的描述词组转化为数值类型向量，作为已填充的对象的属性特征。向量每个位置的值代表对应的词的出现次数。如图2所示，三个描述词组对应的属性特征向量分别为：[1，1，1，1，0，0]、[1，1，1，0，1，0]、[1，1，1，0，0，1]。

将所有已填充的对象的描述词组合并为一个词组集合，然后按照词组集合中各个词的顺序将每个已填充的对象的描述词组转化为数值类型向量，便于统计训练样本的描述词组中各个词的出现次数。

3)模型训练：将各个已填充的对象的属性特征作为输入、各个属性的属性值作为输出训练已建立的模型。

只要预测模型能够用于预测属性的属性值即可，本发明实施例对预测模型的建立方式不作具体限定。例如，利用scikit-learn内置的支持向量机(Support VectorMachine，SVM)、朴素贝叶斯(Naive Bayes，NB)、多层感知机(Multilayer Perceptron，MLP)、随机森林(Random Forest，RF)、k最近邻(k-Nearest Neighbors，KNN)等算法建立预测模型。

实际应用过程中，可以采用多个预测模型预测填充对象的缺失属性的属性值，从预测的多个属性值中选取出现次数最多的属性值对填充对象的缺失属性进行填充。例如，采用上述列举的多个算法分别建立预测模型以预测缺失属性的属性值，统计各个预测的属性值的出现次数，选取出现次数最多的属性值对填充对象的缺失属性进行填充。当出现次数最多的属性值不止一个，可以从中随机选取一个进行填充。

对填充对象的缺失属性进行填充之后，还可以包括：根据填充至填充对象的缺失属性的属性值更新属性值集合；以及采用二部图的形式按照如下步骤对填充对象各个属性的属性值进行校验：

步骤B、错误值校验：遍历填充对象的描述信息，若存在与更新后待校验属性的属性值集合中的属性值v(j)匹配的分词，如果二部图g＝<k,v(i),w(i)>中不存在边<k,v(j)>，则创建一条权重为1的边<k,v(j)>，否则将边<k,v(j)>的权重增加1，生成新的二部图g′＝<k,v(j),w′(j>；j代表更新后待校验属性的属性值集合中属性值的数量，w′(j)代表边<k,v(j)>的权重；

其中，γ代表保守参数，0≤γ≤1。

可选地，确认填充至填充对象的待校验属性的属性值为错误值之后，还包括：采用该边对应的属性值对填充对象的待校验属性进行重新填充。γ越大，在重新填充时越保守。对填充的属性值进行校验，能够进一步提高填充的准确性。

图3是根据本发明实施例中对填充至缺失属性的属性值进行校验的主要流程的示意图。以下结合图3对本发明实施例的校验流程进行示例性说明：

(1)将填充对象的属性表(各个属性以及对应的属性值)转化为二部图的形式，如图3中的框体(a)，其中k1、k2和k3代表填充对象的缺失属性。为了便于说明，图3的属性表中省略了已知属性及其属性值；

(2)缺失值填充：

对属性k1进行填充：遍历填充对象的描述信息，若存在与更新前属性k1的属性值集合中的属性值v1(i)匹配的分词，则创建一条权重为1的边<k1,v1(i)>；i代表更新前的属性值集合中属性值的数量；

对属性k2进行填充：遍历填充对象的描述信息，若存在与更新前属性k2的属性值集合中的属性值v2(i)匹配的分词，则创建一条权重为1的边<k2,v2(i)>；

对属性k3进行填充：遍历填充对象的描述信息，若存在与更新前属性k3的属性值集合中的属性值v3(i)匹配的分词，则创建一条权重为1的边<k3,v3(i)>；

本步骤结束后生成与缺失属性对应的二部图g＝<kx,vx(i),wx(i)>；x代表填充对象的缺失属性的编号，x＝1、2、3；wx(i)代表边<kx,vx(i)>的权重；

如图3所示(b)，本步骤结束后，填充对象的缺失属性k1填充一个属性值，缺失属性k2填充一个属性值，缺失属性k3填充两个属性值；

(3)错误值校验：

对属性k1进行错误值校验：遍历填充对象的描述信息，若存在与更新后属性k1的属性值集合中的属性值v1(j)匹配的分词，如果二部图g＝<kx,vx(i),wx(i)>中不存在边<k1,v1(j)>，则创建一条权重为1的边<k1,v1(j)>，否则将边<k1,v1(j)>的权重增加1；j代表更新后的属性值集合中属性值的数量；

对属性k2进行错误值校验：遍历填充对象的描述信息，若存在与更新后属性k2的属性值集合中的属性值v2(j)匹配的分词，如果二部图g＝<kx,vx(i),wx(i)>中不存在边<k2,v2(j)>，则创建一条权重为1的边<k2,v2(j)>，否则将边<k2,v2(j)>的权重增加1；j代表更新后的属性值集合中属性值的数量；

对属性k3进行错误值校验：遍历填充对象的描述信息，若存在与更新后属性k3的属性值集合中的属性值v3(j)匹配的分词，如果二部图g＝<kx,vx(i),wx(i)>中不存在边<k3,v3(j)>，则创建一条权重为1的边<k3,v3(j)>，否则将边〈k3,v3(j)〉的权重增加1；j代表更新后的属性值集合中属性值的数量；

本步骤结束后生成新的二部图g′＝〈kx,vx(j),wx′(j)〉；wx′(j)代表边〈kx,vx(j)〉的权重；

如图3所示(c)，本步骤结束后，填充对象的缺失属性k1增加一个属性值，缺失属性k2和k3的属性值保持不变；

(4)正确值确认：

对属性k1进行正确值确认：获取新的二部图g′＝<kx,vx(j),wx′(j)>中属性k1具有最大权重的边，若该边的权重满足公式1，则确认步骤S103中填充至属性k1的属性值为正确值；否则，确认步骤S103中填充至属性k1的属性值为错误值，采用该边对应的属性值对属性k1进行重新填充；

对属性k2进行正确值确认：获取新的二部图g′＝<kx,vx(j),wx′(j)>中属性k2的边，若该边的权重满足公式1，则确认步骤S103中填充至属性k2的属性值为正确值；否则，确认步骤S103中填充至属性k2的属性值为错误值，采用该边对应的属性值对属性k2进行重新填充；

对属性k3进行正确值确认：获取新的二部图g′＝<kx,vx(j),wx′(j)>中属性k3具有最大权重的边，若该边的权重满足公式1，则确认步骤S103中填充至属性k3的属性值为正确值；否则，确认步骤S103中填充至属性k3的属性值为错误值，采用该边对应的属性值对属性k3进行重新填充；

本步骤的填充结果如图3(d)所示。

需要说明的是，本发明实施例的校验方法不仅仅适用于缺失属性的校验，也适用于已知属性的校验，从而检验已知属性的属性值是否存在错误。具体校验步骤参见图3对应的文字介绍，此处不再赘述。

图4是根据本发明实施例的属性信息填充装置的主要模块的示意图。如图4所示，属性信息填充装置400，包括：

确定模块401，根据填充对象的描述信息确定填充对象的描述词组；

匹配模块402，确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性；

填充模块403，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。

可选地，确定模块还用于：分词处理之后去除各个分词中的干扰词。

可选地，本发明实施例的属性信息填充装置还包括：校验模块404，用于对填充对象的缺失属性进行填充之后，根据填充至填充对象的缺失属性的属性值更新属性值集合；以及采用二部图的形式按照如下步骤对填充对象各个属性的属性值进行校验：

步骤B、错误值校验：遍历填充对象的描述信息，若存在与更新后待校验属性的属性值集合中的属性值v′(j)匹配的分词，如果二部图g＝<k,v(i),w(i)>中不存在边<k,v′(j)>，则创建一条权重为1的边<k,v′(j)>，否则将边<k,v′(j)>的权重增加1，生成新的二部图g′＝<k,v′(j),w′(j)>；j代表更新后待校验属性的属性值集合中属性值的数量，w′(j)代表边<k,v′(j)>的权重；

步骤C：正确值确认：获取新的二部图g′＝<k,v′(j),w′(j)>中具有最大权重maxw′(j)的边，若该边的权重maxw′(j)满足如下条件，则确认填充至填充对象的待校验属性的属性值为正确值；否则，确认填充至填充对象的待校验属性的属性值为错误值：

其中，γ代表保守参数，0≤γ≤1。

根据本发明实施例的属性信息填充电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图5示出了可以应用本发明实施例的属性信息填充方法或属性信息填充装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的属性信息填充方法一般由服务器505执行，相应地，属性信息填充装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括：确定模块，根据填充对象的描述信息确定填充对象的描述词组；匹配模块，确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；填充模块，根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，确定模块还可以被描述为“确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据填充对象的描述信息确定填充对象的描述词组；确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，缺失属性是指缺失属性值的属性；根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充。

根据本发明实施例的技术方案，具有如下优点或有益效果：确定填充对象的描述词组与填充对象的缺失属性的预设属性值集合中各个属性值的相似度并根据属性值集合中各个属性值与填充对象的描述词组的相似度对填充对象的缺失属性进行填充，能够避免由于填充对象的描述信息存在噪音导致的填充结果不准确的问题，同时降低对人工手动输入的依赖性，通用性好。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种属性信息填充方法，其特征在于，包括：

根据填充对象的描述信息确定填充对象的描述词组；

确定所述填充对象的描述词组与所述填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，所述缺失属性是指缺失属性值的属性；

根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充。

2.如权利要求1所述的方法，其特征在于，所述根据填充对象的描述信息确定填充对象的描述词组，包括：

对所述填充对象的描述信息进行分词处理得到分词结果；将所述分词结果与所述填充对象的已有属性的属性值合并，得到所述填充对象的描述词组；或者，

将所述填充对象的已有属性的属性值与所述填充对象的描述信息合并后进行分词处理，得到所述填充对象的描述词组；

其中，所述已有属性是指不缺失属性值的属性。

3.如权利要求2所述的方法，其特征在于，所述分词处理之后还包括：去除各个分词中的干扰词。

4.如权利要求1所述的方法，其特征在于，采用如下公式确定所述填充对象的描述词组与所述填充对象的缺失属性的预设属性值集合中各个属性值的相似度：

式中，A代表填充对象的缺失属性的预设属性值集合中的属性值；B代表填充对象的描述词组；|A∩B|代表属性值A与填充对象的描述词组B的共有字符串长度；|A|代表属性值A的字符串长度；|B|代表填充对象的描述词组B的字符串长度；ω代表词袋中填充对象的描述词组B的权重，0＜ω≤1；J(A，B)代表填充对象的描述词组B与填充对象的缺失属性的预设属性值集合中属性值A的相似度。

5.如权利要求1所述的方法，其特征在于，根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度不小于预设相似度阈值，则选取与所述最高相似度对应的属性值对所述填充对象的缺失属性进行填充。

6.如权利要求1所述的方法，其特征在于，根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度小于预设相似度阈值，则采用预测模型预测所述填充对象的缺失属性的属性值，然后根据预测的属性值对所述填充对象的缺失属性进行填充；所述预测模型是采用机器学习算法建立、利用已填充的对象的描述词组作为训练集训练得到的。

7.如权利要求6所述的方法，其特征在于，采用多个预测模型预测所述填充对象的缺失属性的属性值，从预测的多个属性值中选取出现次数最多的属性值对所述填充对象的缺失属性进行填充。

8.如权利要求1所述的方法，其特征在于，对所述填充对象的缺失属性进行填充之后，还包括：根据填充至所述填充对象的缺失属性的属性值更新所述属性值集合；以及采用二部图的形式按照如下步骤对所述填充对象各个属性的属性值进行校验：

步骤A、缺失值填充：遍历所述填充对象的描述信息，若存在与更新前待校验属性的属性值集合中的属性值v(i)匹配的分词，则创建一条权重为1的边<k，v(i)>，生成与所述待校验属性对应的二部图g＝<k，v(i)，w(i)>；k代表填充对象的待校验属性，i代表更新前待校验属性的属性值集合中属性值的数量，w(i)代表边<k，v(i)>的权重；

步骤B、错误值校验：遍历所述填充对象的描述信息，若存在与更新后待校验属性的属性值集合中的属性值v(j)匹配的分词，如果二部图g＝<k，v(i)，w(i)>中不存在边<k，v(j)>，则创建一条权重为1的边<k，v(j)>，否则将边<k，v(j)>的权重增加1，生成新的二部图g′＝<k，v(j)，w′(j)>；j代表更新后待校验属性的属性值集合中属性值的数量，w′(j)代表边<k，v(j)>的权重；

步骤C：正确值确认：获取新的二部图g′＝<k，v(j)，w′(j)>中具有最大权重maxw′(j)的边，若该边的权重maxw′(j)满足如下条件，则确认填充至所述填充对象的待校验属性的属性值为正确值；否则，确认填充至所述填充对象的待校验属性的属性值为错误值：

其中，γ代表保守参数，0≤γ≤1。

9.如权利要求8所述的方法，其特征在于，确认填充至所述填充对象的待校验属性的属性值为错误值之后，还包括：采用该边对应的属性值对所述填充对象的待校验属性进行重新填充。

10.一种属性信息填充装置，其特征在于，包括：

匹配模块，确定所述填充对象的描述词组与所述填充对象的缺失属性的预设属性值集合中各个属性值的相似度；其中，所述缺失属性是指缺失属性值的属性；

填充模块，根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充。

11.如权利要求10所述的装置，其特征在于，所述确定模块根据填充对象的描述信息确定填充对象的描述词组，包括：

其中，所述已有属性是指不缺失属性值的属性。

12.如权利要求11所述的装置，其特征在于，所述确定模块还用于：分词处理之后去除各个分词中的干扰词。

13.如权利要求10所述的装置，其特征在于，所述匹配模块采用如下公式确定所述填充对象的描述词组与所述填充对象的缺失属性的预设属性值集合中各个属性值的相似度：

14.如权利要求10所述的装置，其特征在于，所述填充模块根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度不小于预设相似度阈值，则选取与所述最高相似度对应的属性值对所述填充对象的缺失属性进行填充。

15.如权利要求10所述的装置，其特征在于，所述填充模块根据属性值集合中各个属性值与所述填充对象的描述词组的相似度对所述填充对象的缺失属性进行填充，包括：若各个相似度中最高相似度小于预设相似度阈值，则采用预测模型预测所述填充对象的缺失属性的属性值，然后根据预测的属性值对所述填充对象的缺失属性进行填充；所述预测模型是采用机器学习算法建立、利用已填充的对象的描述词组作为训练集训练得到的。

16.如权利要求15所述的装置，其特征在于，所述填充模块采用多个预测模型预测所述填充对象的缺失属性的属性值，从预测的多个属性值中选取出现次数最多的属性值对所述填充对象的缺失属性进行填充。

17.如权利要求10所述的装置，其特征在于，还包括：校验模块，用于对所述填充对象的缺失属性进行填充之后，根据填充至所述填充对象的缺失属性的属性值更新所述属性值集合；以及采用二部图的形式按照如下步骤对所述填充对象各个属性的属性值进行校验：

其中，γ代表保守参数，0≤γ≤1。

18.如权利要求17所述的装置，其特征在于，所述填充模块还用于：确认填充至所述填充对象的待校验属性的属性值为错误值之后，采用该边对应的属性值对所述填充对象的待校验属性进行重新填充。

19.一种属性信息填充电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。