CN107092600B

CN107092600B - 一种信息识别方法及装置

Info

Publication number: CN107092600B
Application number: CN201610089862.5A
Authority: CN
Inventors: 董宇; 吴振元; 汤佳宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2021-06-11
Anticipated expiration: 2036-02-17
Also published as: CN107092600A

Abstract

本申请公开了一种信息识别方法及装置，用以提高类目错放识别的准确性，从而减少类目错放现象的发生，提高用户体验。本申请提供的一种信息识别方法，包括：确定检测对象的标题对应的检测对象属性信息；根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。

Description

一种信息识别方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种信息识别方法及装置。

背景技术

电商平台上，卖家发布商品时没有将商品发布在最契合类目下的情况叫做类目错放。类目错放的商品，有些是由于对平台的类目体系不够了解而导致非刻意错放，而有些是刻意进行错放，借此获得额外的曝光。对于非刻意错放的商品而言，会影响商品在搜索上的排名表现；对于刻意错放的商品，卖家通过在多个类目下发布多个类似的商品，起到获得额外流量的作用，而这种作弊行为妨碍了其他卖家商品的曝光机会，如果不清除，久而久之其它卖家不得不用同样的方法来进行对抗，从而导致整体电商平台的商品信息库质量下降，影响电商平台生态。从买家的角度看，用户在搜索、浏览结果中夹杂着用户兴趣无关的产品，降低搜索体验。

现有的类目错放检测方法主要是利用商品文本信息进行类目错放的检测，对非刻意的类目错放有较好的效果，然而对于刻意错放的商品而言，卖家为了逃避类目错放检测机制，继续获得额外曝光机会，也摸索出了通过在商品信息中加入混淆信息来逃避传统类目错放检测的方法，对这类商品，现有方法的识别效果较差。

发明内容

本申请实施例提供了一种信息识别方法及装置，用以提高类目错放识别的准确性，从而减少类目错放现象的发生，提高用户体验。

本申请实施例提供的一种信息识别方法，包括：

确定检测对象的标题对应的检测对象属性信息；

根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。

通过该方法，根据检测对象的标题对应的检测对象属性信息，判断检测对象是否存在类目错放问题，从而可以提高类目错放识别的准确性，因为考虑了商品属性之间的不同，更加凸显表征能力强的属性的作用，避免了因为商品标题中某些字段中存在混淆信息从而导致商品类目错放漏判的发生，减少类目错放现象的发生，提高用户体验。

可选地，根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题，具体包括：

根据所述检测对象属性信息，基于预先设置的类目预测结果，判断所述检测对象是否存在类目错放问题。

本申请实施例，使用层次类目预测方案提高类目预测准确率：层次类目预测的方法共分三层：第一层注重准确率，通过对高频文本人工标注的方法，来提高这部分文本的类目预测准确率；第二层在注重准确率同时考虑召回率，是通过用户的搜索日志来得到搜索词到用户点击的商品所属的类目的分布关系，一旦商品标题匹配到搜索词，那么就可以对其进行类目预测，为了避免精确匹配造成的召回率问题，对搜索词会进行改写，例如去除一些停用词、不重要的属性词等，如果商品标题命中改写后的搜索词，也可堆砌；第三层在保证准确率的基础上更注重召回，即在原有NGram预测方法基础上，提取商品标题、描述信息中的中心词和中心短语，并在融合候选类目得分时，赋予中心词和中心短语更高的权重，提高重要信息对结果的影响；层次类目预测的方法，从准确率上，逐层递减，从召回率上，逐层递增；能够更好的达到准确率与召回率的平衡。

因此，可选地，所述类目预测结果，具体包括下列类目预测结果之一或组合：

利用网站的热门搜索词确定的类目预测结果；

利用买家在网站上的搜索以及买家对搜索结果的反馈，得到的类目预测结果；

利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。

另外，本申请实施例中提出的关于基于异常检测机制的类目错放识别方法：类目错放的本质是商品的某些信息与类目不契合，这种不契合表现在这些信息的取值在类目下出现很少，从机器学习的角度看，就是商品的某些字段在该类目下属于异常值；因此，运用异常检测技术可以有效地把异常值检测出来，着重加以判断；这种方法的好处是，就算商品并不属于类目错放，但是其信息质量很可能是存在问题的。

对不同类型的多种商品信息针对性的运用异常检测机制，增加类目错放召回：单一的类目预测检测机制容易受到标题的混淆而导致无法召回，然而很少有卖家会对发布的产品所有字段都进行混淆，因此通过对商品多个主要信息运用异常检测方法可以有效的检测标题滥用的情况。对于文本类型的商品信息和数值类型的商品信息，在做异常检测时采取了不同的处理方法，避免因为数据类型不同而导致误判。

因此，可选地，根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题，具体包括：

根据所述检测对象属性信息中的文本信息，以及所述检测对象的标题信息，确定该检测对象对应的类目下的文本得分；

根据该检测对象对应的类目下的文本得分，结合预设的该检测对象对应的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题。

可选地，每一类目下文本数据分布索引是采用如下方式预设的：

对于已有的每一类目：

对该类目下的商品的属性文本和标题文本进行数据清洗，过滤掉满足预设条件的词；

分别统计该类目下的商品的经过所述数据清洗的属性文本和标题文本中的各词的词频；

针对该类目下每一商品：根据该商品经过所述数据清洗的属性文本和标题文本中的各词的词频，确定该商品对应的各词的得分，并求该商品对应的各词的得分的平均值，得到该商品对应的文本得分；

计算该类目下所有商品的文本得分的平均值和标准差。

可选地，根据该检测对象对应的类目下的文本得分，结合预设的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题，具体包括：

若该检测对象对应的类目下的文本得分，比该类目下所有商品的文本得分的平均值小预设个数的所述标准差，则确定所述检测对象存在类目错放问题。

根据所述检测对象属性信息中的数值信息，确定该检测对象对应的类目下的数值得分；

根据该检测对象对应的类目下的数值得分，结合预设的该检测对象对应的类目下数值数据分布索引，判断所述检测对象是否存在类目错放问题。

可选地，每一类目下数值数据分布索引是采用如下方式预设的：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

对该类目下的每一商品，将该商品的数值划分到预设的数值范围内；

分别统计该类目下的商品的数值信息中的各数值的词频；

针对该类目下每一商品：根据该的数值信息中的各数值的词频，确定该商品对应的各数值的得分，并求该商品对应的各数值的得分的平均值，得到该商品对应的数值得分；

计算该类目下所有商品的数值得分的平均值和标准差。

可选地，根据该检测对象对应的类目下的数值得分，结合预设的该检测对象对应的类目下数值数据分布索引，判断所述检测对象是否存在类目错放问题，具体包括：

若该检测对象对应的类目下的数值得分，比该类目下所有商品的数值得分的平均值小预设个数的所述标准差，则确定所述检测对象存在类目错放问题。

与上述方法相对应地，本申请实施例提供的一种信息识别装置，包括：

第一单元，用于确定检测对象的标题对应的检测对象属性信息；

第二单元，用于根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。

可选地，所述第二单元，具体用于：

可选地，所述类目预测结果，具体包括下列类目预测结果之一或组合：

利用网站的热门搜索词确定的类目预测结果；

可选地，所述第二单元，具体用于：

可选地，所述第二单元采用如下方式预设每一类目下文本数据分布索引：

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

可选地，所述第二单元根据该检测对象对应的类目下的文本得分，结合预设的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题时，具体用于：

可选地，所述第二单元，具体用于：

可选地，所述第二单元采用如下方式预设每一类目下数值数据分布索引：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

可选地，所述第二单元根据该检测对象对应的类目下的数值得分，结合预设的该检测对象对应的类目下数值数据分布索引，判断所述检测对象是否存在类目错放问题时，具体用于：

附图说明

图1为本申请实施例提供的类目错放识别系统框架的示意图；

图2为本申请实施例提供的层次类目预测方法及特点的示意图；

图3为本申请实施例提供的基于文本异常检测的类目错放判定示意图；

图4为本申请实施例提供的基于数值异常检测的类目错放判定示意图；

图5为本申请实施例提供的一种信息识别方法的流程示意图；

图6为本申请实施例提供的一种信息识别装置的结构示意图。

具体实施方式

本申请实施例，以商品为例作为检测对象，核心思想是根据商品的属性信息，判断商品是否存在类目错放问题。具体地，通过集成多种类目错放检测手段来进行类目错放识别，优化搜索体验，提高商品信息库质量。检测得到的类目错放商品，后续可以一方面会在搜索排序中进行得分的打压，从而减少其曝光量，同时有作弊行为的公司的其他商品也会因此受到惩罚，增加其作弊成本，降低其作弊收益。另一方面，卖家可以通过类目错放识别系统看到自己所发布的类目错放产品，及时的对自己发布的商品进行优化，避免后续的扣分惩罚。

相比现有技术，本申请实施例提供的方法在类目错放的检测上更加全面：

本申请实施例提供的方法可以包含基于类目预测的类目错放识别和基于异常检测的类目错放识别；其中，基于异常检测的方法，可以包括两个方面的检测，文本和数值方面的检测，主要的优点是抗干扰能力强，能够识别卖家刻意在商品标题信息中加入干扰信息躲避基于类目预测的类目错放检测。这种方法可以通过比对商品所含信息与类目下其他商品所含信息的相互关系来进行类目错放识别。这种方法可以用于商品的各个字段，不限于字段类型，而现有的基于类目预测的方法仅限于对标题字段适用。同时，也避免了因为某些字段中存在混淆信息从而导致商品类目错放漏判的发生。在商品不同类型的多个字段上应用了异常检测方法，扩大了类目错放召回量。对不同类型的数据类型做了区别性处理，并在对商品属性进行异常检测时，考虑了商品属性之间的不同重要性，更加凸显表征能力强的属性的作用。

本申请实施例提供的基于类目预测的类目错放方法上，提出了层次类目预测的方法，优化类目预测准确率。用了三层结构的一个类目预测方法，第一层是标注层，第二层是query点击日志层，第三层是基于中心词、中心短语、词的N元组(NGram)的类目融合层；其中，对于第三层而言，先提取文本中的中心短语、中心词、普通切词，然后用类目融合的方法进行类目预测。通过对准确率和召回率不同侧重的三个层次，在保证准确率的前提下，能够对更多的商品标题进行类目预测。

也就是说，针对现有技术中类目错放的识别问题，本申请实施例提供了一种基于类目预测和异常检测的双核类目错放识别系统。该系统通过对标题信息的类目预测和对属性、起订量、价格、中心词等商品信息的异常检测来识别商品库中的类目错放商品，使得在搜索排序中对这些商品进行得分的打压，同时在卖家后台类进行相应的提示，提示卖家对商品信息进行修改或者删除。

下面结合附图对本申请实施例提供的技术方案进行说明。具体内容分别包括：系统整体框架、基于层次类目预测的类目错放识别、基于异常检测的类目错放识别，其中，关于异常检测的类目错放识别包括文本类型的信息在异常检测中的应用过程，以及数值类型的信息在异常检测机制上的应用。

图1为本申请实施例提出的基于类目预测和异常检测的商品类目错放识别系统的框架图，主要分为原始数据(即图中的源数据)、离线索引计算(即图中的离线计算)和在线错放检测(即图中的在线检测)三部分。

系统所需要的原始数据主要有：

高频短语所属类目标注数据：该数据即网站的热门搜索词，可以直接用于类目预测结果的查询。

搜索点击日志：该数据可统计得到搜索词对应的点击商品类目信息，用于类目预测，即利用买家在网站上的搜索以及买家对搜索结果的反馈，得到的类目预测结果；

高质量商品库：是剔除了重复铺货商品、低信息质量商品、低曝光商品、已检测类目错放商品之后的优质商品库，可以利用该商品库中商品标题的中心词、中心短语和词的N元组确定类目预测结果，供类目错放识别；

各类目下重要属性字典：类目中的重要属性会进行异常检测索引的建立，那些普适性的非重要类目则不具备类目表征能力。

离线计算部分，主要作用是将原始数据加工成在线检测类目错放的索引数据，其主要包含：

标注索引：该索引可由原始数据中标注数据直接得到，即利用网站的热门搜索词确定的类目预测结果；

类目点击分布索引：该索引有搜索点击日志汇总得到，根据多个用户在相同搜素关键词下的点击行为可以汇总得到类目点击分布索引，即利用买家在网站上的搜索以及买家对搜索结果的反馈，得到的类目预测结果；

中心短语、中心词、Ngram类目分布索引：根据商品文本信息以及其填写的类目录，抽取中心短语、中心词、NGram得到这些子文本对应的类目，并通过汇总得到这些子文本的类目分布索引，即利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果。

异常检测文本类索引构建：用于异常检测的文本类信息主要是商品的标题和属性。标题中需要进行去停用词、词根还原等预处理；而属性分布索引则需要根据类目下重要属性字典做细致的区分，主要原因是有些属性有很强的区分意义(如：材料)，而有些属性的区分意义不大(如：产地)。重要属性字典是通过规则和模型，筛选出有区分意义的属性来构建类目下的属性分布索引。具体地，每一类目下文本数据分布索引是采用如下方式预设的：

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

异常检测数值类索引构建：另一类用于异常检测的信息是数值类型的：商品价格、商品起订量。对于数值型索引，商品填写的对应字段数值过高或者过低都有类目的可能性。比如：机械类商品，一般价格较高而起订量较低；如果是机械配件类的商品类目错放到机械类目下，一般配件的价格较低而起订量较高，因此可以有效的进行识别。具体地，每一类目下数值数据分布索引是采用如下方式预设的：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

在线检测部分，主要作用是针对具体商品信息，结合离线计算部分得到的索引信息计算各个维度数据的类目错放得分，最终形成是否类目错放的判定。即确定检测对象的标题对应的检测对象属性信息；根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。具体地，主要包含如下几个方面之一或组合：

依据层次类目预测方法对商品标题进行类目预测，验证商品当前所填类目是否在类目预测结果中，如不在类目预测结果中，则属于类目错放；

对商品文本类信息进行中心词抽取以及关键属性识别，对中心词和关键属性进行异常检测，验证是否属于类目错放；

对商品数值型信息进行异常检测，验证是否属于类目错放。

下面关于基于层次类目预测的类目错放识别介绍如下：

基于类目预测的错放识别主要原理是根据商品信息预测其大致可能的类目分布，如果商品所选择的类目在预测得到的类目分布中，那么就是正确的类目放置，反之则是类目错放。这种方法的优点是如果商品被判定为类目错放，可以根据预测的类目结果为其推荐一个最恰当的类目来进行修改。方法的核心技术是类目预测，层次类目预测的方法扩展了传统的类目预测方法，使其在准确率和召回率上均有提高。

图2示出了层次类目预测不同层次用到的方法和其特点，第一层用到的是热门检索词的类目预测人工标注数据，其特点是准确率很高；第二层用到的是较热门检索词的用户点击商品的类目分布数据，其特点是准确率高，召回数量高，预测的类目结果符合用户的意图；第三层用到的是将文本分割为中心词、中心短语及Ngram，并根据三者对应的类目分布进行加权融合，得到最终的类目预测结果，其特点是在保证高准确率的情况下，召回数量很高。三个层次的方法在可预测的文本数量上自上而下依次递增，呈一个金字塔结构。以下分别详述这三层类目预测方法。

第一层主要使用网站出现的热门搜索词的人工类目标注数据。这些热门搜索词一般单词个数较少，代表着网站买家感兴趣的核心大类，这些词也是卖家热衷于在商品标题中包含的词组，建立这些热门搜索词与类目的对应关系。例如对于搜索词“足球”，那么会标注最相关的类目是足球类目。

第二层主要使用网站较为热门的搜索词的点击类目分布进行类目预测。虽然第一层的准确率极高，但是人力资源毕竟是有限的，第二层是利用买家在网站上的行为进行类目预测。买家会在网站上进行搜索，对搜索的结果的反馈(即对某商品发生点击、询盘、购买等事件)意味着该商品是符合买家当前搜索词下的搜索意愿的，因此，抽取商品对应的类目信息即可得到当前搜索词和类目的映射关系。通过汇总相同搜索词对应的有买家行为的商品，就可以得到该搜索词对应的类目分布情况。有了类目分布情况，对其进行归一化后，即可得到类目预测结果。例如，对于搜索词“篮球”，可能买家在篮球类目的产品下会有较多点击，而在篮球衣、篮球鞋类目下有一些点击，那么就会得到搜索词篮球，对应的强相关类目是篮球，弱相关类目是篮球衣、篮球鞋。

对于第一、第二两层的类目标注数据以及类目点击分布数据，当我们需要对商品标题进行类目预测时，只需要进行索引查找即可得到类目预测结果并返回即可。为了在一定程度上扩大两份数据的匹配范围，商品标题会通过改写、变形、抛词来进行索引的匹配。

在标题中直接匹配搜索词的方法容易遇到两方面的问题，其一，标题中无法匹配到搜索词，其二匹配到的搜索词是长尾搜索词，其累计的商品点击和询盘数不足，导致对类目预测的结果置信度不足。而第三层类目预测方法弥补了这两方面的不足。构建索引时，通过对已有商品库抽取商品标题中的中心词、中心短语和NGram，将其分别与商品的所选类目相关联，然后汇总这些中心词、中心短语和NGram的相关联类目，得到类目分布索引。

当需要对商品标题进行类目预测时，同样先对商品标题进行中心词、中心短语和NGram的切分，然后分别对这些信息进行候选类目的召回，通过加权求和得整个标题的类目分布得分，这里一般设中心短语的权重最大，中心词次之，而NGram再次之。这是因为中心短语一般最精确，而中心词容易受到大类商品名(比如machine，tool，furniture，这些词都有更加细化的类目可分)的干扰而导致准确率下降，而NGram则容易受无关信息的影响(如：hot sale，free shipping等)。当得到标题的类目分布得分经过归一化，可以得到最终的类目预测结果。例如对于较长的检索词“高质量xxx品牌篮球”，会首先根据检索词的中心短语篮球，得到强相关类目是篮球，弱相关类目是篮球衣，篮球鞋；再根据xxx品牌，得到其生产的主要是篮球，篮球打气筒产品；最终根据各个类目的加权，得到强相关类目是篮球，弱相关类目是篮球衣、篮球鞋、篮球打气筒。

有了类目预测的结果，即可根据商品当前所填类目进行类目错放的判定；若当前所填类目处于类目预测结果不相关的档位或者不在类目预测结果列表中，则该商品存在类目错放的情况。对类目预测的结果进行档位划分，来区分文本信息与预测出的类目的相关性的强弱，档位主要划为3档：强相关、弱相关、不相关。档位的划分主要过程如下：

对类目预测结果进行归一化，并按权重大小降序排列；

权重最大的类目A加入到强相关类目集合中，设强相关类目集合为类目A的权重；

与强相关类目集合权重相差在30％以内的类目可以进入该集合；每新加入一个类目，则集合的权重为整个集合类目权重的平均值；

第一个与强相关集合权重相差30％以上的类目B出现，类目B加入弱相关类目集合中，并依据类似于强相关类目集合的加入方式，加入其它的弱相关类目，直到剩下的类目权重距离弱相关集合权重30％以上；

其余类目定义为不相关。

例如，如果一个商品的标题是“大容量防水工具包”，放置在手提包类目下；那么，若总分为100分，对于标题首先进行类目预测得到的结果是：工具包76分，双肩包12分，工具箱10分，手提包2分。那么根据划档规则，工具包类目为强相关类目，双肩包和工具箱类目为弱相关类目，手提包及其他为不相关类目。那么该商品放置在手提包类目下是属于类目错放的。

关于基于本文信息的异常检测方法介绍如下：

基于类目预测的错放检测的主要思想是计算单词和词组在各个类目下的得分，但是对于不属于类目下的单词，并不会因此而降低该类目的得分，因此，基于类目预测的方法在抗干扰性方面有着天然的劣势，一旦卖家在标题中加入恶意的混淆信息，就有可能能够躲避错放的检测。

而基于异常检测的方法会同时考虑商品信息中属于所填类目的信息做加分和不属于所填类目的信息做减分，因此能够避免混淆信息的干扰，做出准确的判断。异常检测的基本方法是首先定义一组类目下处于“正常”状态时的各商品信息分布，如属性、中心词、价格、起订量等，然后针对新的商品检测其所填信息是否在类目下属于异常，其核心问题是如何量化类目下商品的“正常状态”和“异常状态”。以下分别就文本型信息和数值型信息进行介绍。

文本型信息主要包含商品属性和标题。网站的商品类目体系中，每个类目都具有若干系统属性和卖家的自定义属性。系统属性由网站运营人员进行运营，或者具备有普适性、或者具有较强的区分性；而自定义属性，是卖家在系统属性无法满足自己的描述需求时的一种补充，自定义填写方式更多元凌乱，需要进行清洗过滤。

图3是基于文本异常检测的类目错放判定流程，图中上部分是离线索引构建的详细步骤，图中下部分是在线判定的过程。

离线索引构建部分主要分为：

对于已有的每一类目：

数据清洗：即对该类目下的商品的属性文本和标题文本进行数据清洗，过滤掉满足预设条件的词，具体地：对于属性文本，需要根据重要属性字典清理掉一些普适性、无区分性的属性字段(比如：产地、品牌等)，并对属性值进行去停用词、取词根等预处理；对于标题文本，需要清理停用词、营销词、并取词根；营销词的挖掘方法类似于重要属性的挖掘，是计算单词在各个类目下的分布，然后通过分布熵的大小来说明单词在类目中的表征能力。分布熵越大，表示单词在类目下的表征能力越弱，则越不具备区分性(如hot sale，newproduct)。

类目下单词词频统计：数据清理后，分别统计属性中各单词词频及标题中各单词词频，即分别统计该类目下的商品的经过所述数据清洗的属性文本和标题文本中的各词的词频。

商品文本得分计算：汇总商品文本中各单词的得分并求其平均分作为商品的文本得分，使用平均分而不是总分主要是考虑，若采用加和总分作为得分，则越长的文本总是能够带来更多的得分，这对于短文本而言，是不公平的；同时增加一些在类目下很少出现的单词，会使得整体的平均分下降，这也是异常检测机制能够通过得分识别出带有混淆信息的类目错放商品的原因。即针对该类目下每一商品：根据该商品经过所述数据清洗的属性文本和标题文本中的各词的词频，确定该商品对应的各词的得分，并求该商品对应的各词的得分的平均值，得到该商品对应的文本得分。

类目下所有商品的分均值与标准差统计：通过前一步，得到了类目下所有商品的得分，那么就可以求得类目下商品得分的均值和标准差；即计算得到该类目下所有商品的文本得分的平均值和标准差。用这个均值和标准差既可定义的商品信息的“正常”状态。

例如，经过数据清洗和统计后，得到绒毛玩具类目下文本出现频率较高的是：泰迪熊7分，流氓兔8分，棉花6分，无纺布5分，聚酯纤维5分。类目下商品的文本平均分为3分，标准差为0.2。

在线监测过程如下介绍：

针对检测商品进行下面的操作：

数据清洗：过程同上，该步骤可选。

商品文本得分计算与平滑：根据以上过程中类目下单词的得分索引，得到该商品的文本得分并平滑

比较商品得分与该类目下商品文本得分均值与标准差，若商品得分比所选类目下商品的文本得分的均值小若干个标准差，则判定其为文本异常，存在类目错放行为。

例如，对于一个标题为“齿轮泰迪熊”，并在属性中填写了材料为钢铁，放置在绒毛玩具类目下；那么这个商品的得分会因为商品信息中只有泰迪熊跟类目相关，其他如齿轮和钢铁都与类目无关，所以导致整个商品得分过低，从而被检测为类目错放。

关于基于数值信息的异常检测方法介绍如下：

数值信息的异常检测流程如图4所示，相比于文本信息的异常检测，数值信息的检测主要有以下几方面的差别：

一、在数据预处理中，首先要进行单位的换算和归一化。不同的计量单位会使得相同意义的物理量在数值上有着很大的差异，比如起订量信息中1000kg和1t是相同的含义，但数值上存在着1000倍的差距；又比如定价区间中，人民币结算与美元结算也会存在汇率倍的数值差异；因此需要进行单位换算。此外一些单位存在着不同的书写差异，比如7inch与7”，需要进行归一化处理。

单位的换算首先统计各个类目下各种不同种类计量单位(如重量类，长度类，体积类)的出现频率，选取种类下出现频率最高的作为该类目下该中计量单位的主单位，若一些商品的数值单位非类目下主单位，则通过单位换算字典进行单位换算。

单位的归一化字典通过统计不同单位在同一个字段上的共现情况得到候选的可归一单位对，然后由人工确认出正确的可归一单位。

二、单位换算和归一化后，需要进行数值的划档。划档的主要作用是避免因为数值细微的差异而导致无法聚合在一起，导致数据稀疏；例如，产品重量是1.65kg和1.7kg，在大部分情况下可以归为1～2kg的重量区间中；

其余的过程与文本类型的异常检测类似，一般情况下，过大或者过小的数值容易被检测出来。这种情况主要出现在主件和配件之间的相互错放。例如：拖拉机与拖拉机配件，在文本上由于都包含拖拉机，所以容易受混淆，但是由于配件和主件在数值特征上存在着较大差异，如配件价格低，要求的起订量高，而主件价格高、起订量低，所以当配件放入到主件类目下时，配件的一些字段就会因为数据过高或者过低而被检测出来。

综上所述，参见图5，本申请实施例提供的一种信息识别方法，包括：

S101、确定检测对象的标题对应的检测对象属性信息；

S102、根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。

利用网站的热门搜索词确定的类目预测结果；

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

由此可见，本申请实施例中，采用类目预测和异常检测双核错放检测引擎，能够更加有效地识别出类目错放情况。当然，仅采用类目预测和异常检测两种方法中的一种，也是可以提高类目错放识别的效果的。

与上述方法相对应地，参见图6，本申请实施例提供的一种信息识别装置，包括：

第一单元11，用于确定检测对象的标题对应的检测对象属性信息；

第二单元12，用于根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题。

该信息识别装置，可以理解为对上述图1中示出的在线检测部分的细化。

可选地，所述第二单元，具体用于：

利用网站的热门搜索词确定的类目预测结果；

可选地，所述第二单元，具体用于：

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

可选地，所述第二单元，具体用于：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

上述各个单元都可以由处理器等实体器件实现，所述的处理器可以是中央处埋器(CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)。

综上所述，本申请实施例提出了一种基于类目预测与异常检测的商品类目错放识别系统，其中提出的层次化类目预测方法，能够提高类目预测的准确性和召回率，为类目错放的判定打下基础。层次类目预测分别使用热门检索词标注索引，检索词用户点击、询盘分布索引，检索词中心短语、中心词、NGram对应的类目分布索引，来进行类目预测。不同的层次针对不同频率的检索词做针对性的类目预测。本申请实施例提出的基于异常检测的类目错放检测方法，弥补了类目预测方法中用文本进行类目预测时，可能受到文本信息的混淆而导致漏判。异常检测方法通过将商品中的信息与构建好的类目下正常的信息分布作对比来发现信息中的异常状态，并由此发现类目错放。并且，本申请实施例中提出的用于异常检测的商品信息，对于文本类信息与数值类信息做分别的处理，使得其中的信息能够被充分的发掘，更准确的进行类目错放的判定。另外，需要说明的是，本申请实施例提供的类目预测阶段的类目预测方法，除了根据中心短语、中心词所对应的类目分布加权预测外，还可以基于朴素贝叶斯，贝叶斯网络来进行预测。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种信息识别方法，其特征在于，该方法包括：

确定检测对象的标题对应的检测对象属性信息；

根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题；

其中，根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题，具体包括：

根据所述检测对象属性信息，基于预先设置的类目预测结果，判断所述检测对象是否存在类目错放问题；

其中，所述类目预测结果，具体包括下列类目预测结果之一或组合：

利用网站的热门搜索词确定的类目预测结果；

利用已有商品库中商品标题的中心词、中心短语和词的N元组确定的类目预测结果；

根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题，还包括：

根据该检测对象对应的类目下的文本得分，结合预设的该检测对象对应的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题；

2.根据权利要求1所述的方法，其特征在于，每一类目下文本数据分布索引是采用如下方式预设的：

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

3.根据权利要求2所述的方法，其特征在于，根据该检测对象对应的类目下的文本得分，结合预设的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题，具体包括：

4.根据权利要求1所述的方法，其特征在于，每一类目下数值数据分布索引是采用如下方式预设的：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

5.根据权利要求4所述的方法，其特征在于，根据该检测对象对应的类目下的数值得分，结合预设的该检测对象对应的类目下数值数据分布索引，判断所述检测对象是否存在类目错放问题，具体包括：

6.一种信息识别装置，其特征在于，包括：

第二单元，用于根据所述检测对象属性信息，判断所述检测对象是否存在类目错放问题；

其中，所述第二单元，具体用于：

所述类目预测结果，具体包括下列类目预测结果之一或组合：

利用网站的热门搜索词确定的类目预测结果；

所述第二单元，还用于：

7.根据权利要求6所述的装置，其特征在于，所述第二单元采用如下方式预设每一类目下文本数据分布索引：

对于已有的每一类目：

计算该类目下所有商品的文本得分的平均值和标准差。

8.根据权利要求7所述的装置，其特征在于，所述第二单元根据该检测对象对应的类目下的文本得分，结合预设的类目下文本数据分布索引，判断所述检测对象是否存在类目错放问题时，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述第二单元采用如下方式预设每一类目下数值数据分布索引：

对于已有的每一类目：

对该类目下的商品的数值信息进行单位的换算和归一化；

分别统计该类目下的商品的数值信息中的各数值的词频；

计算该类目下所有商品的数值得分的平均值和标准差。

10.根据权利要求9所述的装置，其特征在于，所述第二单元根据该检测对象对应的类目下的数值得分，结合预设的该检测对象对应的类目下数值数据分布索引，判断所述检测对象是否存在类目错放问题时，具体用于：