CN108228565A

CN108228565A - 一种商品信息关键词的识别方法

Info

Publication number: CN108228565A
Application number: CN201810027276.7A
Authority: CN
Inventors: 廖良平; 温鹏程; 陈可; 肖勇
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-06-29

Abstract

本发明公开了一种商品信息关键词的识别方法，包括以下步骤：获取用户的商品信息搜索请求；根据本地词库区分商品信息搜索请求中的品牌词和品名词；将品名词进行分词，利用分词矩阵算法识别品名词中的关键词和噪音词；根据品牌词和关键词确定用户的搜索结果。本发明通过对商品信息的数据处理，可得到完善的品牌词库与品名词库，从而根据词库中的信息准确地将客户搜索请求中的品牌词与品名词进行识别，并根据分词矩阵算法进一步识别品名词中的关键词与噪音词，从而结合品牌词与关键词准确推送客户想要的商品结果，提高客户的使用体验。

Description

一种商品信息关键词的识别方法

技术领域

本发明涉及电商数据处理技术领域，具体涉及一种商品信息关键词的识别方法。

背景技术

现在通过网络销售和购买已经成为大家日常生活密不可分的一部分，每天都有大量的商品信息产生，而买家关心的是同一类商品中谁的销量更高、谁的评价最好以及谁的价格最低，不单是在同一门户网站进行比较，而是要在全网(淘宝、天猫、京东、亚马逊、当当等)的范围内进行比较，从而也产生了一个新的行业—网络导购。要完成高质量的导购，就要对商品信息进行分析和理解，现有的分析和理解技术路径主要是依赖于自身的品牌库和品名库。如客户的搜索请求为“海尔Leader/统帅三门风冷无霜冰箱”，如果自身品牌库中有“海尔”，品名库中有“冰箱”，那么根据客户的搜索请求对应的主体结果就是“海尔—冰箱”。

对于电商商品，“品牌”除了传统意义上的品牌，也包含了一些店铺的名字，如“米娜春天可爱卡通办公室午睡趴趴枕”，其中“米娜春天”就不是一个传统企业品牌，而是家电商旗舰店的名称。所以这种只依赖于企业词库收集的方法并不能很好的识别新的电商名词，如果客户提出新的导购项目，网络导购不可能先花大量的时间去收集品牌词。

此外，依赖传统的词库技术无法准确识别商品信息中的品名词，从而无法准确得出客户想要得到的商品推送结果，如“冬季老北京布鞋雪地靴”，其中“布鞋”和“雪地靴”都是商品名，传统的词库技术只能推送两种商品，无法选择客户想要的商品，从而影响客户体验。

发明内容

本发明的目的在于提供一种商品信息关键词的识别方法，本方法可从客户的商品信息搜索请求中准确识别出关键词和噪音词，从而准确推送出客户想要的商品信息。

本发明的目的是通过以下技术方案实现的：一种商品信息关键词的识别方法，包括以下步骤：

(1)获取用户的商品信息搜索请求；

(2)根据本地词库区分商品信息搜索请求中的品牌词和品名词；

(3)将品名词进行分词，利用分词矩阵算法识别品名词中的关键词和噪音词；

(4)根据品牌词和关键词确定用户的搜索结果。

进一步地，步骤(2)中所述本地词库包括品牌词库和品名词库，所述品牌词库储存有从各大电子商务网站收集商品信息并通过解析获得商品信息中的品牌名，所述品名词库储存有从各大电子商务网站收集商品信息并通过解析获得商品信息中的商品名。

进一步地，所述本地词库还包括热词库，热词库用于对商品信息搜索请求中存在本地词库外的词进行临时储存，将临时储存的词进行确认并存入品牌词库或品名词库中。

进一步地，步骤(3)中所述分词矩阵算法具体是指：

将品名词分词后得到的多个单词两两对应形成同现矩阵，同时将分词后得到的多个单词在商品信息库中进行遍历统计，统计单词与单词之间的同现次数，并将对应单词的同现次数录入同现矩阵，根据同现矩阵中的显示结果区分关键词和噪音词，所述同现矩阵由如下公式表示：

式中，Y表示将多个单词两两对应形成的同现矩阵；n₁表示品名词中第一个单词在商品库中出现的次数；n₂表示品名词中第二个单词在商品库中出现的次数；n_i表示品名词中第i(1，2，3，……)个单词在商品库中出现的次数。

本发明通过对商品信息的数据处理，可得到完善的品牌词库与品名词库，从而可根据词库中的信息准确地将客户搜索请求中的品牌词与品名词进行识别，并根据分词矩阵算法进一步识别品名词中的关键词与噪音词，从而结合品牌词与关键词准确推送客户想要的商品结果，提高客户的使用体验。

附图说明

图1为本发明的流程图；

图2为本发明中同现矩阵的统计结果示意图。

具体实施方式

本实施例提供的商品信息关键词的识别方法包括以下步骤：

(1)获取用户需要在全网范围内搜索并进行对比的搜索请求，并将搜索请求发送至服务器；

(2)根据本地词库区分商品信息搜索请求中的品牌词和品名词，所述本地词库称为“冷词库”，它包括品牌词库、品名词库与热词库，品名词库即为电商名词库(含较多噪音词，如“促销”、“京东”、“同款”)，利用成熟的JAVA爬虫技术从各大电子商务网站收集商品信息，并通过对商品信息数据解析获得商品信息中的品牌名和商品名，将解析的品牌名和商品名对应放入品牌词库与品名词库中，并对词库进行周期性数据更新，以准备充分的数据对比库。在利用JAVA爬虫技术收集商品信息时，将收集的商品信息整理保存后构建商品信息库，随着商品信息库的丰富，可有利于提高后续关键词识别的准确度；

所述热词库用于对商品信息搜索请求中本地词库外的词进行临时储存，通过搜索引擎查询和解析的方式，对这些临时储存的词与商品进行确认对比，确认无误后存入品牌词库或品名词库中，并将临时内存中的数据在使用后及时释放；

(3)将品名词进行分词，利用分词矩阵算法识别品名词中的关键词和噪音词。首先基于搜狗细胞词库获取基础品名词库，然后将商品信息搜索请求中的品名词进行分词，再将品名词分词后得到的多个单词进行两两对应形成同现矩阵，同时将分词后得到的多个单词在商品信息库中进行遍历统计，统计单词与单词之间的同现次数，并将对应单词的同现次数统计录入同现矩阵内，根据同现矩阵中显示的数据结果区分关键词和噪音词；遍历统计是计算词与词之间的同现次数，当两个或多个词在同一商品信息中同时出现，则在同现矩阵中对应的坐标框内计数加1，随着各词同现的次数不同，则会形成统计数据的不同，对统计数据进行聚类计算，就可以有效区别出噪音词和关键词。

上述同现矩阵由如下公式表示：

式中，Y表示将多个单词两两对应形成的同现矩阵；n₁表示品名词中第一个单词在商品库中出现的次数；n₂表示品名词中第二个单词在商品库中出现的次数；n_i表示品名词中第i(1，2，3，……)个单词在商品库中出现的次数。需要说明的是：Y的矩阵表示结果中会出现如：“n₁n₂”，它表示第一个单词与第二个单词同时出现的次数。

由于本发明是对网络数据的处理，会出现网络查询慢或者网络请求不成功的情况，为了解决这个问题，采用python语言在单个进程中使用多线程技术及错误重试技术，可满足多个用户同时对商品进行查询请求；另外，通过采用多进程并发技术，实现服务器的横向扩展，可通过增加服务器或者同一服务器增加进程数以解决服务请求爆满的问题。

如图1和图2所示，本实施例中的商品信息搜索请求以“L EGO乐高Greator创意百变系列绿色敞篷车积木玩具”为例，先通过与本地词库进行比较，区分出本地词库中存在的品牌词和品名词，对于商品信息搜索请求中的新名词，则通过临时储存的方式保存在热词库中，根据完备的品牌词库可准确识别出商品信息搜索请求中的品牌词，然后对剩余的品名词进行分词，将分词后得到的多个单词两两对应形成同现矩阵，并在商品信息库中查询统计单词与单词之间同现的次数，录入同现矩阵内，统计完成后对同现矩阵内的统计结果进行聚类分析，同现次数较多的单词则为关键词，其余则为噪音词，本实施例中的关键词为“创意”、“绿色”、“玩具”，其余则为噪音词，最后根据品牌词和关键词为客户推送准确的商品搜索结果。

本发明的方法可有效区别商品搜索请求中的关键词和噪音词，然后在此基础上对商品进行分类，提高搜索的准确度。

以上所述仅是本发明优选的实施方式，但本发明的保护范围并不局限于此，任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

Claims

1.一种商品信息关键词的识别方法，其特征在于包括以下步骤：

(1)获取用户的商品信息搜索请求；

(4)根据品牌词和关键词确定用户的搜索结果。

2.根据权利要求1所述的商品信息关键词的识别方法，其特征在于：步骤(2)中所述本地词库包括品牌词库和品名词库，所述品牌词库储存有从各大电子商务网站收集商品信息并通过解析获得商品信息中的品牌名，所述品名词库储存有从各大电子商务网站收集商品信息并通过解析获得商品信息中的商品名。

3.根据权利要求2所述的商品信息关键词的识别方法，其特征在于：所述本地词库还包括热词库，热词库用于对商品信息搜索请求中存在本地词库外的词进行临时储存，将临时储存的词进行确认并存入品牌词库或品名词库中。

4.根据权利要求1所述的商品信息关键词的识别方法，其特征在于：步骤(3)中所述分词矩阵算法具体是指：