CN116739626A

CN116739626A - 商品数据挖掘处理方法、装置、电子设备及可读介质

Info

Publication number: CN116739626A
Application number: CN202210188257.9A
Authority: CN
Inventors: 陈涵
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-09-12

Abstract

本申请公开了商品数据挖掘处理方法、装置、电子设备及可读介质，涉及自然语言处理技术领域，该方法包括：接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；将热点数据根据业务标识进行分类，以生成分类数据；对各分类数据基于预设的词典进行知识抽取，以生成知识元库；获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。通过从热点关键词按业务视角分类，到建立电商类目知识图谱，实现智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

Description

商品数据挖掘处理方法、装置、电子设备及可读介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种商品数据挖掘处理方法、装置、电子设备及可读介质。

背景技术

对于海量的热点信息，需要人工判断其内容类别(例如是评价类信息或者是营销类信息，评价类信息中描述的是商品风格、成分或是体验)，然后人工将热点信息与目标公司的商品进行匹配，进而推荐，效率低下，导致信息处理不及时错失推荐热点对应的商品的机会。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

人工推荐与热点信息对应的商品时，信息处理不及时，效率低下。

发明内容

有鉴于此，本申请实施例提供一种商品数据挖掘处理方法、装置、电子设备及可读介质，能够解决现有的人工推荐与热点信息对应的商品时，信息处理不及时，效率低下的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种商品数据挖掘处理方法，包括：

接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；

将热点数据根据业务标识进行分类，以生成分类数据；

对各分类数据基于预设的词典进行知识抽取，以生成知识元库；

获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；

基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。

可选地，将知识元库中的各知识元进行相似度融合，包括：

确定知识元库中的各知识元对应的实体和实体对应的属性；

将各属性转化为属性向量，根据各属性向量确定各属性之间的属性相似度；

根据各属性相似度，确定对应的实体之间的实体相似度；

根据实体相似度进行对应的实体的融合，根据属性相似度进行对应的属性的融合。

可选地，将知识元库中的各知识元进行相似度融合，包括：

基于相似度计算对知识元库中的各知识元进行近义词识别；

将识别到的属于近义词的知识元进行融合。

可选地，生成知识元库，包括：

对热点数据基于预设的词典进行实体抽取，以得到实体对应的知识元；

对热点数据进行实体对应的属性的抽取，以得到属性对应的知识元；

对热点数据进行实体和属性之间的关系的抽取，以得到关系对应的数据元；

对热点数据进行辅助知识元的抽取，以得到辅助知识元；

根据实体对应的知识元、属性对应的知识元、关系对应的数据源和辅助知识元，生成对应的知识元库。

可选地，在生成对应的知识图谱之后，方法还包括：

响应于知识图谱中含有实体、实体对应的属性、属性对应的属性值以及实体和属性的关系；

将属性和属性值进行封装，以实体为键，以进行封装后的属性和属性值为值，基于关系生成键值对并存储。

可选地，在生成对应的知识图谱之后，方法还包括：

响应于知识图谱中含有实体和实体对应的辅助知识元，将实体和辅助知识元进行封装并存储。

可选地，生成推荐信息，包括：

将预设物品池中的各物品与知识图谱进行匹配，将匹配到的物品确定为目标物品；

基于目标物品生成推荐信息。

可选地，在将热点数据根据业务标识进行分类之前，方法还包括：

对热点数据进行文本分词和去除停用词处理。

调用特征评估函数，以对进行文本分词和去除停用词处理后的热点数据进行特征空间降维，进而更新进行特征空间降维后的热点数据。

另外，本申请还提供了一种商品数据挖掘处理装置，包括：

接收单元，被配置成接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；

分类数据生成单元，被配置成将热点数据根据业务标识进行分类，以生成分类数据；

知识元库生成单元，被配置成对各分类数据基于预设的词典进行知识抽取，以生成知识元库；

知识图谱生成单元，被配置成获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；

商品数据挖掘处理单元，被配置成基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。

可选地，知识图谱生成单元进一步被配置成：

确定知识元库中的各知识元对应的实体和实体对应的属性；

根据各属性相似度，确定对应的实体之间的实体相似度；

可选地，知识图谱生成单元进一步被配置成：

基于相似度计算对知识元库中的各知识元进行近义词识别；

将识别到的属于近义词的知识元进行融合。

可选地，知识元库生成单元进一步被配置成：

对热点数据进行辅助知识元的抽取，以得到辅助知识元；

可选地，商品数据挖掘处理装置还包括键值对生成单元，被配置成：

可选地，商品数据挖掘处理装置还包括封装单元，被配置成：

可选地，商品数据挖掘处理单元进一步被配置成：

基于目标物品生成推荐信息。

可选地，分类数据生成单元进一步被配置成：

对热点数据进行文本分词和去除停用词处理。

可选地，商品数据挖掘处理装置还包括空间降维单元，被配置成：

另外，本申请还提供了一种商品数据挖掘处理电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的商品数据挖掘处理方法。

另外，本申请还提供了一种可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的商品数据挖掘处理方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；将热点数据根据业务标识进行分类，以生成分类数据；对各分类数据基于预设的词典进行知识抽取，以生成知识元库；获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。通过基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势基于由目标公司内部数据生成的类目词典、品牌词典、商品产品名词典与目标公司站内的商品、品牌、品类做关联，进而智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请第一实施例的商品数据挖掘处理方法的主要流程的示意图；

图2是根据本申请第二实施例的商品数据挖掘处理方法的主要流程的示意图；

图3是根据本申请第三实施例的商品数据挖掘处理方法的应用场景示意图；

图4是根据本申请实施例的商品数据挖掘处理方法的知识图谱存储方式示意图；

图5是根据本申请实施例的商品数据挖掘处理装置的主要单元的示意图；

图6是本申请实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

图1是根据本申请第一实施例的商品数据挖掘处理方法的主要流程的示意图，如图1所示，商品数据挖掘处理方法包括：

步骤S101，接收商品数据挖掘处理请求，获取对应的业务标识和热点数据。

本实施例中，热点数据可以是用户搜索频率高于阈值的数据，也可以包括各种网络热词、电视剧的经典台词、与新年主题相关的词等，本申请实施例对热点数据的内容不做具体限定。知识元，是指不可再分割的具有完备知识表达的知识单位。商品数据挖掘处理方法的执行主体(例如，可以是服务器)可以通过有线连接或无线连接的方式，接收商品数据挖掘处理请求。商品数据挖掘处理请求，具体可以是对热点趋势挖掘及关联电商品类的请求。执行主体在接收商品数据挖掘处理请求后，可以获取对应的业务标识。业务标识用于表征待与热点数据进行关联的电商公司的业务类型。执行主体还可以获取热点数据。该热点数据可以是在预设时间段内的、评价类数据或者是营销类数据等，本申请实施例对热点数据的具体内容不做限定。评价类数据中描述的可以是商品风格、成分或者是体验等。

步骤S102，将热点数据根据业务标识进行分类，以生成分类数据。

业务标识，例如商品风格对应的标识(例如SPFG)、应用体验对应的标识(例如YYTY)、应用场景对应的标识(例如YYCJ)、应用场合对应的标识(例如YYCH)、应用人群对应的标识(例如YYRQ)、节假日对应的标识(例如JJR)、气候对应的标识(例如QH)等。分类数据则分别是包含“商品风格”、“应用体验”、“应用场景”、“应用场合”、“应用人群”、“节假日”、“气候”等的数据。

本申请实施例通过将热点数据根据业务标识进行分类，以生成分类数据，可以精确的根据热点数据的业务分类与目标公司的商品、品牌、品类做关联，提升业务实际的使用效率。目标公司，可以是各个电商公司。

具体地，在将热点数据根据业务标识进行分类之前，方法还包括：对热点数据进行文本分词和去除停用词处理。

示例的，执行主体可以使用分词包jieba进行分词，对于分词结果需要进行初步去噪，去除一些无实际语义的词语，即停用词，比如“的”、“地”、“之”、“然后”等，使用的是互联网公开的停用词表。

具体地，在将热点数据根据业务标识进行分类之前，方法还包括：调用特征评估函数，以对进行文本分词和去除停用词处理后的热点数据进行特征空间降维，进而更新进行特征空间降维后的热点数据。

示例的，已经去除停用词之后的热点数据虽然去除了大部分噪音数据但依旧是稀疏高维的，需要进行细节调优，即执行主体可以使用特征评估函数对每一项特征词的权重进行计算，设置最低阈值来进一步选取有价值的特征项，去除对于分类无用以及会对分类器的判断造成影响的词语。本申请实施例使用基于词语信息熵过滤的TF-IDF算法进行文本特征空间降维，改进后的特征评估函数通过设置信息熵阈值对TF-IDF算法的IDF部分进行修正，过滤歧义性较大的词语，从而选取有价值的特征项。

步骤S103，对各分类数据基于预设的词典进行知识抽取，以生成知识元库。

知识抽取，具体可以包括对实体的抽取、对属性的抽取、对实体和属性之间的关系的抽取、对辅助知识元的抽取。辅助知识元，具体可以是一些修饰词，例如营销对象对应的营销词，示例的，如“一眼万年”、“珠光宝气”等。预设的词典，具体可以包括类目词典、品牌词典、商品产品名词典等。

具体地，生成知识元库，包括：对热点数据基于预设的词典进行实体抽取，以得到实体对应的知识元；对热点数据进行实体对应的属性的抽取，以得到属性对应的知识元；对热点数据进行实体和属性之间的关系的抽取，以得到关系对应的数据元；对热点数据进行辅助知识元的抽取，以得到辅助知识元；根据实体对应的知识元、属性对应的知识元、关系对应的数据源和辅助知识元，生成对应的知识元库。

具体知识抽取示例如下：

示例的，实体抽取：知识图谱可以分为实体及其关系，抽取出的实体除了名称之外，还包括实体的属性及同义词等。本申请实施例中的实体区别于通用实体(人名、地名、机构名、时间和数量)，更加具有电商领域性，本申请实施例中的实体主要指电商实体，包含类目、品牌、商品词，可以根据内部数据生成类目词典、品牌词典、商品产品名词典，从而完成产品实体抽取。

属性抽取：电商产品本身具有一部分工业属性，通常在商详页展示，这部分工业属性可以通过设置商品属性词典的方式识别，而另一部分则需要通过属性抽取的方式识别。本申请实施例的属性抽取分两种情况，一种是实体所对应的概念含有属性，只需抽取其属性值；另一种是实体所属概念没有属性，需要抽取其属性和属性值。

关系抽取：从处理后的热点数据中识别实体、属性之间的关系。

知识元，是指不可再分割的具有完备知识表达的知识单位。辅助知识元，具体可以是营销对象对应的营销词。

营销对象-营销词抽取：除了电商商品实体、属性及关系之外，还会有其他类型的热点关键词，此类关键词无具体含义但是可以辅助业务在营销类场景中进行文案创作(这是很多营销类业务的强诉求)，统一归类为“营销对象-营销词”。例如：“一眼万年的珍珠项链”，其中“一眼万年”无具体含义，但是可辅助业务应用于营销场景的创作。

执行主体在基于预设的词典对各分类数据进行知识抽取后，抽取到的知识组成知识元库。也就是说在知识元库中存储有抽取到的实体、实体对应的属性、实体与对应的属性之间的关系以及辅助知识元。在知识元库中每一个实体为一个知识元，每一个属性为一个知识元，每一个关系为一个知识元。

步骤S104，获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱。

执行主体在得到知识元库后，可以对知识元库中的知识进行属性聚类(也就是将相似的属性进行融合)，并进行聚类后的属性对应的实体的聚类(也就是将相似的实体进行融合)，进而生成各个属性聚类簇和各个实体聚类簇，然后根据生成的各个属性聚类簇和各个实体聚类簇生成知识图谱。

具体地，将知识元库中的各知识元进行相似度融合，包括：

基于相似度计算对知识元库中的各知识元进行近义词识别；将识别到的属于近义词的知识元进行融合。

属性相似度计算：属性转化为属性向量-计算两个属性向量之间相似度(具体数值)-得到属性相似度；

实体相似度计算：实体对应属性间相似度-计算得到实体相似度。

具体为将知识元库中的每一个知识元基于词嵌入的方式转换为知识元向量，然后将知识元库中各属性对应的知识元向量两两计算相似度，相似度小于预设属性相似度阈值，则对应的属性(每一个属性就是一个知识元)互为近义词。将相似度小于预设属性相似度阈值的知识元向量对应的知识元(即互为近义词的知识元)进行融合，也就是将知识元库中的互为近义词的各属性对应的知识元进行融合。在基于近义词对知识元库中的属性对应的知识元进行融合后，执行主体可以确定知识元库中的各个实体对应的属性，进而根据各个实体对应的属性间的属性相似度，计算得到实体间的实体相似度，进而执行主体可以根据实体相似度，将知识元库中的实体对应的知识元进行融合。具体地，执行主体可以将知识元库中的实体相似度小于预设实体相似度阈值的实体确定为互为近义词。例如实体A和实体B的相似度小于预设实体相似度阈值C，则实体A和实体B互为近义词。将互为近义词的实体对应的知识元进行融合。

基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱。知识图谱的数据格式及示例如下所示：

具体地，在生成对应的知识图谱之后，方法还包括：

响应于知识图谱中含有如知识图谱的数据格式及示例中的序号3所示的实体、实体对应的属性、属性对应的属性值以及实体和属性的关系；将属性和属性值进行如图4所示的c中的C所示的封装，以实体为键，以进行封装后的属性和属性值为值，基于关系生成键值对并存储。

具体地，在生成对应的知识图谱之后，方法还包括：

响应于知识图谱中含有如知识图谱的数据格式及示例中的序号4所示的实体和实体对应的辅助知识元(辅助知识元，即起辅助作用的知识元，例如营销词)，将实体和辅助知识元进行如图4所示的d中的D所示的封装并存储。

步骤S105，基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。

执行主体可以将目标电商公司，例如S公司的各个商品、品牌、品类与基于热点数据生成的知识图谱进行匹配，以确定S公司中与生成的该知识图谱匹配的各个商品、品牌、品类，并基于匹配得到的各个商品、品牌、品类进行推荐信息的生成。生成推荐信息后，执行主体可以基于该推荐信息对业务标识对应的业务进行处理，具体可以是将该推荐信息推送给目标客户(目标客户，例如可以是对热点数据做出贡献的客户，具体可以是进行过热点数据的搜索的客户，本申请实施例对目标客户不做具体限定)。

具体地，生成推荐信息，包括：

将预设物品池中的各物品与知识图谱进行匹配，将匹配到的物品确定为目标物品。预设物品池，例如目标电商公司的各个待售商品或各个待售服务组成的池子。这里的物品可以包括实物，例如商品，也可以包括服务等，本申请实施例对物品的类型不做具体限定。目标物品，例如可以是目标电商公司中的与知识图谱匹配的物品或服务。基于目标物品生成推荐信息。将目标物品按照预设的格式生成推荐信息。推荐信息例如可以是链接、二维码、条形码或者是物品或服务的名称(目标用户点击该物品或服务的名称即可跳转至相应的物品详情页或者服务详情页)。

本实施例通过接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；将热点数据根据业务标识进行分类，以生成分类数据；对各分类数据基于预设的词典进行知识抽取，以生成知识元库；获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。通过基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势基于由目标公司内部数据生成的类目词典、品牌词典、商品产品名词典与目标公司站内的商品、品牌、品类做关联，进而智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

图2是根据本申请第二实施例的商品数据挖掘处理方法的主要流程示意图，如图2所示，商品数据挖掘处理方法包括：

步骤S201，接收商品数据挖掘处理请求，获取对应的业务标识和热点数据。

步骤S202，将热点数据根据业务标识进行分类，以生成分类数据。

步骤S203，对各分类数据基于预设的词典进行知识抽取，以生成知识元库。

步骤S204，获取知识元库中的辅助知识元，确定知识元库中的各知识元对应的实体和实体对应的属性。

步骤S205，将各属性转化为属性向量，根据各属性向量确定各属性之间的属性相似度。

将各属性基于词嵌入的方法转化为属性向量。对转化后的各属性向量计算余弦相似度，将计算出的各属性向量之间的余弦相似度确定为各属性向量对应的属性之间的属性相似度。

步骤S206，根据各属性相似度，确定对应的实体之间的实体相似度。

执行主体可以确定各实体对应的属性，根据各实体对应的属性之间的属性相似度来确定各实体之间的实体相似度。例如实体1对应属性1，实体2对应属性2，则实体1和实体2的实体相似度可以基于属性1和属性2的属性相似度来确定。具体地，实体1和实体2的实体相似度可以为属性1和属性2的属性相似度，也可以为属性1和属性2的属性相似度乘以一个权重，本申请实施例对如何根据属性相似度确定实体相似度的方法不做具体限定。

步骤S207，根据实体相似度进行对应的实体的融合，根据属性相似度进行对应的属性的融合。

这里的融合可以是以一个共同的名字来命名相似度小于阈值的实体，例如用P来命名相似度小于阈值的实体1和实体2，即实体1和实体2经过融合后，均可以用P来表示。当然，可以理解的是，执行主体也可以用实体1和实体2中的任一个名字来作为实体融合后的名字。本申请实施例对融合的结果不做具体限定。可以理解的是，本申请实施例的融合就相当于是聚类，对实体进行聚类，对实体对应的属性进行聚类。执行主体可以将实体相似度小于实体相似度阈值时对应的实体进行融合，即进行实体聚类，并统一命名，可以将属性相似度小于属性相似度阈值时对应的属性进行融合，即进行属性聚类，并统一命名。以便于基于融合后的实体和属性生成对应的知识图谱。

步骤S208，基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱。

执行主体可以将进行相似度融合后的实体对应的知识元和进行相似度融合后的属性对应的知识元作为节点，并通过进行相似度融合后的实体和属性之间的关系作为边以进行属性对应的节点和实体对应的节点之间的连接，进行知识图谱的构建，并且根据辅助知识元(例如“一片搞定”、“不怕胖”)与实体和属性之间的对应关系，将辅助知识元也作为节点加入知识图谱的构建，最终构建得到对应的类目知识图谱。并基于图4中的a、b、c、d、e的形式对类目知识图谱进行实体-关系-实体、实体-“属性”关系-属性、实体-“属性”关系-(属性/属性值)、实体(属性)/营销词、Dictionary{实体词n：[同义词1，同义词2……]}等形式的存储，以便于后续快速调用。

步骤S209，基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。

本申请实施例可以实现方便、准确、快捷地推荐与热点数据相关的商品、品牌、品类，提高信息推荐效率。

图3是根据本申请第三实施例的商品数据挖掘处理方法的应用场景示意图。商品数据挖掘处理方法，应用于将热点数据与公司的商品、品牌、品类做精确的匹配，以准确推荐对热点数据相关的公司商品、品牌、品类的场景。如图3所示，本发明基于原有的热词挖掘的基础，将热词分类与类目知识图谱融合。整个流程可分为“热点文本数据爬取”、“文本预处理”“类目知识图谱构建”三个关键步骤。本申请实施例中，TF-IDF算法：TF-IDF(termfrequency–inverse document frequency)是用于文本分词结果加权的常用方法，其主要思想是如果一个词语在文本中出现频率高而在其他文本中出现频率低，则这个词在文本中的描述则更加准确，用以评估一个词语对于表达文本内容的重要程度。基于词语信息熵过滤的TF-IDF算法：词条文本分布越均匀，对分类的贡献越小，歧义越大，则信息熵也越大，那词语的特征值就应该越小。改进后的特征评估函数通过设置信息熵阈值对TF-IDF算法的IDF部分进行修正，过滤歧义性较大的词语。Word2Vec：是一种算法模型，可以将特征词表征为实数向量值，让相似度越高的两个词在向量空间中距离越近

本申请实施例的商品数据挖掘处理方法可以应用于商品数据挖掘处理模型，即是商品数据挖掘处理模型中所执行的商品数据挖掘处理方法。商品数据挖掘处理模型的建立过程必要的硬件条件为需要一种电子设备，至少一个处理器，并且与处理器通信连接的至少一个存储器，存储器存储有可被处理器执行的程序指令，处理器调用程序指令，能够执行“热点文本数据爬取”、“文本预处理”“类目知识图谱构建”三步骤中任意一步。

如图3所示，为商品数据挖掘处理模型的建立过程的各步骤详细操作：

步骤一：热点文本数据爬取及人工打标

进行热点文本数据爬取的目标是获取站外电商和内容平台中的有关电商相关的热度文章(即热点数据)，通过业务定义好的关键主题(营销活动搭建主题)，爬取每个关键主题搜索出的TOP文本，采集信息主要有文章标题、文章内容、文章评论、收藏量、评论数等内容。

抓取到的文本信息，需要进行人工打标处理，打标数据集可分成训练数据集和测试数据集，训练数据集和测试数据集按7：3的比例划分。打标分两步，首先需要对挖掘到的文本信息进行人工分词；其次需要对分词完毕的关键词进行分类，类别由业务侧事先定义，包含“商品风格”、“应用体验”、“应用场景”、“应用场合”、“应用人群”、“节假日”、“气候”等一共19项分类，这些分类为业务对热点趋势的主要关注角度，定义清晰彼此间无交叉。

步骤二：文本预处理

抓取到的文本数据在文本预处理的时候主要分为“分词/去除停用词”及“热点关键词分类”两个分步骤：

1、文本分词/去除停用词

使用分词包jieba进行分词，对于分词结果需要进行初步去噪，去除一些无实际语义的词语，即停用词，比如“的”、“地”、“之”、“然后”等，使用的是互联网公开的停用词表。

2、特征空间降维

已经去除停用词之后的文本数据虽然去除了大部分噪音数据但依旧是稀疏高维的，需要进行细节调优，即使用特征评估函数对每一项特征词的权重进行计算，设置最低阈值来进一步选取有价值的特征项，去除对于分类无用以及会对分类器的判断造成影响的词语。本申请实施例使用基于词语信息熵过滤的TF-IDF算法进行文本特征空间降维，改进后的特征评估函数通过设置信息熵阈值对TF-IDF算法的IDF部分进行修正，过滤歧义性较大的词语，从而选取有价值的特征项。

3、热点关键词分类

文本分类类别由业务侧事先定义，包含“商品风格”、“应用体验”、“应用场景”、“应用场合”、“应用人群”、“节假日”、“气候”等一共19项分类，这些分类为业务对热点趋势的主要关注角度，定义清晰彼此间无交叉。由于类别较多，且部分数据存在同时命中两个分类的情况，在分类模型搭建时，将19个分类划分为两个模型分别进行训练，分类模型为多分类模型。

判断文本是否处理完毕，若是的进行后续的类目知识图谱构建，若否则继续进行文本分词/去除停用词、特征空间降维、热点关键词分类的文本预处理。

步骤三：类目知识图谱构建

电商知识图谱构建算法结合类目和商品体系、百度百科词条、电商行业词条等，为三级类目构建包含类目、属性、品牌等在内的行业知识图谱。并利用大量的文本数据，进行词嵌入WordEmbedding训练，对电商的类目知识图谱进行语义扩充。

类目知识图谱构建，包括知识抽取、融合、概念构建三个步骤。

(1)知识抽取

1)实体抽取：需要构建的知识图谱可以包括实体及其关系，则为了构建知识图谱抽取出的实体除了名称之外，还包括实体的属性及同义词等。在商品数据挖掘处理模型中的实体区别于通用实体(人名、地名、机构名、时间和数量)，更加具有电商领域性，商品数据挖掘处理模型中实体指电商实体，包含类目、品牌、商品词，可以根据内部数据生成类目词典、品牌词典、商品产品名词典，从而完成产品实体抽取。

2)属性抽取：电商产品本身具有一部分工业属性，通常在商详页展示，这部分工业属性可以通过设置商品属性词典的方式识别，而另一部分则需要通过属性抽取的方式识别。分两种情况，一种是实体所对应的概念含有属性，只需抽取其属性值；另一种是实体所属概念没有属性，需要抽取其属性和属性值。

3)关系抽取：可以识别到热点数据中实体、属性之间的关系，

4)营销对象-营销词抽取：除了电商商品实体、属性及关系之外，还会有其他类型的热点关键词，此类关键词无具体含义但是可以辅助业务在营销类场景中进行文案创作(这是很多营销类业务的强诉求)，统一归类为“营销对象-营销词”。例如：“一眼万年的珍珠项链”，其中“一眼万年”无具体含义，但是可辅助业务应用于营销场景的创作。

(2)融合

由于在进行趋势热点挖掘时，是基于全网电商&内容平台的文本数据分析，因此需要对不同来源的数据进行融合。本申请实施例基于统计角度，利用词向量衡量实体词、属性词及关系词的语义相似度。将实体词语映射到统一的向量空间模型中,通过空间距离衡量语义上的相似度。为适应产品知识图谱中实体链接、属性链接任务的电商领域性，将通用语料和电商领域专有语料结合作为训练语料即训练数据集。使用Word2Vec进行文本向量表示，将特征词表征为实数向量值，并且让相似度越高的两个词在向量空间中距离越近，基于训练得到的词向量模型，通过比较词向量距离，获取语义相同或相近的同义词对，完成实体链接和属性链接。

假设两个实体的记录x和y，x和y在第i个属性上的值是xi，yi，那么通过如下两步进行实体和属性的链接：

1)属性相似度：综合单个属性向量得到属性相似度；

2)实体相似度：根据属性相似度得到一个实体的相似度。

(3)概念构建

类目知识图谱的实体和属性是独立存储的节点，而实体间的关系可作为节点间的关系存储。实体词(或属性词)和同义词，是实体链接、属性链接等任务的基础，数据容量不大，在产品知识图谱存储、绘制过程中需要多次调用，可按照键-值对(Key-Value)的方式(例如三元组：实体-关系-实体OR实体-属性-属性值、二元组：实体-营销词属性-营销词同义词组)本地化存储到文件中。

然后调用测试数据集进行数据结果质量评估，评估通过后即可应用构建的商品数据挖掘处理模型进行入库检索。

入库检索：以上，则成功构建了一个商品数据挖掘处理模型，通过将获取的热点数据和目标公司的商品、品牌、品类等数据输入该商品数据挖掘处理模型，即可得到对应的推荐信息，实现方便、准确、快捷地推荐与热点数据相关的商品、品牌、品类，提高信息推荐效率。

通过在实体-关系-属性的知识图谱中融入营销词，保留无实际语义但在搭建营销场景中可用的词汇，辅助业务侧将挖掘到的热点趋势应用于营销场景的搭建以及营销标语的生产。将近义词识别融入电商类目知识图谱的构建，通过近义词识别可以为更多的热点标签/营销词挂靠类目、商品，将新老数据进行合并重组，不断丰富类目知识图谱。基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势与京东站内的商品、品牌、品类做关联，提升业务实际的使用人效。

图5是根据本申请实施例的商品数据挖掘处理装置的主要单元的示意图。如图5所示，商品数据挖掘处理装置500包括接收单元501、分类数据生成单元502、知识元库生成单元503、知识图谱生成单元504和商品数据挖掘处理单元505。

接收单元501，被配置成接收商品数据挖掘处理请求，获取对应的业务标识和热点数据。

分类数据生成单元502，被配置成将热点数据根据业务标识进行分类，以生成分类数据。

知识元库生成单元503，被配置成对各分类数据基于预设的词典进行知识抽取，以生成知识元库。

知识图谱生成单元504，被配置成获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱。

商品数据挖掘处理单元505，被配置成基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。

在一些实施例中，知识图谱生成单元504进一步被配置成：确定知识元库中的各知识元对应的实体和实体对应的属性；将各属性转化为属性向量，根据各属性向量确定各属性之间的属性相似度；根据各属性相似度，确定对应的实体之间的实体相似度；根据实体相似度进行对应的实体的融合，根据属性相似度进行对应的属性的融合。

在一些实施例中，知识图谱生成单元504进一步被配置成：基于相似度计算对知识元库中的各知识元进行近义词识别；将识别到的属于近义词的知识元进行融合。

在一些实施例中，知识元库生成单元503进一步被配置成：对热点数据基于预设的词典进行实体抽取，以得到实体对应的知识元；对热点数据进行实体对应的属性的抽取，以得到属性对应的知识元；对热点数据进行实体和属性之间的关系的抽取，以得到关系对应的数据元；对热点数据进行辅助知识元的抽取，以得到辅助知识元；根据实体对应的知识元、属性对应的知识元、关系对应的数据源和辅助知识元，生成对应的知识元库。

在一些实施例中，商品数据挖掘处理装置还包括图5中未示出的键值对生成单元，被配置成：响应于知识图谱中含有实体、实体对应的属性、属性对应的属性值以及实体和属性的关系；将属性和属性值进行封装，以实体为键，以进行封装后的属性和属性值为值，基于关系生成键值对并存储。

在一些实施例中，商品数据挖掘处理装置还包括图5中未示出的封装单元，被配置成：响应于知识图谱中含有实体和实体对应的辅助知识元，将实体和辅助知识元进行封装并存储。

在一些实施例中，商品数据挖掘处理单元505进一步被配置成：将预设物品池中的各物品与知识图谱进行匹配，将匹配到的物品确定为目标物品；基于目标物品生成推荐信息。

在一些实施例中，分类数据生成单元502进一步被配置成：对热点数据进行文本分词和去除停用词处理。

在一些实施例中，商品数据挖掘处理装置还包括图5中未示出的空间降维单元，被配置成：调用特征评估函数，以对进行文本分词和去除停用词处理后的热点数据进行特征空间降维，进而更新进行特征空间降维后的热点数据。

需要说明的是，在本申请商品数据挖掘处理方法和商品数据挖掘处理装置在具体实施内容上具有相应关系，故重复内容不再说明。

图6示出了可以应用本申请实施例的商品数据挖掘处理方法或商品数据挖掘处理装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有商品数据挖掘处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所提交的商品数据挖掘处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；将热点数据根据业务标识进行分类，以生成分类数据；对各分类数据基于预设的词典进行知识抽取，以生成知识元库；获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。通过基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势基于由目标公司内部数据生成的类目词典、品牌词典、商品产品名词典与目标公司站内的商品、品牌、品类做关联，进而智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

需要说明的是，本申请实施例所提供的商品数据挖掘处理方法一般由服务器605执行，相应地，商品数据挖掘处理装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本申请实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有计算机系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、分类数据生成单元、知识元库生成单元、知识图谱生成单元和商品数据挖掘处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种可读介质，该可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备接收商品数据挖掘处理请求，获取对应的业务标识和热点数据；将热点数据根据业务标识进行分类，以生成分类数据；对各分类数据基于预设的词典进行知识抽取，以生成知识元库；获取知识元库中的辅助知识元，并将知识元库中的各知识元进行相似度融合，以基于辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；基于知识图谱，生成推荐信息，以基于推荐信息对业务标识对应的业务进行处理。通过基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势基于由目标公司内部数据生成的类目词典、品牌词典、商品产品名词典与目标公司站内的商品、品牌、品类做关联，进而智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

根据本申请实施例的技术方案，通过基于业务实际发展过程中的实际诉求，丰富热点挖掘模式，从热点关键词按业务视角分类，到建立电商类目知识图谱，将全网热点趋势基于由目标公司内部数据生成的类目词典、品牌词典、商品产品名词典与目标公司站内的商品、品牌、品类做关联，进而智能推荐与热点信息相关的商品信息，以提升业务实际的使用效率。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种商品数据挖掘处理方法，其特征在于，包括：

将所述热点数据根据所述业务标识进行分类，以生成分类数据；

对各所述分类数据基于预设的词典进行知识抽取，以生成知识元库；

获取所述知识元库中的辅助知识元，并将所述知识元库中的各知识元进行相似度融合，以基于所述辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；

基于所述知识图谱，生成推荐信息，以基于所述推荐信息对所述业务标识对应的业务进行处理。

2.根据权利要求1所述的方法，其特征在于，所述将所述知识元库中的各知识元进行相似度融合，包括：

确定所述知识元库中的各知识元对应的实体和所述实体对应的属性；

将各所述属性转化为属性向量，根据各所述属性向量确定各所述属性之间的属性相似度；

根据各所述属性相似度，确定对应的实体之间的实体相似度；

根据所述实体相似度进行对应的实体的融合，根据所述属性相似度进行对应的属性的融合。

3.根据权利要求1所述的方法，其特征在于，所述将所述知识元库中的各知识元进行相似度融合，包括：

基于相似度计算对所述知识元库中的各知识元进行近义词识别；

将识别到的属于近义词的知识元进行融合。

4.根据权利要求1所述的方法，其特征在于，所述生成知识元库，包括：

对所述热点数据基于预设的词典进行实体抽取，以得到实体对应的知识元；

对所述热点数据进行所述实体对应的属性的抽取，以得到属性对应的知识元；

对所述热点数据进行所述实体和所述属性之间的关系的抽取，以得到关系对应的数据元；

对所述热点数据进行辅助知识元的抽取，以得到辅助知识元；

根据所述实体对应的知识元、所述属性对应的知识元、所述关系对应的数据源和所述辅助知识元，生成对应的知识元库。

5.根据权利要求1所述的方法，其特征在于，在所述生成对应的知识图谱之后，所述方法还包括：

响应于所述知识图谱中含有实体、所述实体对应的属性、所述属性对应的属性值以及所述实体和所述属性的关系；

将所述属性和所述属性值进行封装，以所述实体为键，以进行封装后的属性和属性值为值，基于所述关系生成键值对并存储。

6.根据权利要求1所述的方法，其特征在于，在所述生成对应的知识图谱之后，所述方法还包括：

响应于所述知识图谱中含有实体和所述实体对应的辅助知识元，将所述实体和所述辅助知识元进行封装并存储。

7.根据权利要求1所述的方法，其特征在于，所述生成推荐信息，包括：

将预设物品池中的各物品与所述知识图谱进行匹配，将匹配到的物品确定为目标物品；

基于所述目标物品生成推荐信息。

8.根据权利要求1所述的方法，其特征在于，在所述将所述热点数据根据所述业务标识进行分类之前，所述方法还包括：

对所述热点数据进行文本分词和去除停用词处理。

9.根据权利要求8所述的方法，其特征在于，在所述将所述热点数据根据所述业务标识进行分类之前，所述方法还包括：

10.一种商品数据挖掘处理装置，其特征在于，包括：

分类数据生成单元，被配置成将所述热点数据根据所述业务标识进行分类，以生成分类数据；

知识元库生成单元，被配置成对各所述分类数据基于预设的词典进行知识抽取，以生成知识元库；

知识图谱生成单元，被配置成获取所述知识元库中的辅助知识元，并将所述知识元库中的各知识元进行相似度融合，以基于所述辅助知识元和进行相似度融合后的知识元，生成对应的知识图谱；

商品数据挖掘处理单元，被配置成基于所述知识图谱，生成推荐信息，以基于所述推荐信息对所述业务标识对应的业务进行处理。

11.根据权利要求10所述的装置，其特征在于，所述知识图谱生成单元进一步被配置成：

12.根据权利要求10所述的装置，其特征在于，所述知识图谱生成单元进一步被配置成：

将识别到的属于近义词的知识元进行融合。

13.根据权利要求10所述的装置，其特征在于，所述知识元库生成单元进一步被配置成：

14.根据权利要求10所述的装置，其特征在于，所述商品数据挖掘处理装置还包括键值对生成单元，被配置成：

15.根据权利要求10所述的装置，其特征在于，所述商品数据挖掘处理装置还包括封装单元，被配置成：

16.根据权利要求10所述的装置，其特征在于，所述商品数据挖掘处理单元进一步被配置成：

基于所述目标物品生成推荐信息。

17.根据权利要求10所述的装置，其特征在于，所述分类数据生成单元进一步被配置成：

对所述热点数据进行文本分词和去除停用词处理。

18.根据权利要求17所述的装置，其特征在于，所述商品数据挖掘处理装置还包括空间降维单元，被配置成：

19.一种商品数据挖掘处理电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。