CN112818088A

CN112818088A - 商品搜索数据处理方法、装置、设备及存储介质

Info

Publication number: CN112818088A
Application number: CN202110198979.8A
Authority: CN
Inventors: 谷坤; 蒋贝贝
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-05-18
Anticipated expiration: 2041-02-23
Also published as: WO2022178932A1; CN112818088B

Abstract

本发明涉及大数据领域，公开了一种商品搜索数据处理方法、装置、设备及存储介质。该方法包括：获取用户输入的商品搜索语句；将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词；根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。本发明能快速提取用户搜索语句中的实体词，并精准地输出与用户搜索意图相匹配的强关联商品。

Description

商品搜索数据处理方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种商品搜索数据处理方法、装置、设备及存储介质。

背景技术

互联网购物是现今社会主流的购物方式之一，用户只需登录到电商网站搜索自己想要购买的商品，就能获得与自己搜索意图相匹配的相关商品，进而挑选出要购买的商品并下单成交。而各电商网站为了获得更多的成交量，需要对商品搜索的方式不断地优化和改进，使呈现出来的商品更符合用户的搜索意图，提高用户体验的同时促成交易。

现有技术中，对于商品搜索数据的处理方式繁多，大多是基于搜索关键词和商品标题的匹配算法，或者基于搜索关键词和商品分类信息的匹配算法，这些搜索数据处理方式可能会因关键词提取不准确导致匹配商品不准确、或因匹配到的商品数据量过大导致用户难以筛选意向商品的问题。另外，现有的对商品搜索数据的处理方法并未涉及到对用户不同购买意向强度的商品数据进行筛选处理，因而商品搜索结果很难符合用户预期。

发明内容

本发明的主要目的在于解决商品搜索数据的处理方式单一导致的商品搜索结果不准确的技术问题。

本发明第一方面提供了一种商品搜索数据处理方法，包括：

获取用户输入的商品搜索语句；

将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词；

根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；

获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；

根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。

可选的，在本发明第一方面的第一种实现方式中，所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层，所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词包括：

将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量；

对所述各稠密向量进行随机失活处理，得到多个新的稠密向量；

将所述各新的稠密向量输入所述双向LSTM层进行特征提取，得到隐状态特征序列；

将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算，得到标签转移矩阵；

将所述标签转移矩阵输入所述SoftMax层进行归一化处理，得到所述商品搜索语句中各字词对应的实体词概率，并将最高实体词概率对应的字词作为目标实体词。

可选的，在本发明第一方面的第二种实现方式中，在所述获取用户输入的商品搜索语句之前，还包括：

接收新增商品请求，其中，所述请求包括商品属性信息及商品实体词；

根据所述商品属性信息及所述商品实体词，对所述商品实体词进行编码，得到实体词编码并存入实体词编码库中，其中，所述实体词编码包括商品属性码及商品实体词ID。

可选的，在本发明第一方面的第三种实现方式中，在所述获取用户输入的商品搜索语句之前，还包括：

获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表；

分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词，得到多个实体词列表；

查找所述实体词编码库，得到所述各实体词列表对应的词编码列表；

计算所述各词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集。

可选的，在本发明第一方面的第四种实现方式中，所述计算所述词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集包括：

将所述第一商品列表对应的词编码列表中的各词编码进行组合，得到多个第一项集，以及将所述第二商品列表对应的词编码列表中的各词编码进行组合，得到多个第二项集；

分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度；

根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集包括：

以包含一个词编码的所述第一项集为最小第一项集，以及以包含一个词编码的所述第二项集为最小第二项集；

分别判断所述各最小第一项集的支持度是否小于预置最小支持度，若小于，则剔除所述最小第一项集和所述最小第一项集的超集，若不小于，则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集；

分别判断所述各最小第二项集的支持度是否小于所述最小支持度，若小于，则剔除所述最小第二项集和所述最小第二项集的超集，若不小于，则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集；

增加一个词编码数量的所述第一项集为所述最小第一项集，以及增加一个所述词编码数量的所述第二项集为所述最小第二项集，并继续重复执行判断所述各最小第一项集的支持度是否小于预置最小支持度步骤，以及重复执行判断所述各最小第二项集的支持度是否小于所述最小支持度步骤；

当所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度时，停止增加所述第一项集和所述第二项集。

可选的，在本发明第一方面的第六种实现方式中，所述获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码包括：

获取包含所述实体词编码的所述第一频繁项集和所述第二频繁项集，并定义第一权值和第二权值，其中所述第二权值大于所述第一权值；

分别计算所述实体词编码与所述各第一频繁项集之间的第一置信度，以及分别计算所述实体词编码与所述各第二频繁项集之间的第二置信度；

分别计算所述各第一置信度与所述第一权值的乘积，得到第一加权置信度，以及分别计算所述各第二置信度与所述第二权值的乘积，得到第二加权置信度；

根据所述第一加权置信度以及所述第二加权置信度，确定加权置信度最高的频繁项集中的实体词编码为关联实体词编码。

本发明第二方面提供了一种商品搜索数据处理装置，包括：

第一获取模块，用于获取用户输入的商品搜索语句；

识别模块，用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词；

第一查找模块，用于根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；

确定模块，用于获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；

输出模块，用于根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。

可选的，在本发明第二方面的第一种实现方式中，所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层，所述识别模块具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述商品搜索数据处理装置还包括：

接收模块，用于接收新增商品请求，其中，所述请求包括商品属性信息及商品实体词；

编码模块，用于根据所述商品属性信息及所述商品实体词，对所述商品实体词进行编码，得到实体词编码并存入实体词编码库中，其中，所述实体词编码包括商品属性码及商品实体词ID。

可选的，在本发明第二方面的第三种实现方式中，所述商品搜索数据处理装置还包括：

第二获取模块，用于获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表；

提取模块，用于分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词，得到多个实体词列表；

第二查找模块，用于查找所述实体词编码库，得到所述各实体词列表对应的词编码列表；

计算模块，用于计算所述各词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集。

可选的，在本发明第二方面的第四种实现方式中，所述计算模块包括：

组合子模块，用于将所述第一商品列表对应的词编码列表中的各词编码进行组合，得到多个第一项集，以及将所述第二商品列表对应的词编码列表中的各词编码进行组合，得到多个第二项集；分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度；

得到子模块，用于根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集。

可选的，在本发明第二方面的第五种实现方式中，所述得到子模块包括：

项集确定单元，用于以包含一个词编码的所述第一项集为最小第一项集，以及以包含一个词编码的所述第二项集为最小第二项集；

第一判断单元，用于分别判断所述各最小第一项集的支持度是否小于预置最小支持度，若小于，则剔除所述最小第一项集和所述最小第一项集的超集，若不小于，则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集；

第二判断单元，用于分别判断所述各最小第二项集的支持度是否小于所述最小支持度，若小于，则剔除所述最小第二项集和所述最小第二项集的超集，若不小于，则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集；

项集增加单元，用于增加一个词编码数量的所述第一项集为所述最小第一项集，以及增加一个所述词编码数量的所述第二项集为所述最小第二项集；

重复执行单元，用于重复执行所述项集确定单元、所述第一判断单元、所述第二判断单元及所述项集增加单元，直至所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度。

可选的，在本发明第二方面的第一种实现方式中，所述确定模块具体用于：

本发明第三方面提供了一种商品搜索数据处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述商品搜索数据处理设备执行上述的商品搜索数据处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的商品搜索数据处理方法。

本发明提供的技术方案中，为了提高对用户搜索意图的识别，对用户搜索语句中的实体词识别进行建模，提取出用户搜索语句中与商品相关的实体词，再查找提取到的实体词在实体词编码库中对应的编码，这个编码能快速获取到与之对应的产品。然后再根据这个编码获取到与之同时且频繁出现的关联实体词编码，根据这个关联实体词编码，去搜索商品数据库，能快速获得与关联实体词编码对应的产品，最后输出查找到的产品列表，并展示给用户。本发明通过快速提取搜索语句中的实体词并获得关联实体词，扩展了搜索数据的处理方式，增加了商品搜索范围，从而精准输出与用户搜索意图相匹配的强关联商品。

附图说明

图1为本发明实施例中商品搜索数据处理方法的第一个实施例示意图；

图2为本发明实施例中商品搜索数据处理方法的第二个实施例示意图；

图3为本发明实施例中商品搜索数据处理装置的第一个实施例示意图；

图4为本发明实施例中商品搜索数据处理装置的第二个实施例示意图；

图5为本发明实施例中商品搜索数据处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种商品搜索数据处理方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中商品搜索数据处理方法的第一个实施例包括：

101、获取用户输入的商品搜索语句；

可以理解的是，本发明的执行主体可以为商品搜索数据处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，商品搜索语句可以是用户输入的一个字、一个词、一句话或者一段话等等，例如“鞋”、“衣服”、“好看的袜子”、“我想买一条裤子”、“我想给妈妈送生日礼物，帮我找条合适的裙子”等等，这些商品搜索语句可以是用户直接在输入框输入的文本，也可以是通过语音识别出来的文本，因此，可能会存在一些比较口语化的搜索语句，这些语句都将被输入到实体词提取模型进行识别，进而提炼出符合用户搜索意图的目标实体词。

本实施例中，获取到用户输入的商品搜索语句之后，还可以把这些语句存储起来，作为后续训练实体词提取模型时的语料训练数据，使得模型更适合本发明的商品搜索应用场景。

可选的，在步骤101之前，还包括：

本可选实施例是对商品信息的预处理，商家在电商平台上传商品时，为自己上传的商品预先标记好了商品的属性信息和商品对应的实体词，在发送新增商品请求时，将这些数据传输给接收端，接收端对接收到的商品属性信息进行编码，在编码之前会先查找是否已经存在相同的实体词编码，如果存在的话，就直接引用已存在的实体词编码，如果不存在，则按照预置的编码规则，对接收到的商品实体词进行编码，其中，实体词编码包括商品的属性码和实体词ID，以拼接的方式合并。编码规则可以根据系统时间生成唯一的时间戳、或者根据Leaf算法等可以生成唯一编码的方法，在此不一一枚举。

本可选实施例中，所述商品属性信息可以是多维度的商品属性信息，例如，所述商品属性信息可以是商品的材质、颜色、能效、品牌、尺寸、容量、重量、功率等等，这些商品属性信息可以是由商家在上传商品时在可视化的界面进行填写或选择设置的。

可选的，在步骤101之前，还包括：

S10、获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表；

S20、分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词，得到多个实体词列表；

S30、查找所述实体词编码库，得到所述各实体词列表对应的词编码列表；

S40、计算所述各词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集。

本可选实施例中，为了计算与用户搜索商品的关联商品，需要预先对商品数据库中的商品进行关联度分析，其中，关联度分析算法是参照Apriori算法设计改进得到的，使算法更适用于商品的关联关系分析，以及计算速度更快捷。本实施例进行关联度分析的数据来源主要是全网用户意向购买的商品和已经购买的商品，其中意向购买的商品可以是用户购物车里面的商品，或者是收藏的商品，本实施例不做限制。

本可选实施例中，区分单个用户的意向购买的商品和已购买的商品，对全网用户数据中的这两种不同购买欲望强度的商品进行关联度分析，最后匹配到关联度最高的商品编码，根据这个关联商品编码去搜索商品数据库，得到关联商品，其中，关联商品将按照商品的热度、评分、成交量、价格等因素综合排序，并将综合得分较高的商品优先展示给用户，使搜索到的关联商品更符合用户预期，从而促成交易。

可选的，上述步骤S40具体包括：

S401、将所述第一商品列表对应的词编码列表中的各词编码进行组合，得到多个第一项集，以及将所述第二商品列表对应的词编码列表中的各词编码进行组合，得到多个第二项集；

S402、分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度；

S403、根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集。

本可选实施例中，获取到单个用户意向购买商品对应的实体词编码和已购买商品对应的实体词编码之后，分别将这些词编码进行组合，得到多个项集，例如，某用户购物车中有商品[“奶粉”，“纸尿裤”，“玩具”]，这些商品对应的词编码为[“a1”，“a2”，“a3”]，那么，这个用户购物车商品的项集有[“a1”]，[“a2”]，[“a3”]，[“a1”，“a2”]，[“a1”，“a3”]，[“a2”，“a3”]，[“a1”，“a2”，“a3”]7个，而已购买商品的第二项集也是同理可得，通过排列组合的方式，可以得到不同商品的组合，即本实施例中的项集。

本可选实施例中，区分所述各第一项集和所述各第二项集的支持度，即计算所述各第一项集在所有第一项集中的支持度，得到第一支持度，以及计算所述各第二项集在所有第二项集中的支持度，得到第二支持度。其中支持度的计算方法为该项集在所有项集中所占的比例，例如，一共有7个第一项集，其中某一项集出现了两次，那么这一项集的支持度为2/7。具体化为例如，有2000个用户的购物车中出现了[“奶粉”，“纸尿裤”]这一项集，而全网用户的购物车产品组成的项集总数是40000，那么[“奶粉”，“纸尿裤”]这一项集的支持度为2000/40000。

可选的，上述步骤S403具体包括：

S1、以包含一个词编码的所述第一项集为最小第一项集，以及以包含一个词编码的所述第二项集为最小第二项集；

S2、分别判断所述各最小第一项集的支持度是否小于预置最小支持度，若小于，则剔除所述最小第一项集和所述最小第一项集的超集，若不小于，则将所述最小第一项集和所述最小第一项集的子集作为第一频繁项集；

S3、分别判断所述各最小第二项集的支持度是否小于所述最小支持度，若小于，则剔除所述最小第二项集和所述最小第二项集的超集，若不小于，则将所述最小第二项集和所述最小第二项集的子集作为第二频繁项集；

S4、增加一个词编码数量的所述第一项集为所述最小第一项集，以及增加一个所述词编码数量的所述第二项集为所述最小第二项集；

S5、重复执行S1-S4，直至所述最小第一项集、所述最小第二项集的支持度均大于所述最小支持度。

本可选实施例中，根据Apriori算法的原理：如果某个项集是频繁的，那么它的所有子集也是频繁的；如果某个项集是非频繁的，那么它的所有超集也是非频繁的。延伸出了本实施例中频繁项集的计算方法，能以最小的计算量获得全网用户不同购买欲望强度的商品频繁项集。计算方法是，先以单元素项集开始，对不满足最小支持度的项集进行剔除，并根据Apriori算法的原理，剔除不满足最小支持度的项集的超集，而满足最小支持度的项集将被保留，并根据Apriori算法的原理，保留满足最小支持度的项集的子集，通过组合满足最小支持度的项集来形成更大的集合，作为频繁项集。

102、将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词；

本实施例中，为了提高搜索语句中实体词识别的精准度，对实体词识别进行建模，该模型为预先训练完成的模型，能提取到输入的文本信息中的实体词，例如，输入的语句为“帮我找一条好看的裙子”，模型的输出就是这句子中各字词是实体词的概率，由于训练样本为关于商品搜索的文本语句，且人工标注时是对语句中最能体现所要搜索的商品进行标注的，因此本模型输出应为“裙子”为实体词的概率最高。那么“裙子”将被作为目标实体词，进而去查找和裙子相关的商品。

103、根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；

本实施例中，预置的实体词编码库是通过对商家在上传商品的时候设置的商品属性信息和商品实体词进行编码得到的，当识别到用户搜索语句中的实体词后，利用这个实体词，在所述实体词编码库中查找该实体词对应的实体词编码，从而获得与之对应的商品信息，本实施例中，实体词编码作为中间值，可以存储在分布式的数据库中，使商品的搜索更加快捷。

104、获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；

本实施例中，由于商品的频繁项集已经根据一定时长内用户意向购买的商品和已购买的商品中计算得到，本实施例只需查找包含有目标实体词编码的频繁项集，就能得到对应的关联实体词编码。例如，通过计算发现，存在很多用户在购买纸尿裤的同时，还喜欢购买啤酒，那么啤酒将作为关联商品，在用户搜索纸尿裤的时候，同时展示啤酒，提供给用户选择。

105、根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。

本实施例中，得到实体词编码和关联词编码之后，提取到编码中的商品属性信息，在提取到的商品属性信息下，查找商品，本实施例的目的是减少商品的搜索量，使搜索结果能够更快速地呈现给用户，提高用户的体验。其中，由于在对实体词进行编码，结合了商品的属性码，因此，能够很容易地在实体词编码中提取到商品的属性信息，若实体词编码的方式为拼接，那么，此处只需按拼接的方式进行反向拆分，就能得到属性码。再进一步按照属性码的编码方式，对属性码进行解码，即能得到对应的商品属性信息。

本发明实施例中，为了提高对用户搜索意图的识别，对用户搜索语句中的实体词识别进行建模，提取出用户搜索语句中与商品相关的实体词，再查找提取到的实体词在实体词编码库中对应的编码，这个编码能快速获取到与之对应的产品。然后再根据这个编码获取到与之同时且频繁出现的关联实体词编码，根据这个关联实体词编码，去搜索商品数据库，能快速获得与关联实体词编码对应的产品，最后输出查找到的产品列表，并展示给用户。本发明通过实体词编码的方式能快速获取到强关联的商品，减少了用户筛选商品的时间成本，提高了商品的成交率。

请参阅图2，本发明实施例中商品搜索数据处理方法的第二个实施例包括：

201、获取用户输入的商品搜索语句；

202、将所述商品搜索语句转化为多个one-hot稀疏向量并映射为稠密向量；

203、对所述各稠密向量进行随机失活处理，得到多个新的稠密向量；

204、将所述各新的稠密向量输入所述双向LSTM层进行特征提取，得到隐状态特征序列；

205、将所述隐状态特征序列输入所述CRF层进行词性标签的转移概率计算，得到标签转移矩阵；

206、将所述标签转移矩阵输入所述SoftMax层进行归一化处理，得到所述商品搜索语句中各字词对应的实体词概率，并将最高实体词概率对应的字词作为目标实体词；

本实施例中，one-hot向量又称为独热向量，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有他独立的寄存器位，并且在任意时候，其中只有一位有效。本实施例中，利用one-hot稀疏向量来表示用户输入的商品搜索语句中的每个字词，再根据Embedding算法，把每个one-hot稀疏向量映射为稠密向量，从而降低向量的维度，提高模型的计算速度。

本实施例中，为了缓解过拟合，对各个稠密向量进行随机失活处理，目的是暂时丢弃一些不重要的参数，使得模型的稳定性和鲁棒性提高。接着，将随机失活处理后的向量输入到Bi-LSTM层，也就是双向LSTM中，自动提取句子的特征，将各字词对于的稠密向量作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态向量与反向LSTM的各个时间步在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态向量。

本实施例中，在双向LSTM层之后，还可以进行一次随机失活处理，之后再进入一个线性函数层，将隐状态向量映射到标签数的维度，从而得到自动提取的句子特征，可以把每个标签维度视作是将字词分类到各个标签类的分值，如果再对这些分值进行SoftMax处理的话，就相当于对各个位置独立进行细化分类，这样对各个位置进行标注时就无法利用已经标注过的信息，因此，接下来要进入一层CRF进行标注。

本实施例中，在双向LSTM之后，进行句子级别的序列标注，CRF层的参数是一个矩阵，矩阵中各元素表示当前元素到下一个元素的转移得分。进而在为一个位置进行标注的时候，可以利用此前已经标注过的标签。最后，整个模型的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM层输出决定的，另一部分是由CRF的转移矩阵决定的。进而利用SoftMax得到归一化后的概率。

207、根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；

208、获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；

可选的，步骤208具体包括：

本可选实施例中，置信度是针对一条规则来定义的，a->b的置信度＝支持度{a|b}/支持度{a}，其中，a|b表示ab的并集。而加权置信度是为不同购买欲望强度的项集赋予不同的权重值，假设用户意向购买商品的权重值为x，已购买商品的权重值为y，那么意向购买商品a和b，a->b的加权置信度＝支持度{a|b}*x/支持度{a}，已购买商品c和d，c->d的加权置信度＝支持度{c|d}*y/支持度{c}。

本可选实施例中，所述第一权值和第二权值可以不只是常量，也可以是通过计算预测得到的变量，其中预测的方法可以基于意向购买商品和已购买商品对应的频繁项集的交集来预测，若交集较多，则所述第一权值和所述第二权值的差值可以适当缩小，否则可以适当拉大，本发明实施例不做限制。

209、根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。

本发明实施例中，通过预先训练好的实体词识别模型识别用户输入的搜索语句中的实体词，方法是先将语句中的各字词转化为稀疏向量，再映射为低维的稠密向量，为了缓解过拟合，对稠密向量进行随机丢弃，之后再经过双向LSTM层提取特征，CRF层计算词转移概率，最后SoftMax归一化结果，得到语句中各字词为实体词的概率，再将概率最高的实体词作为目标实体词。本发明实施例能快速且精准地识别出文本中的实体词，进而提高商品搜索的准确度。

上面对本发明实施例中商品搜索数据处理方法进行了描述，下面对本发明实施例中商品搜索数据处理装置进行描述，请参阅图3，本发明实施例中商品搜索数据处理装置第一个实施例包括：

第一获取模块301，用于获取用户输入的商品搜索语句；

识别模块302，用于将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词；

第一查找模块303，用于根据所述目标实体词，查找预置实体词编码库，得到所述目标实体词对应的实体词编码；

确定模块304，用于获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码；

输出模块305，用于根据所述实体词编码及所述关联实体词编码，确定对应的商品属性信息，并根据所述商品属性信息查找预置商品数据库，输出商品搜索结果。

可选的，所述商品搜索数据处理装置还包括：

接收模块306，用于接收新增商品请求，其中，所述请求包括商品属性信息及商品实体词；

编码模块307，用于根据所述商品属性信息及所述商品实体词，对所述商品实体词进行编码，得到实体词编码并存入实体词编码库中，其中，所述实体词编码包括商品属性码及商品实体词ID。

可选的，所述商品搜索数据处理装置还包括：

第二获取模块308，用于获取预置时长内各用户意向购买的第一商品列表以及已购买的第二商品列表；

提取模块309，用于分别提取所述第一商品列表、所述第二商品列表中各商品对应的实体词，得到多个实体词列表；

第二查找模块310，用于查找所述实体词编码库，得到所述各实体词列表对应的词编码列表；

计算模块311，用于计算所述各词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集。

可选的，所述计算模块311包括：

组合子模块3111，用于将所述第一商品列表对应的词编码列表中的各词编码进行组合，得到多个第一项集，以及将所述第二商品列表对应的词编码列表中的各词编码进行组合，得到多个第二项集；分别计算所述各第一项集的第一支持度以及所述各第二项集的第二支持度；

得到子模块3112，用于根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集。

可选的，所述得到子模块3112包括：

请参阅图4，本发明实施例中商品搜索数据处理装置的第二个实施例包括：

第一获取模块301，用于获取用户输入的商品搜索语句；

可选的，所述识别模块302具体用于：

可选的，所述确定模块304具体用于：

上面图3和图4从模块化功能实体的角度对本发明实施例中的商品搜索数据处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中商品搜索数据处理设备进行详细描述。

图5是本发明实施例提供的一种商品搜索数据处理设备的结构示意图，该商品搜索数据处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对商品搜索数据处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在商品搜索数据处理设备500上执行存储介质530中的一系列指令操作。

商品搜索数据处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的商品搜索数据处理设备结构并不构成对商品搜索数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种商品搜索数据处理设备，所述商品搜索数据处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述商品搜索数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述商品搜索数据处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种商品搜索数据处理方法，其特征在于，所述商品搜索数据处理方法包括：

获取用户输入的商品搜索语句；

2.根据权利要求1所述的商品搜索数据处理方法，其特征在于，所述实体词提取模型包括双向LSTM层、CRF层及SoftMax层，所述将所述商品搜索语句输入预置实体词提取模型进行实体词识别，得到所述商品搜索语句中的目标实体词包括：

3.根据权利要求1所述的商品搜索数据处理方法，其特征在于，在所述获取用户输入的商品搜索语句之前，还包括：

4.根据权利要求3所述的商品搜索数据处理方法，其特征在于，在所述获取用户输入的商品搜索语句之前，还包括：

5.根据权利要求4所述的商品搜索数据处理方法，其特征在于，所述计算所述词编码列表中各词编码之间的支持度，得到所述各实体词对应的频繁项集包括：

6.根据权利要求5所述的商品搜索数据处理方法，其特征在于，所述根据所述各第一支持度，得到多个第一频繁项集，以及根据所述各第二支持度，得到多个第二频繁项集包括：

7.根据权利要求5所述的商品搜索数据处理方法，其特征在于，所述获取所述实体词编码对应的频繁项集，并根据所述频繁项集，确定所述实体词编码对应的关联实体词编码包括：

8.一种商品搜索数据处理装置，其特征在于，所述商品搜索数据处理装置包括：

第一获取模块，用于获取用户输入的商品搜索语句；

9.一种商品搜索数据处理设备，其特征在于，所述商品搜索数据处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述商品搜索数据处理设备执行如权利要求1-7中任一项所述的商品搜索数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的商品搜索数据处理方法。