CN113239259A - 确定相似店铺的方法和装置 - Google Patents

确定相似店铺的方法和装置 Download PDF

Info

Publication number
CN113239259A
CN113239259A CN202110489190.8A CN202110489190A CN113239259A CN 113239259 A CN113239259 A CN 113239259A CN 202110489190 A CN202110489190 A CN 202110489190A CN 113239259 A CN113239259 A CN 113239259A
Authority
CN
China
Prior art keywords
shops
embedding
similarity
stores
commerce platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110489190.8A
Other languages
English (en)
Inventor
张阳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110489190.8A priority Critical patent/CN113239259A/zh
Publication of CN113239259A publication Critical patent/CN113239259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定相似店铺的方法和装置,涉及人工智能技术领域。其中,该方法包括:基于用户在电商平台上的行为数据生成待处理的店铺标识序列;通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。通过以上步骤,能够精确量化店铺之间的相似程度,降低相似店铺的计算难度,提高相似店铺计算结果的精准性。

Description

确定相似店铺的方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种确定相似店铺的方法和装置。
背景技术
随着电子商务的不断发展,越来越多的公司以及个人选择进驻电子商务平台,也就是所谓的“开网店”。在商品推荐等实际业务场景中,确定目标店铺的相似店铺有重要意义。在现有技术中,大多是基于平台对店铺和店铺所卖商品的分类、标签、定位、描述等数据进行对比来寻找相似店铺,也有的是通过提取店铺名中的关键词,通过检索关键词库的方法寻找相似店铺。
在实现本发明的过程中,本发明的发明人发现现有确定相似店铺的方法存在以下问题:第一,现有技术中大多是定性描述店铺之间是否相似,导致难以较为精确地量化、比较店铺之间的相似程度;第二,现有寻找相似店铺的方法受限于店铺标签、关键词设置、提取等因素的影响,导致寻找相似店铺的计算难度较大,计算准确率较低。比如,店铺标签设置地是否代表店铺特点,是否能够区分不同店铺且对同一类店铺又有较好的代表性,将极大影响相似店铺计算结果的精准性。又比如,如何提取店铺名称中的关键词,对于一些店铺的店铺名称包含很少甚至不包含明确信息的情况应当如何处理,这些因素加大了相似店铺的计算难度。
发明内容
有鉴于此,本发明提供了一种确定相似店铺的方法和装置,能够精确量化店铺之间的相似程度,降低相似店铺的计算难度,提高相似店铺计算结果的精准性。
为实现上述目的,根据本发明的第一个方面,提供了一种确定相似店铺的方法。
本发明的确定相似店铺的方法包括:基于用户在电商平台上的行为数据生成待处理的店铺标识序列;通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
可选地,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的浏览行为记录,和/或,多个用户在电商平台上的购买行为记录,和/或,多个用户在电商平台上的加购行为记录。
可选地,所述基于用户在电商平台上的行为数据生成待处理的店铺标识序列包括:按照设置的时间窗口对所述多个用户在电商平台上的浏览行为记录进行切分,将切分得到的店铺标识序列中店铺数量大于或等于预设阈值的序列作为所述待处理的店铺标识序列。
可选地,所述方法还包括:在按照设置的时间窗口对所述多个用户在电商平台上的浏览行为记录进行切分之前,从多个用户在电商平台上的浏览行为记录中去除非正常用户的浏览行为记录。
可选地,所述通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量包括:将所述待处理的店铺标识序列保存为二维数组;加载预先训练得到的词嵌入模型,将所述二维数组输入所述预先训练得到的词嵌入模型以得到店铺的嵌入向量。
可选地,所述词嵌入模型为Word2vec模型。
可选地,所述根据所述店铺的嵌入向量计算店铺间的相似度包括:对店铺的嵌入向量进行两两组合以得到的店铺的嵌入向量对,利用余弦相似度计算公式计算所述店铺的嵌入向量对的余弦相似度。
为实现上述目的,根据本发明的第二个方面,提供了一种确定相似店铺的装置。
本发明的确定相似店铺的装置包括:生成模块,用于基于用户在电商平台上的行为数据生成待处理的店铺标识序列;词嵌入处理模块,用于通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;确定模块,用于根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
为实现上述目的,根据本发明的第三个方面,提供了一种电子设备。
本发明的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的确定相似店铺的方法。
为实现上述目的,根据本发明的第四个方面,提供了一种计算机可读介质。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的确定相似店铺的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过基于用户在电商平台上的行为数据生成待处理的店铺标识序列,通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理以得到店铺的嵌入向量,根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺,能够精确量化店铺之间的相似程度,降低相似店铺的计算难度,提高相似店铺计算结果的精准性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例可以应用于其中的示例性系统架构图;
图2是根据本发明第一实施例的确定相似店铺的方法的主要流程示意图;
图3是根据本发明第二实施例的确定相似店铺的方法的主要流程示意图;
图4是根据用户浏览行为数据生成店铺ID序列的示意图;
图5是根据本发明第三实施例的确定相似店铺的装置的主要模块示意图;
图6是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不影响本发明实施的情况下,本发明中的各个实施例以及实施例中的技术特征可以相互组合。
图1示出了可以应用本发明实施例的确定相似店铺的方法或确定相似店铺的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类应用提供支持的后台管理服务器。例如,后台管理服务器可以对终端设备通过网络发送的数据处理请求等进行处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的确定相似店铺的方法一般由服务器105执行,相应地,确定相似店铺的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本发明第一实施例的确定相似店铺的方法的主要流程示意图。如图2所示,本发明实施例的确定相似店铺的方法包括:
步骤S201:基于用户在电商平台上的行为数据生成待处理的店铺标识序列。
在一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的浏览行为记录。比如,可获取选定日期前N天的电商平台上的全量用户浏览行为日志,其中,N的取值与店铺相似度按周期更新的时间有关,例如N取一周、一个月、或者一个季度等。
在另一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的购买行为记录。比如,可获取选定日期前N天的电商平台上的全量用户购买行为日志。
在再一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的加购(即加入购物车)行为记录。比如,可获取选定日期前N天的电商平台上的全量用户加购行为日志。此外,所述用户在电商平台上的行为数据还可包括多个用户在电商平台上的浏览行为记录、多个用户在电商平台上的购买行为记录、以及多个用户在电商平台上的加购行为记录中的任意两者或三者的组合。
在该步骤中,通过对用户在电商平台上的行为数据进行清洗,可得到店铺标识序列。
步骤S202:通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量。
在一个可选示例中,所述词嵌入模型为Word2vec模型。Word2vec模型,最早用于处理NLP(Natural Language Processing,自然语言处理)问题,是用一个一层的神经网络把one-hot(独热)形式的稀疏词向量映射称为一个n维的稠密向量的过程,属于一种无监督的学习方法。Word2vec模型一般分为Skip-Gram和CBOW(Continuous Bag-of-Words)两种模型。Skip-Gram模型是输入特定词的词向量,输出的是与这个特定词的词向量对应的上下文词向量。CBOW模型则正好相反,输入的是某一个特定词的上下文对应的词向量,输出的是这个特定词的词向量。Skip-Gram和CBOW模型都包含三层,分别为输入层、投影层和输出层。
进一步,在上述可选示例中,可预先对Word2vec模型进行训练,再将待处理的店铺标识序列输入到训练好的Word2vec模型中,以得到店铺的嵌入向量。此外,在不影响本发明实施的情况下,所述词嵌入模型还可以采用其他神经网络模型。
步骤S203:根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
在该步骤中,可通过计算一个店铺的嵌入向量与其他店铺的嵌入向量之间的相似度,来衡量店铺间的相似度。示例性地,在计算店铺的嵌入向量的相似度时,可采用如下相似度计算方法:欧氏距离(Euc lidean Distance)、余弦相似度(Cosine Distance)、皮尔逊相关系数(Pearson Coefficient)、汉明距离(Hamming Distance)、或者曼哈顿距离(Manhattan Distance)等。
在一个可选示例中,在确定两个店铺间的相似度之后,可将两个店铺间的相似度与预设阈值进行比较,若相似度大于或等于预设阈值,认为这两个店铺为相似店铺;否则,认为这两个店铺不相似。
在另一个可选示例中,在确定目标店铺和其他店铺的相似度之后,可按照相似度由大到小的顺序对所述其他店铺进行排序,并将前M个店铺作为目标店铺的相似店铺。其中,M的取值可以为1,2,3或者其他值。
在本发明实施例中,通过基于用户在电商平台上的行为数据生成待处理的店铺标识序列,通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理以得到店铺的嵌入向量,根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺,该方法不同于现有定性确定相似店铺的方法,其是基于人工智能技术确定店铺的嵌入向量,并基于所述店铺的嵌入向量计算店铺的相似度,实现了店铺之间相似程度的精准量化,不仅可以提高寻找相似店铺的处理效率,而且提高了寻找相似店铺的精准性;而且,与现有基于标签或者关键词计算相似店铺的方法相比,该方法通过对用户在电商平台上的行为数据进行处理得到店铺标识序列,后续基于店铺标识序列处理得到店铺的嵌入向量,降低了相似店铺的计算难度,提高了相似店铺计算结果的精准性。
图3是根据本发明第二实施例的确定相似店铺的方法的主要流程示意图。如图3所示,本发明实施例的确定相似店铺的方法包括:
步骤S301:获取多个用户在电商平台上的浏览行为记录。
示例性地,在该步骤中,可获取选定日期前N天的电商平台上的全量用户浏览行为日志,其中,N的取值与店铺相似度按周期更新的时间有关,例如N取一周、一个月、或者一个季度等。
步骤S302:按照设置的时间窗口对所述多个用户在电商平台上的浏览行为记录进行切分,将切分得到的店铺标识序列中店铺数量大于或等于预设阈值的序列作为待处理的店铺标识序列。
在本发明实施例中,考虑到用户的一段紧密连续的浏览行为是相关联的,而两个时间相隔较远的浏览行为则不存在关联或者关联性很弱。为了提高后续计算相似店铺的准确性,可按照设置的时间窗口对用户在电商平台上的浏览行为记录进行切分,以切分得到店铺标识序列。其中,所述时间窗口的取值可设置为1小时,2小时,或者其他合理数值。另外,考虑到每个时间窗口内包含的店铺数量过少会影响后续计算相似店铺的准确性,甚至导致无法计算店铺的相互关系,因此在切分得到店铺标识序列后,从中筛选出店铺数量大于或等于预设阈值的序列作为待处理的店铺标识序列。
在一个可选示例中,本发明实施例的方法还包括:在步骤S302之前,从多个用户在电商平台上的浏览行为记录中去除非正常用户的浏览行为记录。具体来说,在该可选示例中,可将一段时间内浏览次数大于预设阈值的用户作为非正常用户或者说过度活跃用户,比如将一个月内浏览次数大于1000次的用户作为过度活跃用户。通过从多个用户的店铺浏览行为记录中去除过度活跃用户的店铺浏览行为记录,能够降低这些过度活跃用户的非正常浏览行为对后续计算店铺间相似度的不良影响,提高计算得到的店铺之间相似度的可靠性。
步骤S303:将所述待处理的店铺标识序列保存为二维数组。
在得到待处理的店铺标识序列之后,可将其保存为二维数组,以便后续利用词嵌入模型进行处理。其中,所述二维数组的每一行表示一个用户在一个时间窗口内按顺序浏览的店铺的标识序列。
步骤S304:加载预先训练得到的词嵌入模型,将所述二维数组输入所述预先训练得到的词嵌入模型,以得到店铺的嵌入向量。
在本发明实施例中,所述词嵌入模型具体采用Word2vec模型。Wo rd2vec模型,最早用于处理NLP(Natural Language Processing,自然语言处理)问题,是用一个一层的神经网络把one-hot(独热)形式的稀疏词向量映射称为一个n维的稠密向量的过程,属于一种无监督的学习方法。Word2vec模型一般分为Skip-Gram和CBOW(Continuous Bag-of-Words)两种模型。Skip-Gram模型是输入特定词的词向量,输出的是与这个特定词的词向量对应的上下文词向量。CBOW模型则正好相反,输入的是某一个特定词的上下文对应的词向量,输出的是这个特定词的词向量。Skip-Gram和CBOW模型都包含三层,分别为输入层、投影层和输出层。
在该步骤中,将步骤S303得到的二维数组输入预先训练得到的词嵌入模型中,以得到店铺的嵌入向量。
进一步,本发明实施例的方法还可包括:对Word2vec模型进行训练,以得到训练好的词嵌入模型。具体来说,在已经有充分训练的Wo rd2vec模型的情况下,在下一次更新模型时可以将上一次训练得到的模型当做预训练模型,在此基础上使用新的店铺标识序列数据进行模型训练,能够在一定程度上缓解数据波动对模型带来的影响。
具体实施时,在训练Word2vec模型时需要设置参数。在一个可选示例中,训练Word2vec模型时的主要参数设置情况如下:将高频词随机采样阈值设置为1e-4,将模型算法设置为Skip-Gram,将训练出的向量维度设置为32,将训练中当前词和预测词在一个序列中的最大距离设置为5,将min_count(最小词频阈值,词频少于min_count的词会被丢弃掉)设置为5,将worker(控制训练的并行数)设置为4,将迭代次数设置为5,将负采样的noiseword(噪音词)数目设置为10。在本发明实施例中,通过设置合理的参数,能够使得得到的嵌入向量更能很好地表征对应的店铺,提高后续计算出的相似店铺的准确性。
步骤S305:根据所述店铺的嵌入向量计算店铺间的相似度。
在该步骤中,可对店铺的嵌入向量进行两两组合以得到的店铺的嵌入向量对,利用余弦相似度计算公式计算所述店铺的嵌入向量对的余弦相似度。余弦相似度的值分布在-1到1之间,余弦相似度的值越大表示两个店铺的嵌入向量越相似,余弦相似度的值越小表示两个店铺的嵌入向量越不相似。
具体来说,可将店铺的嵌入向量代入到如下余弦相似度计算公式:
Figure BDA0003048972950000101
其中,A和B表示任意两个不相同的店铺的嵌入向量,A,B∈X且A≠B,X表示所有的店铺嵌入向量集合;n表示店铺嵌入向量的维度;Ai和Bi表示对应店铺嵌入向量的第i个维度的值。
步骤S306:根据所述店铺间的相似度确定相似店铺。
示例性地,在该步骤中,在确定任意两个店铺间的相似度之后,可将这两个店铺间的相似度与预设阈值进行比较,若相似度大于或等于预设阈值,认为这两个店铺为相似店铺;否则,认为这两个店铺不相似。
在本发明实施例中,通过以上步骤实现了店铺之间相似程度的精准量化。该方法不同于现有定性确定相似店铺的方法,其是基于人工智能技术确定店铺的嵌入向量,并基于所述店铺的嵌入向量计算店铺的相似度,实现了店铺之间相似程度的精准量化,不仅可以提高寻找相似店铺的处理效率,而且提高了寻找相似店铺的精准性;而且,与现有基于标签或者关键词计算相似店铺的方法相比,该方法通过对用户在电商平台上的行为数据进行处理得到店铺标识序列,后续基于店铺标识序列处理得到店铺的嵌入向量,降低了相似店铺的计算难度,提高了相似店铺计算结果的精准性。进一步,店铺相似性的计算可作为其他业务流程的基础计算数据,包括但不限于商品推荐、搜索关联、辅助店铺主指定经营策略等业务流程。例如,在商品推荐场景下,在用户进入电商平台后,可先根据本发明实施例的方法确定用户近期浏览过的目标店铺的相似店铺,然后主动向用户推荐这些相似店铺的商品;或者,在用户搜索相关店铺时,根据本发明实施例的方法确定相似店铺,然后将相似店铺的搜索结果返回给用户,以供用户参考选择。
图4是根据用户浏览行为数据生成店铺ID序列的示意图。以下结合图4对根据用户浏览行为数据生成店铺标识序列的过程进行示例性说明。如图4所示,假设有用户1、用户2、用户3这三个用户的浏览行为数据,A到F分别表示不同的店铺,图中的横向箭头表示时间轴,虚线表示时间窗口的切分,如果将每个时间窗口内至少包含的店铺数阈值设为2,则通过步骤S302切分得到4条店铺标识序列,分别为:A BC、EAD、FB和CBAE。
图5是根据本发明第三实施例的确定相似店铺的装置的主要模块示意图。如图5所示,本发明实施例的确定相似店铺的装置500包括:生成模块501、词嵌入处理模块502、确定模块503。
生成模块501,用于基于用户在电商平台上的行为数据生成待处理的店铺标识序列。
在一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的浏览行为记录。比如,可获取选定日期前N天的电商平台上的全量用户浏览行为日志,其中,N的取值与店铺相似度按周期更新的时间有关,例如N取一周、一个月、或者一个季度等。
在另一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的购买行为记录。比如,可获取选定日期前N天的电商平台上的全量用户购买行为日志。
在再一个可选示例中,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的加购(即加入购物车)行为记录。比如,可获取选定日期前N天的电商平台上的全量用户加购行为日志。此外,所述用户在电商平台上的行为数据还可包括多个用户在电商平台上的浏览行为记录、多个用户在电商平台上的购买行为记录、以及多个用户在电商平台上的加购行为记录中的任意两者或三者的组合。
词嵌入处理模块502,用于通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量。
在一个可选示例中,词嵌入处理模块502中的词嵌入模型为Word2vec模型。Word2vec模型,最早用于处理NLP(Natural Language Pro cessing,自然语言处理)问题,是用一个一层的神经网络把one-hot(独热)形式的稀疏词向量映射称为一个n维的稠密向量的过程,属于一种无监督的学习方法。Word2vec模型一般分为Skip-Gram和CBOW(Continuous Bag-of-Words)两种模型。Skip-Gram模型是输入特定词的词向量,输出的是与这个特定词的词向量对应的上下文词向量。CBOW模型则正好相反,输入的是某一个特定词的上下文对应的词向量,输出的是这个特定词的词向量。Skip-Gram和CBOW模型都包含三层,分别为输入层、投影层和输出层。
进一步,在上述可选示例中,可预先对Word2vec模型进行训练,再将待处理的店铺标识序列输入到训练好的Word2vec模型中,以得到店铺的嵌入向量。此外,在不影响本发明实施的情况下,所述词嵌入模型还可以采用其他神经网络模型。
确定模块503,用于根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
具体来说,确定模块503通过计算一个店铺的嵌入向量与其他店铺的嵌入向量之间的相似度,来衡量店铺间的相似度。示例性地,在计算店铺的嵌入向量的相似度时,确定模块503可采用如下相似度计算方法:欧氏距离(Euclidean Distance)、余弦相似度(Cosine Dista nce)、皮尔逊相关系数(Pearson Coefficient)、汉明距离(HammingDistance)、或者曼哈顿距离(Manhattan Distance)等。
在一个可选示例中,在确定两个店铺间的相似度之后,确定模块503可将两个店铺间的相似度与预设阈值进行比较,若相似度大于或等于预设阈值,认为这两个店铺为相似店铺;否则,认为这两个店铺不相似。
在另一个可选示例中,在确定目标店铺和其他店铺的相似度之后,确定模块503可按照相似度由大到小的顺序对所述其他店铺进行排序,并将前M个店铺作为目标店铺的相似店铺。其中,M的取值可以为1,2,3或者其他值。
不同于现有定性确定相似店铺的方案,本发明实施例是基于人工智能技术确定店铺的嵌入向量,并基于所述店铺的嵌入向量计算店铺的相似度,实现了店铺之间相似程度的精准量化,不仅可以提高寻找相似店铺的处理效率,而且提高了寻找相似店铺的精准性;而且,与现有基于标签或者关键词计算相似店铺的方案相比,本发明实施例通过对用户在电商平台上的行为数据进行处理得到店铺标识序列,后续基于店铺标识序列处理得到店铺的嵌入向量,降低了相似店铺的计算难度,提高了相似店铺计算结果的精准性。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CP U)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括生成模块、词嵌入处理模块、确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,生成模块还可以被描述为“生成待处理店铺标识序列的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下流程:基于用户在电商平台上的行为数据生成待处理的店铺标识序列;通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
根据本发明实施例的技术方案,能够精确量化店铺之间的相似程度,降低相似店铺的计算难度,提高相似店铺计算结果的精准性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种确定相似店铺的方法,其特征在于,所述方法包括:
基于用户在电商平台上的行为数据生成待处理的店铺标识序列;
通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;
根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
2.根据权利要求1所述的方法,其特征在于,所述用户在电商平台上的行为数据包括:多个用户在电商平台上的浏览行为记录,和/或,多个用户在电商平台上的购买行为记录,和/或,多个用户在电商平台上的加购行为记录。
3.根据权利要求2所述的方法,其特征在于,所述基于用户在电商平台上的行为数据生成待处理的店铺标识序列包括:
按照设置的时间窗口对所述多个用户在电商平台上的浏览行为记录进行切分,将切分得到的店铺标识序列中店铺数量大于或等于预设阈值的序列作为所述待处理的店铺标识序列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在按照设置的时间窗口对所述多个用户在电商平台上的浏览行为记录进行切分之前,从多个用户在电商平台上的浏览行为记录中去除非正常用户的浏览行为记录。
5.根据权利要求1所述的方法,其特征在于,所述通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量包括:
将所述待处理的店铺标识序列保存为二维数组;加载预先训练得到的词嵌入模型,将所述二维数组输入所述预先训练得到的词嵌入模型以得到店铺的嵌入向量。
6.根据权利要求4所述的方法,其特征在于,所述词嵌入模型为Word2vec模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述店铺的嵌入向量计算店铺间的相似度包括:
对店铺的嵌入向量进行两两组合以得到的店铺的嵌入向量对,利用余弦相似度计算公式计算所述店铺的嵌入向量对的余弦相似度。
8.一种确定相似店铺的装置,其特征在于,所述装置包括:
生成模块,用于基于用户在电商平台上的行为数据生成待处理的店铺标识序列;
词嵌入处理模块,用于通过词嵌入模型对所述待处理的店铺标识序列进行词嵌入处理,以得到店铺的嵌入向量;
确定模块,用于根据所述店铺的嵌入向量计算店铺间的相似度,然后根据所述店铺间的相似度确定相似店铺。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110489190.8A 2021-04-30 2021-04-30 确定相似店铺的方法和装置 Pending CN113239259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110489190.8A CN113239259A (zh) 2021-04-30 2021-04-30 确定相似店铺的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110489190.8A CN113239259A (zh) 2021-04-30 2021-04-30 确定相似店铺的方法和装置

Publications (1)

Publication Number Publication Date
CN113239259A true CN113239259A (zh) 2021-08-10

Family

ID=77131943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110489190.8A Pending CN113239259A (zh) 2021-04-30 2021-04-30 确定相似店铺的方法和装置

Country Status (1)

Country Link
CN (1) CN113239259A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947456A (zh) * 2021-10-19 2022-01-18 广州华多网络科技有限公司 线上商铺匹配方法及其装置、设备、介质、产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947456A (zh) * 2021-10-19 2022-01-18 广州华多网络科技有限公司 线上商铺匹配方法及其装置、设备、介质、产品

Similar Documents

Publication Publication Date Title
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN112668320A (zh) 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN110674621A (zh) 一种属性信息填充方法和装置
CN113743971A (zh) 一种数据处理方法和装置
CN111078849A (zh) 用于输出信息的方法和装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN110992127A (zh) 一种物品推荐方法及装置
CN111160410A (zh) 一种物体检测方法和装置
CN112418258A (zh) 一种特征离散化方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN113239259A (zh) 确定相似店铺的方法和装置
CN116562357B (zh) 点击预测模型训练方法及装置
CN110827101A (zh) 一种店铺推荐的方法和装置
CN114742163A (zh) 一种售后任务的审核方法及装置
CN115080744A (zh) 一种数据处理的方法和装置
CN114662688A (zh) 模型的训练方法、数据处理方法、装置、电子设备及介质
CN112148865B (zh) 信息推送方法和装置
CN114092194A (zh) 一种产品推荐方法、装置、介质及设备
CN113742564A (zh) 目标资源的推送方法和装置
CN112861684A (zh) 一种物品展示方法和装置
CN111475711A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN113177596B (zh) 一种区块链地址分类方法和装置
CN113111132B (zh) 一种识别目标用户的方法和装置
CN111754062B (zh) 物品质量检测模型建立的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination