CN115905884A - 同实体店铺识别方法及其装置、设备、介质、产品 - Google Patents

同实体店铺识别方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN115905884A
CN115905884A CN202211738722.8A CN202211738722A CN115905884A CN 115905884 A CN115905884 A CN 115905884A CN 202211738722 A CN202211738722 A CN 202211738722A CN 115905884 A CN115905884 A CN 115905884A
Authority
CN
China
Prior art keywords
shop
group
store
online
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211738722.8A
Other languages
English (en)
Inventor
吴智东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Shidai Information Technology Co Ltd
Original Assignee
Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanju Shidai Information Technology Co Ltd filed Critical Guangzhou Huanju Shidai Information Technology Co Ltd
Priority to CN202211738722.8A priority Critical patent/CN115905884A/zh
Publication of CN115905884A publication Critical patent/CN115905884A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种同实体店铺识别方法及其装置、设备、介质、产品,所述方法包括:获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征;确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为同实体店铺组。本申请能精准识别电商平台中的同实体的线上店铺,可以有效维护电商平台的经营秩序。

Description

同实体店铺识别方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息处理技术,尤其涉及一种同实体店铺识别方法及其装置、设备、介质、产品。
背景技术
电子商务,简称电商,按照模式类型,可分为平台模式和独立站模式。平台式电商以集中的方式,整合了海量品牌商品,用户可以着重商品本身进行选购。不同于平台式电商,在独立站电商中,吸引用户的更多是品牌本身,也就是靠品牌流量来吸引用户。而在独立站电商中,商家需要选择一个电商平台建立自己的商城,同时,商家也可以使用同一个电商平台建立多个相似的商城。而对于一些商家,可能会通过建立多个相似的商城,来实现售卖虚假商品、仿造商品等非法目的。因此,如何找出电商平台中的相似商家,即如何挖掘出同属一个商家实体的所有商家,涉及到电商平台的风险管控水平。
传统技术中用于识别同实体商家的常见方法是通过商家账号、手机号等来关联,找出相似商家。这种方法非常容易规避,一旦商家更改了注册的账号信息,该方法自然就失效。另一种方法是通过计算邮箱账号的相似程度来发现相似商家,这种方法虽然增加了发现相似商家的维度,但是从单一的邮箱维度来进行相似商家判断,自然也会带来不少的误判。
传统技术中识别同实体商家的另一个不足是局限于对商家店铺的静态信息的识别,这些静态信息是指在一定的时间范围内不轻易变动的信息,例如手机号、邮箱地址等,对静态信息的过度关注,虽然利用了其基本不变的特性,但有利也有弊,导致对同实体店铺的特征捕获渠道变少,无法有效识别出同实体店铺。
综上,对于同实体店铺的识别技术需要进一步提升,以便提升电商平台对于店铺风险的识别能力。
发明内容
本申请的目的在于解决上述问题而提供一种同实体店铺识别方法及其相应的装置、设备、非易失性可读存储介质,以及计算机程序产品。
根据本申请的一个方面,提供一种同实体店铺识别方法,包括如下步骤:
获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;
确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;
根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
可选的,获取全部店铺组中线上店铺的店铺画像,包括:
按照全部线上店铺所注册的通信特征,将注册了相同通信特征的线上店铺划分为同一店铺组,所述通信特征包括电话号码、邮箱地址、通信地址中任意一项;
针对每个线上店铺,获取其多个特定采样特征构成店铺画像,所述多个特定采样特征包括商品动态信息特征和商户静态信息特征。
可选的,确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组,包括:
基于笛卡尔积确定第一店铺组与其他任意店铺组之间的两两线上店铺,构成的待比店铺对;
将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示;
将所述待比店铺的所述画像特征表示映射到分类空间,确定出表征其中两个线上店铺之间的语义相似度;
遍历第一店铺组的各个线上店铺,对于每个线上店铺,确定与其具有最高语义相似度的线上店铺所在的店铺组为相似店铺组。
可选的,将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示,包括:
将待比店铺对中的两个线上店铺的店铺画像中的所述商品动态信息特征编制为独热编码向量并构造为动态特征联合表示;
将待比店铺对中的两个线上店铺的店铺画像中的所述商户静态信息特征编制为文本特征向量并构造为静态特征联合表示;
将所述动态特征联合表示与静态特征联合表示构造为画像特征表示。
可选的,所述商品动态信息特征包括品类覆盖特征和/或操作覆盖特征,所述商户静态信息特征包括邮箱地址和/或网络地址。
可选的,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
构造店铺组合并消息,其中包含第一店铺组及其同实体店铺组的店铺画像;
将所述店铺组合并消息发送至审核接口;
响应所述审核接口返回的确认指令,将所述同实体店铺组与其第一店铺组合并为同一店铺组。
可选的,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
将第一店铺组与其同实体店铺组从全部店铺组中排除;
继续采用全部店铺组中未被排除的任意店铺组作为所述第一店铺组,迭代以上过程为其确定同实体店铺组。
根据本申请的另一方面,提供一种同实体店铺识别装置,包括:
画像获取模块,设置为获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;
相似识别模块,设置为确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;
异同识别模块,设置为根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
根据本申请的另一方面,提供一种同实体店铺识别设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的同实体店铺识别方法的步骤。
根据本申请的另一方面,提供一种非易失性可读存储介质,其以计算机可读指令的形式存储有依据所述的同实体店铺识别方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行该方法所包括的步骤。
根据本申请的另一方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请具有丰富的技术优势,包括但不限于:
首先,本申请先根据商户注册的通信特征划分出不同的店铺组,再根据每对店铺组中的两两线上店铺之间的店铺画像确定语义相似度,然后以其中第一店铺组的每个线上店铺为准,确定与每个线上店铺具有最高语义相似度的线上店铺所在的店铺组为相似店铺组,最后通过相似店铺组的得票率来确定部分相似店铺组为第一店铺组的同实体店铺组,实现全平台批量地识别同实体店铺组,非常高效。
其次,本申请在识别第一店铺的相似店铺组的过程中,已经事先通过通信特征对线上店铺进行组划分,在这个基础上,主要是借助线上店铺的店铺画像中的多个特定采样特征来进行语义匹配而确定线上店铺之间的相似关系,这种方式能够基于对特定采样特征的语义理解,而智能化地判决任意两个线上店铺之间的相似性,从而提升了对任意两个线上店铺之间是否构成相似的精准识别能力,在此基础上判定两个店铺组是否属于同一实体所有,更为准确。
此外,本申请对于提升电商平台中相似店铺的识别能力,提升电商平台的风控水平,具有经济实用且识别高效的作用,可以有效维护电商平台的经营秩序。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的店铺风控系统在电商平台中示例性部署相对应的网络架构;
图2为本申请的同实体店铺识别方法的一种实施例的流程示意图;
图3为本申请的实施例中确定第一店铺组的相似店铺组的流程示意图;
图4为本申请的实施例中获取待比店铺对的画像特征表示的流程示意图;
图5为本申请的实施例中审核同实体店铺组的流程示意图;
图6为本申请的实施例中迭代识别电商平台全部同实体店铺的流程示意图;
图7为本申请的同实体店铺识别装置的原理框图;
图8为本申请所采用的一种同实体店铺识别设备的结构示意图。
具体实施方式
请参阅图1,本申请一种示例性的网络架构,适用于电商平台场景,包括终端设备80、安全服务器81以及店铺服务器82。
所述安全服务器81可作为本申请的店铺风控系统的主要执行主体,所述店铺风控系统是根据本申请的同实体店铺识别方法编程实现计算机程序产品,当其运行后,执行所述方法的各个步骤,从而可以识别出电商平台中给定的第一店铺(组)的同实体店铺(组)。
所述店铺服务器82可以用于部署互联网平台的一个或多个线上店铺,各种访问所述线上店铺的网络请求均可由该店铺服务器提供的相应的应用服务进行响应。每个线上店铺具有各种适于制作其店铺画像的基础特征数据,例如店铺的品类覆盖特征数据、操作覆盖特征数据、邮箱地址、电话号码等等,这些特征数据中的任意多项,均可以用于构造所述的店铺画像。
所述终端设备80可以用来触发所述的网络请求,以便使用所述店铺服务器82中的各种应用服务,例如用来浏览所述的线上店铺,在所述线上店铺执行商品项的下单操作流程等。
所述安全服务器81可以读取所述店铺服务器82中的线上店铺的相关基础特征数据,用来更新所述线上店铺的店铺画像,再由所述店铺风控系统,根据所述店铺画像中的各种特征数据,判定两个线上店铺或两组线上店铺之间是否属于同实体店铺(组),实现对线上店铺的后台实体的异同关系的识别,从而提升电商平台识别风险店铺的监测水平。
请参阅图2,根据本申请提供的一种同实体店铺识别方法,在其一个实施例中,包括如下步骤:
步骤S1100、获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;
电商平台中,由不同商家用户(简称商户)注册有其各自的线上店铺,因而存在有海量的线上店铺,针对有些商户以同一通信特征注册有多家线上店铺的情况,将他们视为天然同属于同一经营实体所持有,可以将这些线上店铺划分为同一个店铺组,以便以组为单位对全平台中所有线上店铺进行同实体识别。不难理解,由此获得的每个店铺组,包括至少一个线上店铺。
所述的通信特征,在一个实施例中,可以是商户的电话号码,另一实施例可,也可以是商户的邮箱地址,不难理解,使用同一电话号码或同一邮箱地址的商户,通常是同一商户所有,所以理应将其划分为同一群组。当一个商户在同一平台中经营多个线上店铺时,即使各个线上店铺中所经营的商品项不完全相同,但在维护其各个线上店铺的过程中表现出的一些操作特征也可能高度相同。或者,即使操作特征上有所不同,但通常在其不同线上店铺中,也可能存在商品项或其商品类别上的交叉等,总之,以同一通信特征注册的不同线上店铺中,表现在线上店铺的特征之间,隐藏着某些语义关联。
这种关联实际上可以推广到即使没有以同一通信特征注册的不同线上店铺中,本申请正是利用这一特性而提取。因而,进一步设计线上店铺的店铺画像,使每个店铺画像均包含多个特定采样特征,这些特定采样特征的确定,以适用于捕捉以上的这种语义关联为准。例如:
一种实施例中,所述特定采样特征包括线上店铺的品类覆盖特征,所述品类覆盖特征用于描述相应线上店铺所上架的商品项在预设的商品分类体系中各个类别的分布,从而,可以通过品类覆盖特征挖掘出不同线上店铺之间所经营的商品项在品类分布上的相似性。
另一实施例中,所述特定采样特征包括线上店铺的操作覆盖特征,所述操作覆盖特征用于描述相应线上店铺在商品项的上架、下架、填写商品售卖信息、填写物流订单等操作行为的分布,从而,可以通过操作覆盖特征挖掘出不同线上店铺之间商户不同操作行为上的相似性。
再一实施例中,所述特定采样特征包括线上店铺所注册的邮箱地址和/或网络地址,考虑到同一商户可能采用相同或类似的邮箱地址来与客户保持通信,或者采用同一设备来登录不同线上店铺的后台,因而,将这些信息作为特定采样特征,在某种程度上能起到辅助识别不同线上店铺之间的语义相似性的作用。
实践中,本领域技术人员还可以按需增加其他适于挖掘不同线上店铺之间的语义关联的特定采样特征,以便根据这些特定采样特征对相应的线上店铺的各种基础特征数据进行采样,从而构造出相应线上店铺的店铺画像,使得每个线上店铺的店铺画像,均能隐含背后的商户的经营活动相对应的语义,以便通过对这些语义的挖掘来进行不同线上店铺之间的经营活动相似性的匹配,通过匹配结果来判定不同线上店铺(组)之间的背后是否存在同一经营实体。
步骤S1200、确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;
在判定电商平台中不同店铺组之间的经营实体是否相同时,可以一个店铺组为单位,将该店铺组称为第一店铺组,将第一店铺与其他任意店铺组(可称为第二店铺组)进行一一匹配,来确定出第一店铺组与其他第二店铺组的店铺组对中,两两线上店铺之间在经营活动上的相似性,再综合判定哪些第二店铺组构成第一店铺组的同实体店铺组。
为此,先确定第一店铺组中的每一个线上店铺与一个选定的第二店铺组中的各个线上店铺之间的彼此店铺画像之间的语义相似度,这样,针对第一店铺组与一个第二店铺组,便获得他们各一个线上店铺组成的店铺对之间的语义相似度。推而广之,第一店铺组中的任意线上店铺,与其他任意第二店铺组的各个线上店铺之间组成的店铺对,均能获得其相应的语义相似度。
考虑到本申请的目的在于实现店铺组之间的异同匹配,对于第一店铺组中的每一个线上店铺,当其全部第二店铺组的各个线上店铺确定出语义相似度后,仅采用其中最高语义相似度相对应的店铺对,对于其他店铺对可以忽略。这样,对于第一店铺组的每一个线上店铺来说,便有与其构成最高语义相似度的线上店铺所在的第二店铺组,所以,实际上,第一店铺组中的每一个指定的线上店铺,不仅有了映射到某一个第二店铺组相对应的最高语义相似度,而且能获得这个第二店铺组的标签,可以通过这个标签确定这个第二店铺组,这个标签所指向的第二店铺组,便成为与该指定的线上店铺所在的第一店铺组构成相似的相似店铺组。
在一个实施例中,还可以根据预设阈值,对这些为第一店铺组匹配出的相似店铺组进行筛选,具体来说,将第一店铺组中确定出的各个线上店铺相对应的最高语义相似度与该预设阈值相比较,当该最高语义相似度低于该预设阈值时,便可将相应的相似店铺组忽略,以确保为第一店铺组匹配出的全部相似店铺组中,具有较高的可置信度,以提升同实体店铺组匹配的精准度。
步骤S1300、根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
根据以上说明不难理解,第一店铺组中的每个线上店铺,均可能对应确定出相似店铺组,这样,第一店铺组可能匹配出多个相似店铺组,但目前为止,这种匹配关系只是考虑了两两线上店铺之间的店铺画像的语义关联,而未考虑第一店铺组中的多个线上店铺与相似店铺组中的多个线上店铺之间的语义关联,为进一步提升最后命中的同实体店铺组更为精准,可以采用投票机制,利用第一店铺组中各个线上店铺命中的相似店铺组的数量,来统计每个相似店铺组的得票率,再根据得票率来确定第一店铺组的同实体店铺组。
一种实施例中,确定各个相似店铺组的得票率的方式,通过将所述第一店铺组中命中同一相似店铺组的数量除以该第一店铺组命中的全部相似店铺组的总量来确定,据此,各个相似店铺组的得票率可以归一化到相同的量纲来比较。
为了进一步提升同实体店铺组的可置信度,可为得票率的优选提供一个相应的预设阈值,将各个相似店铺组的得票率与该预设阈值相比较,当相似店铺组的得票率低于所述预设阈值时,忽略该相似店铺组;当相似店铺组的得票率超过所述预设阈值时,则可将该相似店铺组确定为第一店铺组的同实体店铺组,视两者为同一经营实体所操控的组别。
按照以上过程,一个第一店铺组也可能确定出多个同实体店铺组,将这些同实体店铺组与第一店铺组均视为相同经营实体所持有,实际上是按照本申请的技术方案实现了对电商平台中的全部线上店铺的聚类,确定出具有社群关系的同实体店铺群。
当然,对于电商平台中的其他未经确定同实体店铺群的其他任意店铺组,均可将其作为第一店铺组,按照本申请的过程,进行相应的识别,通过不断的迭代,最终可实现对全平台的全部线上店铺的聚类分群。
在实现对全平台的线上店铺聚类分群的基础上,还可以进一步对同实体店铺群做进一步的控制处理,例如将对这些同实体店铺群中的各个线上店铺赋予同一个实体相对应的标签等。
根据以上实施例可知,本申请具有丰富的技术优势,包括但不限于:
首先,本申请先根据商户注册的通信特征划分出不同的店铺组,再根据每对店铺组中的两两线上店铺之间的店铺画像确定语义相似度,然后以其中第一店铺组的每个线上店铺为准,确定与每个线上店铺具有最高语义相似度的线上店铺所在的店铺组为相似店铺组,最后通过相似店铺组的得票率来确定部分相似店铺组为第一店铺组的同实体店铺组,实现全平台批量地识别同实体店铺组,非常高效。
其次,本申请在识别第一店铺的相似店铺组的过程中,已经事先通过通信特征对线上店铺进行组划分,在这个基础上,主要是借助线上店铺的店铺画像中的多个特定采样特征来进行语义匹配而确定线上店铺之间的相似关系,这种方式能够基于对特定采样特征的语义理解,而智能化地判决任意两个线上店铺之间的相似性,从而提升了对任意两个线上店铺之间是否构成相似的精准识别能力,在此基础上判定两个店铺组是否属于同一实体所有,更为准确。
此外,本申请对于提升电商平台中相似店铺的识别能力,提升电商平台的风控水平,具有经济实用且识别高效的作用,可以有效维护电商平台的经营秩序。
在本申请任意实施例的基础上,获取全部店铺组中线上店铺的店铺画像,包括:
步骤S1110、按照全部线上店铺所注册的通信特征,将注册了相同通信特征的线上店铺划分为同一店铺组,所述通信特征包括电话号码、邮箱地址、通信地址中任意一项;
在获取电商平台中全部店铺组的店铺画像的过程中,可以先读取电商平台中的各个线上店铺的注册信息中的通信特征,该通信特征是指对线上店铺的经营实体具有相对唯一指向性的特征信息,本实施例中,所述通信特征既可以是线上店铺的注册信息中的电话号码,也可以是其邮箱地址,还可以是其注册地址。
根据所述通信特征是否一致,对电商平台中的全部线上店铺进行分组处理,将其中包含有相同通信特征的多个线上店铺,划分为同一店铺组,从而将全部线上店铺划分为多个店铺组。
一种实施例中,可以同时利用多个通信特征来关联划分店铺组,具体而言,先利用其中的第一通信特征例如电话号码来完成第一次分组,然后,利用第二通信特征例如邮箱地址来寻找不同店铺组之间是否使用相同的第二通信特征,当存在这种情况时,将有成员线上店铺使用相同第二通信特征的不同店铺组合并为同一店铺组,以此类推,实现最大程度地利用通信特征这一先验知识,将电商平台的全部线上店铺进行最为彻底的分组,以便使每个店铺组中尽可能包含同一经营实体所持有的全部线上店铺,每个店铺组都包含有相同经营实体的各种泛化特征,以便后续对不同店铺组之间的相似匹配更为精准。
步骤S1120、针对每个线上店铺,获取其多个特定采样特征构成店铺画像,所述多个特定采样特征包括商品动态信息特征和商户静态信息特征。
在完成对电商平台的全部线上店铺的分组的基础上,需按照线上店铺的店铺画像所需进行特征采集,如前所述,店铺画像由多个特定采样特征构成,可以包括但不限于品类覆盖特征、操作覆盖特征、邮箱地址、网络地址等。
本实施例中,从两个维度来选定所述店铺画像的特定采样特征,分别是商品动态信息特征和商户静态信息特征。所述的商品动态信息特征,顾名思义,主要是指线上店铺日常经营过程中会产生较为频繁的日常变动的与商品项对应的特征,例如所述品类覆盖特征、操作覆盖特征等,由于商户对商品项的操作是较为频繁的,因而,可将这些特征概括为商品动态信息特征。所述静态信息表征,主要是指线上店铺日常经营过程中,与商户密切相关,但相对稳定的特征,例如所述邮箱地址通常是商户用来联系客户的相对稳定的信息,所述网络地址是商户登录线上店铺后台时的网络IP地址,由于商户通常使用专线管理线上店铺,一般也较为稳定。商品动态信息特征的特点是具有离散性,而商品动态信息特征则主要采文本的形式。
不难理解,以商品动态信息特征和商户静态信息特征来构造店铺画像,前者隐含有线上店铺的日常经营活动相对应的行为语义,后者则隐含有商户相对不变的信息的关联语义,由此,使店铺画像能够综合地表示出线上店铺背后的经营实体的隐含经营特征,据此对线上店铺进行相似识别,能够指向线上店铺背后的经营实体,可以有效实现同实体店铺的匹配,相对于单纯依靠个别注册信息例如所述的通信特征来确定同实体店铺组,智能化程度明显更高,具有更高的准确度。
在本申请任意实施例的基础上,请参阅图3,确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组,包括:
步骤S1210、基于笛卡尔积确定第一店铺组与其他任意店铺组之间的两两线上店铺,构成的待比店铺对;
在将电商平台的全部线上店铺划分为多个店铺组之后,为高效处理,对于第一店铺组中的每个线上店铺,将其与其他任意店铺组中的任意一个线上店铺进行组对,便可构造出待比店铺对。
具体来说,对于第一店铺组和第二店铺组,他们均包含有多个线上店铺,实际上是两个线上店铺集合,据此,采用笛卡尔积,也即直积,对这两个集合进行操作,便可以获得第一店铺组中的任意一个线上店铺,与第二店铺组中的各个线上店铺交叉组合而成的待比店铺对。设第一店铺组中包含有m个线上店铺,第二店铺组包含有n个线上店铺,则可以获得m*n个待比店铺对。
步骤S1220、将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示;
对于每个待比店铺对中的第一店铺组的线上店铺,可称为第一线上店铺,和第二店铺组中的线上店铺,可称为第二线上店铺,对应获取第一线上店铺和第二线上店铺的店铺画像,将他们的店铺画像都转换为相应的画像特征表示,所述画像特征表示是在对店铺画像的各个特定采样特征编码之后获得的编码信息的基础上,提取其深层语义获得的深层语义信息。
一种实施例中,可以先将第一线上店铺和第二线上店铺的商品动态信息特征分别进行编码后,分别提取深层语义信息,再拼接为同一动态特征表示,同理也将第一线上店铺和第二线上店铺的商户静态信息特征分别进行编码后,分别提取深层语义信息,再拼接为同一静态特征表示,然后再将动态特征表示与静态特征表示拼接为同一画像特征表示。
另一实施例中,可以根据不同店铺,将第一线上店铺、第二线上店铺的商品动态信息特征和商户静态信息特征对应同一店铺分别编码并提取深层语义信息后,拼接为同店特征表示,再将两个同店特征表示拼接为同一画像特征表示。
总之,所述画像特征表示是对同一待比店铺对中的两个线上店铺的店铺画像的深层语义信息的联合特征表示,可以表示出两个线上店铺对应背后经营实体的深层语义特征。
步骤S1230、将所述待比店铺的所述画像特征表示映射到分类空间,确定出表征其中两个线上店铺之间的语义相似度;
当确定出一个待比店铺的所述画像特征表示之后,采用分类器,通过所述分类器中的全连接层,将所述画像特征表示映射到预设的分类空间,确定出所述映射到所述分类空间中的正向分类相对应的分类概率,该分类概率便可以作为待比店铺对中两个线上店铺之间的语义相似度。
一种实施例中,对于待比店铺对中的两个线上店铺的语义相似度的确定,可以借助一个预先训练至收敛状态的店铺相似识别模型来预测其语义相似度。所述店铺相似识别模型的网络架构中,包括有特征表示网络和分类器,其中的分类器的分类空间可以设置为包括两个或两个以上的类别,其中一个类别为正向类别,其余类别为负向类别。事先采用相应的训练样本将该店铺相似识别模型训练至收敛状态,使其能够根据两个线上店铺的店铺画像确定出相应的画像特征表示,并将画像特征表示映射到所述分类空间,获得所述正向类别相对应的分类概率作为语义相似度。
在所述店铺相似识别模型的训练阶段,当针对一个标注为正样本的训练样本预测出所述分类空间中各个类别的分类概率时,相应采用正样本标签计算其损失值,同理,当针对一个标注为负样本的训练样本预测出所述分类空间中各个类别的分类概率时,则采用负样本标签计算其损失值。根据损失值实施对所述店铺相似识别模型的梯度更新,通过大量的训练样本对所述店铺相似识别模型实施迭代训练,使其达到收敛状态,从而可以投入线上推理阶段使用,而用于预测待比店铺对中的两个线上店铺的店铺画像之间的语义相似度。
不难理解,每个待比店铺对,均可借助所述店铺相似识别模型确定其相对应的语义相似度,该语义相似度表征了待比店铺对中两个线上店铺的店铺画像所指向的经营实体之间的语义相似程度。
步骤S1240、遍历第一店铺组的各个线上店铺,对于每个线上店铺,确定与其具有最高语义相似度的线上店铺所在的店铺组为相似店铺组。
对于第一店铺组的各个第一线上店铺来说,由于每个第一线上店铺均有与其组对的属于其他店铺组的第二线上店铺,因而,通过遍历第一店铺组的各个第一线上店铺,对包含第一线上店铺的待比店铺对都确定其相应的语义相似度,对于第一店铺组来说,便确定出了其中每个线上店铺与其他各个店铺组的每个线上店铺相对应的语义相似度。
一般来说,第一店铺组中的一个第一线上店铺与任意一个其他店铺组之间最高语义相似度,便表征了第一店铺组与该其他店铺组之间的最高语义相似度,据此,而该第一线上店铺无论与多少个其他店铺组间存在或高或低的语义相似度,更有可能构成真正的同实体店铺组的,仍然是与该第一线上店铺具有较高语义相似度较高的线上店铺所在的店铺组。根据这个原理,本实施例中,对于第一店铺组中的每一个第一线上店铺,在其所有待比店铺对所获得的语义相似度中,确定其中的最高语义相似度相对应的待比店铺对,然后,根据该待比店铺对中与该第一线上店铺相对应的第二线上店铺,再确定这个第二线上店铺所在的店铺组,作为基于该第一线上店铺确定的第一店铺组的相似店铺组。据此,基于第一店铺组中的每一个成员线上店铺,均可以确定出一个最高语义相似度相对应的相似店铺组,也就是说,为第一店铺组确定出了多个相似店铺组,且每个相似店铺组与该第一店铺组之间,均有基于第一店铺组中的一个第一线上店铺确定的最高语义相似度。
根据以上实施例可知,本申请将两个店铺组的经营实体的相似程度的比较,落地为两两店铺组中的线上店铺之间的店铺画像的相似程度的比较,并且,对于第一店铺组来说,在确定其相似店铺组时,虽然是以待比店铺对为基础来确定语义相似度,但由于针对第一店铺组中的各个线上店铺只筛选出与其具有最高语义相似度相对应的店铺组作为相似店铺组,实际上是关注了不同店铺组之间的群体相似信息,并且这种群体相似信息的确定不满足于单纯的注册信息,而是基于与经营实体相对应的店铺画像中的特定采样特征来确定的,因而,所确定的相似店铺组更为精准,既考虑了共性信息,同时也考虑了个体的关联信息,分群结果更为准确。
在本申请任意实施例的基础上,请参阅图4,将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示,包括:
步骤S1221、将待比店铺对中的两个线上店铺的店铺画像中的所述商品动态信息特征编制为独热编码向量并构造为动态特征联合表示;
在对待比店铺对中的两个线上店铺的商品动态信息特征进行编码时,考虑到商品动态信息特征是具有一定离散性,可将其构造为独热向量编码。具体来说,对于商品动态信息特征中的品类覆盖特征,按照线上店铺所发布的商品项所覆盖的商品品类,假设所有的商品品类为{c1,c2,...,ck},商家m1售卖的商品涵盖了{c1,c2,c3}这三个品类,那么可以将其转换成[1,1,1,0,0,...,0]。以此构造品类覆盖特征;同理,对于商品动态信息特征中的操作覆盖特征,假设所有的操作行为种类为{b1,b2,...,bk},商家m1的操作行为涵盖了{b1,b2,b3}这三个品类,那么可以将其转换成[1,1,1,0,0,...,0]。以此构造出操作覆盖特征。
设同一待比店铺对中,第一线上店铺的品类覆盖特征为Inputcate,first,第二线上店铺的品类覆盖特征为Inputcate,second,可以先将两个线上店铺的品类覆盖特征进行如下过程的编码:
Vcate,first=Embedding(Inputcate,first)
Vcate,second=Embedding(Inputcate,second)
Vcate=Concat(Vcate,first,Vcate,second)
Fcate=FullyConnect(Vcate)
以上编码过程表明,先分别对第一线上店铺和第二线上店铺各自的品类覆盖特征Inputcate,first、Inputcate,second进行编码之后,再将两者拼接后,再进行全连接,该过程可以在本申请的店铺相似识别模型的特征表示网络中实施。
设同一待比店铺对中,第一线上店铺的操作覆盖特征为Inputbehav,first,第二线上店铺的操作覆盖特征为Inputbehav,second,同理,可以按照如下过程实施编码:
Vbehav,first=Embedding(Inputbehav,first)
Vbehav,secand=Embedding(Inputbehav,second)
Vbehav=Concat(Vbehav,first,Vbehav,second)
Fbehav=FullyConnect(Vbehav)
可以看出,对于两个线上店铺的操作覆盖特征的编码过程也与品类覆盖特征的编码过程同理,也可以在本申请的店铺相似识别模型的特征表示网络中实施。
完成对商品动态信息特征中的各个具体特征,例如上述的品类覆盖特征和操作覆盖特征的编码后,进一步按照以下过程构造出两个线上店铺的商品动态信息特征的动态特征联合表示:
Fmerge=Concat(Fcate,Fbehav)
可见,待比店铺对中的两个线上店铺所共同构成的整个商品动态信息特征最终会被转换为同一动态特征联合表示,在其中实现对商品动态信息特征的特征表示。
步骤S1222、将待比店铺对中的两个线上店铺的店铺画像中的所述商户静态信息特征编制为文本特征向量并构造为静态特征联合表示;
对于待比店铺对中的两个线上店铺的所述商户静态信息特征来说,由于主要是文本内容,因而,可以将其对应编码为文本特征向量,并将两个线上店铺各自的文本特征向量构造为同一静态特征联合表示,其过程如下:
首先,对两个线上店铺的静态特征联合表示进行分词并添加相应的模型标签构造文本序列,例如,对于邮箱地址hi1@163.com和hi2@163.com,可以获得如下的文本序列:
[[CLS],h,i,1,@,1,6,3,.,c,o,m,[SEP],h,i,2,@,1,6,3,.,c,o,m,[SEP]]
其中[cls]和[sep]分别是用于指示Bert之类的文本编码器实施分类任务和指示分节相对应的标签。
同理,对于两个线上店铺的网络地址:127.0.0.1和127.0.0.2,其分词序列表示为:[[CLS],1,2,7,.,0,.,0,.,1,[SEP],1,2,7,.,0,.,0,.,2,[SEP]]。
然后,对于邮箱地址的文本序列,可以按照如下过程进行特征表示:
Vemail=Embedding(Inputemail)
Temail=TransformerEncoder(Vemail)
Femail=FullyConnect(Temail)
可以看出,邮箱地址的文本序列被参考文本编码器(TransformerEncoder)的词典进行编码后,输入文本编码器提取深层语义,然后再经过全连接映射,获得对应的特征表示。本申请中采用的文本编码器,也可以是Bert或者LSTM之类的借助循环神经网络实现的其他模型。
同理,网络地址的文本序列的特征表示过程如下:
Vip=Embedding(Inputip)
Tip=TransformerEncoder(Vip)
Fip=FullyConnect(Tip)
可以看出,无论是邮箱地址还是网络地址,均被视为文本进行特征表示处理,其特征表示过程相同。
最后,可将邮箱地址的特征表示Femail和网络地址的特征表示Fip再进一步拼接成静态特征联合表示。
步骤S1223、将所述动态特征联合表示与静态特征联合表示构造为画像特征表示。
在分别获得待比店铺对的动态特征联合表示和静态特征联合表示了,进一步使用拼接层,将两者拼接为同一表示,即构成待比店铺对的画像特征表示,该画像特征表示便实现了对待比店铺对中两个线上店铺的店铺画像的各种特征的综合表示,可以用于执行分类映射,通过分类映射确定待比店铺对中两个线上店铺背后的经营实体的语义关联程度。
本实施例的全过程,均可以通过本申请的店铺相似识别模型来实施,可以通过该店铺相似识别模型训练过程中的习得的权重,来控制其编码环节,从而使最终所获得的画像特征表示能够有效地突出两个线上店铺背后的经营实体的潜在关联语义,以便能够通过分类映射准确预测出这种关联语义相对应的语义相似度。
以上实施例以示例性的编码过程揭示了对待比店铺对中两个线上店铺的店铺画像的各种特征的联合表示方法,可以看出,适应店铺画像中的不同类型的信息特征,进行相应的编码,能够有效表示出各类信息特征,使相应的店铺相似模型能够进行高效的语义挖掘,而确保后续能够通过分类器预测出两个线上店铺相对应的语义相似度,作为实现店铺相似识别的可靠基础。
在本申请任意实施例的基础上,请参阅图5,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
步骤S1310、构造店铺组合并消息,其中包含第一店铺组及其同实体店铺组的店铺画像;
当为一个第一店铺组确定出其同实体店铺组之后,可以触发审核机制。首先,构造一个店铺组合并消息,为方便审核用户快速获知各个店铺组的特征,在这个店铺组合并消息中包含所述第一店铺组及其同实体店铺组的店铺画像,具体来说,包括其中的商品动态信息特征和商户静态信息特征等数据。
步骤S1320、将所述店铺组合并消息发送至审核接口;
电商平台中预设有审核接口,将所述店铺组合并消息发送至所述的审核接口,可以将店铺组合并消息发送给相应的审核用户,所述审核用户阅读所述店铺组合并消息之后,便可借助人工经验,对所述第一店铺组与同实体店铺组进行确认或驳回处理,当其予以确认时,通过审核接口回发相应的确认指令,否则回发驳回指令或不予响应亦可。
步骤S1330、响应所述审核接口返回的确认指令,将所述同实体店铺组与其第一店铺组合并为同一店铺组。
鉴于所述确认指令包含着相应的用户指示,因而,当且仅当接收到所述审核接口返回的确认指令后,才将所述同实体店铺组与其第一店铺组进行合并,将他们合并为同一店铺组,从而实现将属于相同经营实体控制的不同组的线上店铺全部合并为同一组线上店铺,实际上是实现对不同组店铺的进一步聚类,精细地挖掘出同实体店铺社群。
根据以上实施例可知,将店铺组合并消息通过审核接口与后台用户进行人机交互确认店铺组是否属于相同经营实体所有,能够进一步确保对经营实体异同的识别效果,确保对电商平台中的同实体店铺组的识别结果更为准确,有效维护电商平台的经营秩序。
在本申请任意实施例的基础上,请参阅图6,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
步骤S1400、将第一店铺组与其同实体店铺组从全部店铺组中排除;
当在电商平台中,以一个店铺组为第一店铺组,经过以上各种实施例的过程,确定出该第一店铺组的同实体店铺组之后,可以将第一店铺组与其同实体店铺组排除在电商平台的全部店铺组之外,从而,确保经确定为具有相同经营实体的各个店铺组不再参与后续的识别过程。
步骤S1500、继续采用全部店铺组中未被排除的任意店铺组作为所述第一店铺组,迭代以上过程为其确定同实体店铺组。
在排除了已经识别出的具有相同经营实体的各个店铺组之后,在电商平台剩下的其他店铺组中,重新确定一个第一店铺组,然后迭代执行本申请任意一个实施例中的在先步骤,以便进一步确定出新的第一店铺组及其同实体店铺组,以此类推,直到遍历完电商平台中的全部店铺组为止,便实现了对电商平台的全部店铺组的分群,将电商平台中的全部店铺组按照不同经营实体划分为多个同实体店铺社群。
根据以上实施例可知,通过高效的重复操作,迭代以一个店铺组为第一店铺组,进行第一店铺组的同实体店铺组的识别,从而实现将电商平台的全部店铺组的分社群处理,实现成本低,但识别效果精准,起到有效维护电商平台的经营秩序的作用。
请参阅图7,根据本申请的一个方面提供的一种同实体店铺识别装置,包括画像获取模块1100、相似识别模块1200,以及异同识别模块1300,其中,所述画像获取模块1100,设置为获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;所述相似识别模块1200,设置为确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;所述异同识别模块1300,设置为根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
在本申请任意实施例的基础上,所述画像获取模块1100,包括:店铺分组单元,设置为按照全部线上店铺所注册的通信特征,将注册了相同通信特征的线上店铺划分为同一店铺组,所述通信特征包括电话号码、邮箱地址、通信地址中任意一项;特征提取单元,设置为针对每个线上店铺,获取其多个特定采样特征构成店铺画像,所述多个特定采样特征包括商品动态信息特征和商户静态信息特征。
在本申请任意实施例的基础上,所述相似识别模块1200,包括:店铺组对单元,设置为基于笛卡尔积确定第一店铺组与其他任意店铺组之间的两两线上店铺,构成的待比店铺对;特征转换单元,设置为将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示;相似运算单元,设置为将所述待比店铺的所述画像特征表示映射到分类空间,确定出表征其中两个线上店铺之间的语义相似度;相似确定单元,设置为遍历第一店铺组的各个线上店铺,对于每个线上店铺,确定与其具有最高语义相似度的线上店铺所在的店铺组为相似店铺组。
在本申请任意实施例的基础上,特征转换单元,包括:动态信息处理单元,设置为将待比店铺对中的两个线上店铺的店铺画像中的所述商品动态信息特征编制为独热编码向量并构造为动态特征联合表示;静态信息处理单元,设置为将待比店铺对中的两个线上店铺的店铺画像中的所述商户静态信息特征编制为文本特征向量并构造为静态特征联合表示;特征联合表示单元,设置为将所述动态特征联合表示与静态特征联合表示构造为画像特征表示。
在本申请任意实施例的基础上,所述商品动态信息特征包括品类覆盖特征和/或操作覆盖特征,所述商户静态信息特征包括邮箱地址和/或网络地址。
在本申请任意实施例的基础上,本申请的同实体店铺识别装置,包括:消息构造模块,设置为构造店铺组合并消息,其中包含第一店铺组及其同实体店铺组的店铺画像;消息发送模块,设置为将所述店铺组合并消息发送至审核接口;审核合并模块,设置为响应所述审核接口返回的确认指令,将所述同实体店铺组与其第一店铺组合并为同一店铺组。
在本申请任意实施例的基础上,本申请的同实体店铺识别装置,包括:店铺排除模块,设置为将第一店铺组与其同实体店铺组从全部店铺组中排除;迭代识别模块,设置为继续采用全部店铺组中未被排除的任意店铺组作为所述第一店铺组,迭代以上过程为其确定同实体店铺组。
本申请的另一实施例还提供一种同实体店铺识别设备。如图8所示,同实体店铺识别设备的内部结构示意图。该同实体店铺识别设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该同实体店铺识别设备的计算机可读的非易失性可读存储介质,存储有操作系统、数据库和计算机可读指令,数据库中可存储有信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种同实体店铺识别方法。
该同实体店铺识别设备的处理器用于提供计算和控制能力,支撑整个同实体店铺识别设备的运行。该同实体店铺识别设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的同实体店铺识别方法。该同实体店铺识别设备的网络接口用于与终端连接通信。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的同实体店铺识别设备的限定,具体的同实体店铺识别设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中的各个模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本申请的同实体店铺识别装置中执行所有模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有模块的功能。
本申请还提供一种存储有计算机可读指令的非易失性可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的同实体店铺识别方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解,实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请对于提升电商平台中相似店铺的识别能力,提升电商平台的风控水平,具有经济实用且识别高效的作用,可以有效维护电商平台的经营秩序。

Claims (10)

1.一种同实体店铺识别方法,其特征在于,包括:
获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;
确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;
根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
2.根据权利要求1所述的同实体店铺识别方法,其特征在于,获取全部店铺组中线上店铺的店铺画像,包括:
按照全部线上店铺所注册的通信特征,将注册了相同通信特征的线上店铺划分为同一店铺组,所述通信特征包括电话号码、邮箱地址、通信地址中任意一项;
针对每个线上店铺,获取其多个特定采样特征构成店铺画像,所述多个特定采样特征包括商品动态信息特征和商户静态信息特征。
3.根据权利要求2所述的同实体店铺识别方法,其特征在于,确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组,包括:
基于笛卡尔积确定第一店铺组与其他任意店铺组之间的两两线上店铺,构成的待比店铺对;
将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示;
将所述待比店铺的所述画像特征表示映射到分类空间,确定出表征其中两个线上店铺之间的语义相似度;
遍历第一店铺组的各个线上店铺,对于每个线上店铺,确定与其具有最高语义相似度的线上店铺所在的店铺组为相似店铺组。
4.根据权利要求3所述的同实体店铺识别方法,其特征在于,将每个待比店铺对中的线上店铺的店铺画像转换为画像特征表示,包括:
将待比店铺对中的两个线上店铺的店铺画像中的所述商品动态信息特征编制为独热编码向量并构造为动态特征联合表示;
将待比店铺对中的两个线上店铺的店铺画像中的所述商户静态信息特征编制为文本特征向量并构造为静态特征联合表示;
将所述动态特征联合表示与静态特征联合表示构造为画像特征表示。
5.根据权利要求2所述的同实体店铺识别方法,其特征在于,所述商品动态信息特征包括品类覆盖特征和/或操作覆盖特征,所述商户静态信息特征包括邮箱地址和/或网络地址。
6.根据权利要求1至5中任意一项所述的同实体店铺识别方法,其特征在于,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
构造店铺组合并消息,其中包含第一店铺组及其同实体店铺组的店铺画像;
将所述店铺组合并消息发送至审核接口;
响应所述审核接口返回的确认指令,将所述同实体店铺组与其第一店铺组合并为同一店铺组。
7.根据权利要求1至5中任意一项所述的同实体店铺识别方法,其特征在于,根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组之后,包括:
将第一店铺组与其同实体店铺组从全部店铺组中排除;
继续采用全部店铺组中未被排除的任意店铺组作为所述第一店铺组,迭代以上过程为其确定同实体店铺组。
8.一种同实体店铺识别装置,其特征在于,包括:
画像获取模块,设置为获取全部店铺组中线上店铺的店铺画像,每个店铺组包括有至少一个线上店铺相对应的店铺画像,同一店铺组中的多个线上店铺均注册有相同的通信特征,每个线上店铺的店铺画像包括多个特定采样特征;
相似识别模块,设置为确定全部店铺组中第一店铺组与其他任意店铺组中,彼此两两线上店铺的店铺画像之间的语义相似度,为第一店铺组中的每个线上店铺确定与其构成最高语义相似度的线上店铺所在的其他任意店铺组为相似店铺组;
异同识别模块,设置为根据相似店铺组的数量确定各个相似店铺组的得票率,当相似店铺组的得票率超过预设阈值时,确定该相似店铺组为第一店铺组的同实体店铺组。
9.一种同实体店铺识别设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种非易失性可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202211738722.8A 2022-12-30 2022-12-30 同实体店铺识别方法及其装置、设备、介质、产品 Pending CN115905884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211738722.8A CN115905884A (zh) 2022-12-30 2022-12-30 同实体店铺识别方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211738722.8A CN115905884A (zh) 2022-12-30 2022-12-30 同实体店铺识别方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN115905884A true CN115905884A (zh) 2023-04-04

Family

ID=86482535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211738722.8A Pending CN115905884A (zh) 2022-12-30 2022-12-30 同实体店铺识别方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN115905884A (zh)

Similar Documents

Publication Publication Date Title
CN107798571B (zh) 恶意地址/恶意订单的识别系统、方法及装置
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN107908789A (zh) 用于生成信息的方法和装置
CN109543690A (zh) 用于提取信息的方法和装置
CN111008335B (zh) 一种信息处理方法、装置、设备及存储介质
CN113689233B (zh) 广告投放选品方法及其相应的装置、设备、介质
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN115620019A (zh) 商品侵权检测方法及其装置、设备、介质、产品
CN114708539A (zh) 图像类型识别方法及其装置、设备、介质、产品
CN109493186A (zh) 确定推送信息的方法和装置
CN114529239B (zh) 仓单匹配系统
CN114782943A (zh) 票据信息提取方法及其装置、设备、介质、产品
CN114863440A (zh) 订单数据处理方法及其装置、设备、介质、产品
CN114445095A (zh) 材料检测方法、装置、存储介质及电子设备
CN107948312B (zh) 一种以位置点作为信息出入口的信息归类发布方法及系统
CN116091171A (zh) 会员统计与管理系统
CN113554438A (zh) 账号的识别方法、装置、电子设备及计算机可读介质
CN115905884A (zh) 同实体店铺识别方法及其装置、设备、介质、产品
CN116049689A (zh) 相似店铺识别方法及其装置、设备、介质、产品
CN113422810A (zh) 向服务提供商发送信息的方法及设备
CN113014591B (zh) 假冒公众号的检测方法和装置、电子设备、及介质
Baby et al. Developing a Credible and Trustworthy E-Commerce Application using Blockchain and Machine Learning
CN118377975B (zh) 模型训练方法、推荐方法、搜索方法、计算设备、存储介质及程序产品
CN116911913B (zh) 一种交互结果的预测方法及装置
CN116204567B (zh) 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination