CN111507782A - 一种用户流失归因聚焦方法、装置、存储介质及电子设备 - Google Patents
一种用户流失归因聚焦方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111507782A CN111507782A CN202010626688.XA CN202010626688A CN111507782A CN 111507782 A CN111507782 A CN 111507782A CN 202010626688 A CN202010626688 A CN 202010626688A CN 111507782 A CN111507782 A CN 111507782A
- Authority
- CN
- China
- Prior art keywords
- buyer
- seller
- answer
- question
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种用户流失归因聚焦方法、装置、存储介质及电子设备,方法包括:将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。通过算法分析,可以实时聚焦高频买家流失问题和卖家回答,挖掘买家咨询热点和买家诉求,定位卖家服务缺陷,从而提升买家服务满意度,提高店铺内商品的成交率。
Description
技术领域
本申请涉及电商技术领域,具体而言,涉及一种用户流失归因聚焦方法、装置、存储介质及电子设备。
背景技术
目前,随着物流和电商行业的发展,越来越多的人开始通过网络在网上经营店铺,卖家店主们也要考虑如何更好的运营店铺,提高买家满意度,增加店铺内商品的成交率。通过分析买家与卖家店主之间的会话问答的内容,可以了解到买家售前咨询商品却没有下单、买家对商品的要求和买家售后退款退货可能的原因等多个方面的信息,进而可以有针对性的进行改进,提高买家满意度和商品的成交率。
现有技术中,店铺运营需要靠卖家方中的运营人员人工地记录买家与卖家店主之间的会话问答中买家提出的投诉和流失买家订单等问题,再通过表格工具等一些工具进行整理归类或者手动归类,以此来发现店铺经营中可能存在的问题。
发明内容
本申请的目的在于提供一种用户流失归因聚焦方法、装置、存储介质及电子设备,以有效的改善现有技术存在的人工记录需要耗费大量人力和时间成本,以及因手动统计整理归纳,需要一段时间的积累才可以体现出统计学上的意义和特征的特点,所以手动统计具有延迟性,从而不能及时对买家问题有针对性的改进的技术缺陷。
本发明通过以下技术方案来实现:
第一方面,本申请实施例提供了一种用户流失归因聚焦方法,方法包括:将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。
结合第一方面,在第一种可能的实现方式中,方法还包括:将卖家回答集合进行特征处理,获得N个卖家回答簇组成的卖家回答特征集合,其中,N为大于1的整数;根据N个卖家回答簇,获得每个卖家回答簇对应的卖家中心回答,按照每个买家流失问题对应的买家问题类别,将每个判断为买家流失问题的所述买家问题簇匹配的多个卖家回答簇中卖家回答数量最多的卖家回答簇对应的卖家中心回答确定为买家流失问题的热门卖家回答。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题,包括:对买家问题集合进行特征转化处理,使得买家问题集合中的每个买家问题转化成买家问题特征向量;对每个买家问题簇中的所有买家问题特征向量进行平均值计算,获得M个问题平均向量;将距离每个问题平均向量最近距离的买家问题特征向量确定为与该买家问题簇对应的买家中心问题,获得M个与买家问题簇对应的买家中心问题;确定每个买家问题簇中的每个买家问题特征向量所对应的交易状态,其中,交易状态包括用于表征买家卖家成功交易的成交状态和用于表征买家卖家交易未成交的流失状态;计算每个买家问题簇的流失比例和成交比例,再判断以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值的计算结果是否大于预设阈值,若是,则将该所述买家问题簇确定为所述买家流失问题,其中,流失比例为一个买家问题簇中为流失状态的买家问题特征向量的个数与M个买家问题簇中为流失状态的买家问题特征向量的个数之比,成交比例为一个买家问题簇中为成交状态的买家问题特征向量的个数与M个买家问题簇中为成交状态的买家问题特征向量的个数之比。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,确定每个买家问题簇中的每个买家问题特征向量所对应的交易状态,包括:判断买家在商品交易会话问答结束后的预设时长内,是否购买商品;若是,每个买家问题特征向量对应的交易状态为成交状态;若否,每个买家问题特征向量对应的交易状态为所述流失状态。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据N个卖家回答簇,获得每个卖家回答簇对应的卖家中心回答,按照每个买家流失问题对应的买家问题类别,将每个判断为买家流失问题的买家问题簇匹配的多个卖家回答簇中卖家回答数量最多的卖家回答簇对应的卖家中心回答确定为买家流失问题的热门卖家回答,包括:对卖家回答集合进行特征转化处理,使得卖家回答集合中的每个卖家回答转化成卖家回答特征向量;对每个卖家回答簇中的所有卖家回答特征向量进行平均值计算,获得N个回答平均向量,将距离每个回答平均向量最近距离的卖家回答特征向量确定为与该卖家回答簇对应的卖家中心回答,获得N个与卖家回答簇对应的卖家中心回答;根据每个判断为买家流失问题的买家问题簇中的为流失状态的买家问题特征向量对应多个卖家回答簇,将多个卖家回答簇中的卖家回答数量最多的卖家回答簇确定为每个买家问题簇对应的卖家回答簇,并将与每个买家问题簇对应的卖家回答簇的卖家中心回答确定为每个买家流失问题对应的热门卖家回答。
结合第一方面,在第五种可能的实现方式中,在将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合之前,方法还包括:买家发送一个商品的商品链接,基于商品链接在买家与商品的卖家之间建立商品交易会话问答;获得买家在商品交易会话问答中提问的最后一个与商品有关的所述买家问题,其中,与商品有关的买家问题包括与商品自身相关的问题、与商品对应的物流问题、与商品对应的售后问题和商品的优惠问题;集合多个买家提出的多个买家问题,获得买家问题集合。
结合第一方面的第四种可能的实现方式,在第六种可能的实现方式中,在对买家问题集合进行特征转化处理,使得买家问题集合中的每个买家问题转化成买家问题特征向量之后,以及在对卖家回答集合进行特征转化处理,使得卖家回答集合中的每个卖家回答转化成卖家回答特征向量之后,方法还包括:计算每个买家问题特征向量与所有买家问题特征向量之间的距离,获得问题距离矩阵;预设每个所述买家问题簇与所述买家问题簇之间的第一平均距离阈值,通过调整第一平均距离阈值来调整买家问题簇的粒度,其中,第一平均距离阈值越小,买家问题簇的粒度越小;计算每个卖家回答特征向量与所有卖家回答特征向量之间的距离,获得回答距离矩阵;预设每个卖家回答簇与卖家回答簇之间的第二平均距离阈值,通过调整第二平均距离阈值来调整卖家回答簇的粒度,其中,第二平均距离阈值越小,卖家回答簇的粒度越小。
第二方面,本申请实施例提供了一种用户流失归因聚焦装置,装置包括:第一处理模块,用于将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;第二处理模块,用于根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。
第三方面,本申请实施例提供了一种存储介质,存储介质上存储有计算机程序,计算机程序被计算机运行时执行如第一方面,以及第一方面的任一种可能的实现方式提供的用户流失归因聚焦方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、通信总线、通信接口以及存储器;通信总线分别连接处理器、通信接口和存储器;存储器存储有计算机可读取指令,当处理器执行可读取指令时,运行第一方面,以及第一方面的任一种可能的实现方式提供的用户流失归因聚焦方法。
本发明的有益效果是:一方面,买家与卖家之间进行会话问答的过程中产生大量对话日志,通过机器以及机器学习方法对这些日志数据通过算法进行收集、整理、分析和归类等操作,可以减少人工筛选、归纳和分析的时间,节约了大量的人力和时间成本。另一方面,通过算法分析,可以实时聚焦高频买家流失问题和卖家回答,挖掘买家咨询热点和买家诉求,定位卖家服务缺陷,从而提升买家服务满意度,提高店铺内商品的成交率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构框图;
图2为本申请实施例提供的一种用户流失归因聚焦方法的流程图;
图3为本申请实施例提供的一种用户流失归因聚焦装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参阅图1,本申请一些可能的实施例提供了一种电子设备10。电子设备10可以为个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personaldigitalassistant,PDA)等,或电子设备10可以为网络服务器、数据库服务器、云服务器或由多个子服务器构成的服务器集成等。
可理解到的是,在一些应用场景中,若电子设备10服务于数量较少的对象,即电子设备10与数量较少的对象进行通信,以跟踪并监测这些对象的位置。那么,电子设备10可以不需要太多的性能的要求,故在这种情况下,电子设备10可以选择为个人电脑、平板电脑、智能手机、个人数字助理等。但在另一些应用场景中,若电子设备10服务于数量众多的对象,即电子设备10与大量的对象进行通信,以跟踪并监测这些对象的位置。那么,则对电子设备10的性能的要求很高,故在这种情况下,电子设备10可以选择为网络服务器、数据库服务器、云服务器或由多个子服务器构成的服务器集成等。
进一步地,作为一种可选地方式,该电子设备10可以包括:存储器111、通信接口112、通信总线113和处理器114。其中,处理器114、通信接口112和存储器111通过通信总线113连接。处理器114用于执行存储器111中存储的可执行模块,例如计算机程序。图1所示的电子设备10的组件和结构只是示例性的,而非限制性的,根据需要,电子设备10也可以具有其他组件和结构。
其中,存储器111可能包含高速随机存取存储器(Random Access Memory RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
通信总线113可以是ISA总线((Industry Standard Architecture,工业标准体系结构)、PCI总线(Peripheral Component Interconnect,外设部件互连标准)或EISA总线(Extended Industry Standard Architecture,扩展工业标准结构)等。通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器114可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器114中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器114可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
本发明实施例定义的装置所执行的方法可以应用于处理器114中,或者由处理器114实现。处理器114可以通过与电子设备10中其他模块或者元器件配合,从而执行基于商品交易会话问答的用户流失归因聚焦方法。下面将对基于商品交易会话问答的用户流失归因聚焦方法的执行进行详细地说明。
请参阅图2,本申请一些可能的实施例提供了一种用户流失归因聚焦方法。该用户流失归因聚焦方法可以由电子设备执行,方法包括:步骤S11和步骤S12。
步骤S11:将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;
步骤S12:根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。
下面将对该用户流失归因聚焦方法的流程做详细说明。
随着网络购物的兴起,基于卖家的网络购物客户服务通过即时工具与买家进行在线交流,解答买家的购物疑问,促成商品的成交,即在网络购物的对话过程中,买家与卖家之间的对话以购物咨询为主要目的。
详细地,在买家咨询卖家关于一件商品的相关问题前,买家先发送一个商品的商品链接。基于商品链接在买家与商品的卖家之间建立商品交易会话问答;获得买家在商品交易会话问答中提问的最后一个与商品有关的买家问题,其中,与商品有关的买家问题包括与商品自身相关的问题、与商品对应的物流问题、与商品对应的售后问题和商品的优惠问题;集合多个买家提出的多个买家问题,获得买家问题集合。通过对买家问题集合中包含的买家问题数据进行分析,可以获得造成买家流失的主要原因,针对买家流失原因进行相应的改进,以提升买家的满意度,提高商品的成交率。
作为一种可能的实现方式,若一个买家在同一个商铺中对多件商品均进行了咨询,由于对每件商品进行咨询前,都将发送该商品的商品链接给卖家,那么,可以基于每两个商品链接之间的商品交易会话问答,提取一个买家问题,作为第一个商品链接对应的商品的买家问题集中的一个子集合。
在商品交易会话问答的过程中,一个买家可以基于一件商品提出一个问题,一个买家也可以基于一件商品提出多个问题;卖家对买家提出的每个问题可以有一个相对应的回答,卖家对买家提出的每个问题也可以有多个相对应的回答。可选地,在本申请实施例中,卖家对买家提出的每个问题可以有多个相对应的回答。而对于买家,无论是买家提出一个问题还是多个问题,都将提取买家问题中最后一个买家咨询与商品相关的问题。采用这样的方式,这是因为如果买家咨询的第一个问题已经被卖家解答,并且与自身需求不匹配,买家就会放弃购买并结束此次商品交易会话问答,那么第一个问题就是最后一个问题;若是基于第一个问题的解答,买家得到解答后还有其他的问题继续进行追问,直到问到的问题得到满意的回答后进行下单或者问到的问题不符合买家的意愿并结束此次商品交易会话问答,则追问的问题可能会是最后一个问题。综合上述描述,最后一个与商品相关的问题更能体现买家与卖家之间交易未成交的原因,通过集合多个买家提出的多个买家问题,获得买家问题集合。再对基于每个买家问题,卖家进行回复的卖家回答进行集合,获得卖家回答集合,对买家问题集合通过算法分析,可以分析聚焦于高频买家流失问题和卖家回答,挖掘买家咨询热点和买家诉求,提升买家满意度。
假设,获得的买家问题集合包括的问题包括:A1,B1,A2,C1,C2,B2,A3,A4,B2,B3,其中,A,B,C之间互为意图不等价问题,A1,A2,A3,A4互为意图等价问题,B1,B2,B3互为意图等价问题,C1,C2互为意图等价问题。例如,一个买家问题A1为“今天可以发货吗”,另一个买家问题A2是“今天发不发货”,这两个问题的目的都是询问今天是否发货,只是询问的表述语句不一样,因此,这两个问题为意图等价问题;一个买家问题B1为“你们发什么快递”,另一个买家问题A1“今天可以发货吗”,这两个问题的目的不一样,则这两个问题互为意图不等价问题。而对于买家提出的问题,一个问题卖家可以回复多句,例如,对于一个买家问题A1“今天可以发货吗”,卖家回答RA1,1为“在十七点前下单可以在下单当天发货,在十七点以后下单第二天发货”,卖家回答RA1,2为“亲,你挑选好商品下单之后,我们将尽快为你安排发货,并把发货信息通知给你”,RA1,1,RA1,2分别代表A1问题的第一个回答和A1问题的第二个回答。将多个买家提出的最后一个与商品相关的问题进行集合,得到买家问题集合。
容易理解的是,买家问题集合中的每个买家问题是不同的用户提出的,一个买家问题对应一位买家,即每个买家问题集合中包括的各个买家问题之间是相互离散、独立的。
每个买家问题将会对应一个交易状态,交易状态包括用于表征买家卖家之间成功交易的成交状态和用于表征买家卖家交易未成交的流失状态。确定每个买家问题对应的交易状态包括:判断买家在商品交易会话问答结束后的预设时长内,是否购买该商品;若是,每个买家问题对应的交易状态为成交状态;若否,每个买家问题对应的交易状态为流失状态。
预设时长的长短与获得的买家问题中交易状态为流失状态的买家问题之间具有相关性。预设时长越长,分析获得的买家问题与买家卖家之间是否交易成交之间的相关性就越低,也就是说,预设时长越长,分析交易状态为流失状态的买家问题得到的买家流失问题事实上与实际的造成买家流失的买家流失问题之间可能有越大的差异。预设时长可以是任一时长,例如,预设时长可以是一天,也可以是一个月。当预设时长为一天时,买家在咨询结束后,在一天的考虑时间内,决定是否下单,若在一天之内不下单,那么造成买家流失的原因与买家提出的最后一个与商品相关的问题的相关性高;当预设时长时长为一个月,买家咨询结束后,对该商品并不满意,没有购买该商品的意图,但是可能由于在预设时长内,卖家进行了如优惠活动,或者买家购买另一件与该商品相似的替代商品却想对比一下两件商品的性能,因此又重新下单。这样,原本造成买家的交易状态为流失状态的买家问题就转变成交易状态为成交状态的买家问题,使得通过分析获得的买家问题归纳买家流失问题与实际造成买家流失的问题就会有差异。在本申请实施例中,预设时长设置为24小时。
步骤S11:将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数。
对买家问题集合进行特征转化处理,使得买家问题集合中的每个买家问题转化成买家问题特征向量;计算每个买家问题特征向量之间的距离,形成问题距离矩阵;分别对问题距离矩阵进行聚类处理,获得由M个买家问题簇组成的买家问题特征集合。
详细地,买家问题集合通过神经网络预训练模型,将买家问题集合中的每个买家问题进行特征转化处理。神经网络预训练模型可以为卷积神经网络预训练模型、递归神经网络预训练模型或者BERT(Bidirectional Encoder Representations fromTransformers)神经网络预训练模型。可选地,在本申请实施例中,神经网络预训练模型为BERT神经网络预训练模型,BERT神经网络预训练模型具有快速并行、训练深度深和模型准确率高的优点。通过特征转化处理,可以将买家问题集合中的成离散语言结构的买家问题转化成用几何表征的句子特征向量。具体的过程为:将买家问题集合中的每个买家问题输入至神经网络预训练模型的输入层,通过神经网络预训练模型的特征转化处理,在神经网络预训练模型的输出层获得与每个买家问题对应的买家问题特征向量。
作为一种可能的实现方式,将买家问题和卖家回答转化为句子特征向量,可以使用字/词向量的平均向量作为句子特征向量。
买家问题集合中的每个买家问题经过特征转化处理后,每个买家问题对应一个买家问题特征向量。计算每个买家问题特征向量与每个买家问题特征向量之间的距离,并将计算得到的距离存储为问题距离矩阵。每个买家问题特征向量与每个买家问题特征向量之间的距离可以为欧几里得距离,也可以为余弦距离,欧几里得距离用于衡量多维空间中两个点之间的绝对距离,余弦距离则是用一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小。可选地,在本申请实施例中,每个买家问题特征向量与每个买家问题特征向量之间的距离为欧几里得距离。假设,买家问题集合中共有L个买家问题,那么,与之对应的,共有L个买家问题特征向量,通过计算每个买家问题特征向量与L个买家问题特征向量之间的欧几里得距离,并将计算结果采用矩阵的形式表现出来,获得L*L阶的问题距离矩阵。
经过一系列的处理运算获得问题距离矩阵,此时,问题距离矩阵可以用于表示每个买家问题与每个问题之间的相似性,欧几里得距离值越大,表示这两个买家问题特征向量之间的差异性越大。
要从获得的每一个买家问题与每一个买家问题之间的相似性,分析获得每一个类别的买家问题与每一个买家问题之间的相似性,需要对问题距离矩阵进行聚类处理。聚类处理是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。也就是说,聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小。聚类的分类包括:基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。可选地,在本申请实施例中,采用基于层次的聚类的方式进行聚类处理。层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高。并将距离最近的两个数据点或类别进行组合,生成聚类树。
假设有L个待聚类的数据样本,层次聚类的分析步骤包括:(1)初始化:把每个数据样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,也就是数据样本之间的相似度(本质还是计算类与类之间的距离);(2)寻找各个类之间最近的两个类,把它们归为一类(这样,总类的数量就减少了一个);(3)重新计算新生成的这个类与各个旧类之间的距离(相似度);(4)重复(2)(3)步,直到所有的数据样本都归为一类,结束。聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示。
使用层次聚类的方法对问题距离矩阵进行聚类处理时,要预设一个第一平均距离阈值α,通过调整α来调整聚合后簇与簇之间的粒度。具体地,α是买家问题的聚类的阈值,α的数值越小,表示簇与簇之间的距离越小,所以簇的粒度越小,即调整α可以自由选择聚合粒度。而这个α是一个距离阈值,是通过计算总体样本与样本之间距离的中位数、均值、最大值、最小值,提供给人找到一个靠谱的范围,人工通过观察最终系统输出结果来适当调整该阈值。当在层次聚类的迭代过程中,簇与簇之间的距离满足预设的第一平均距离阈值α,迭代终止,结束层次聚类处理。例如,买家问题集合中的样本数量为3万,那么与3万个买家问题对应的就有3万个买家问题特征向量,然后计算每个买家问题特征向量之间的距离,即3万*3万个距离(当然这里有重复计算的),通过找3万*3万个距离中的平均值、最小值、最大值,然后一般是以均值为中心来上下微调,直至满足预设的第一平均距离阈值α的要求。
假设,买家问题A1为“好久发货”,买家问题A2为“什么时候发货”,买家问题A3为“几时发货”,买家问题A4为“赠品什么时候发货”,买家问题A5“我的赠品到底什么时候寄出”,买家问题A6为“赠品什么时候可以发”。对于这六个买家问题,若簇与簇的平均距离阈值α较大,使簇与簇之间的粒度较大,那么可以总结为“什么时候发货”这一个意图;若将簇与簇的平均距离阈值α调小,使簇与簇之间的粒度变小,那么,可以分为两个意图,两个意图分别为“什么时候发货”和“赠品什么时候发货”,把购买的商品与卖家赠予的赠品区别开。
步骤S12:根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。
对每个买家问题簇中的所有买家问题特征向量进行平均值计算,获得M个问题平均向量;将距离每个问题平均向量最近距离的买家问题特征向量确定为与该买家问题簇对应的买家中心问题,获得M个类别的买家中心问题。
详细地,经过层次聚类后得到的买家问题聚类结果,每一个买家问题簇都会有一个买家中心问题,该买家中心问题可以代表该买家问题簇中所有的买家问题,即一个买家问题簇可以用该买家问题簇对应的买家中心问题简化表示。要计算得到每个买家问题簇对应的买家中心问题,首先先计算获得每个买家问题簇的问题平均向量。计算一个买家问题簇中的问题平均向量的方法为:将该买家问题簇中所有的买家问题特征向量进行算术平均运算,运算结果即为问题平均向量。再计算该买家问题簇中的每个买家问题特征向量与该问题平均向量的距离,将距离最小值对应的买家问题特征向量确定为买家中心问题。例如,一个买家问题簇A中包括A1,A2,A3,A4这四个买家问题特征向量,则该买家问题簇对应的问题平均向量Aa=(A1+A2+A3+A4)/4。而A1与Aa之间的距离为13.25,A2与Aa之间的距离为55.65,A3与Aa之间的距离为34.60,A4与Aa之间的距离为77.10,由于A1与Aa之间的距离值最小,因此将A1确定为买家问题簇A对应的买家中心问题。
买家问题特征集合由M个买家问题簇组成的,那么,经过运算处理后,可以获得M个买家中心问题。
计算每个买家问题簇的流失比例和成交比例,再判断以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值的计算结果是否大于预设阈值题,若是,则将该买家问题簇确定为买家流失问题,其中,流失比例为一个买家问题簇中为流失状态的买家问题特征向量的个数与M个买家问题簇中为流失状态的买家问题特征向量的个数之比,成交比例为一个买家问题簇中为成交状态的买家问题特征向量的个数与M个买家问题簇中为成交状态的买家问题特征向量的个数之比。
详细地,由于每个买家问题将会对应一个交易状态,交易状态包括用于表征买家卖家之间成功交易的成交状态和用于表征买家卖家交易未成交的流失状态,那么,买家问题经过特征转化处理得到的买家问题特征向量也具有对应的交易状态,并且买家问题特征向量具有交易状态不影响聚类结果。根据确定出的买家问题的交易状态,可以获得与每个买家问题对应的买家问题特征向量的交易状态。根据确定出的买家问题特征向量的交易状态,按照买家问题簇,分别统计获得买家问题特征集合中交易状态为成交状态的买家问题特征向量的个数和交易状态为流失状态的买家问题特征向量的个数;以及求和获得交易状态为成交状态的买家问题特征向量的总个数和交易状态为流失状态的买家问题特征向量的总个数。
依照买家问题簇,计算每个买家问题簇的流失比例与成交比例,再根据流失比例和成交比例再获得以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值的计算结果是否大于预设阈值的运算结果。一个买家问题簇的流失比例计算方法为:用一个买家问题簇中交易状态为流失状态的买家问题特征向量的个数比上交易状态为流失状态的买家问题特征向量的总个数。一个买家问题簇的成交比例计算方法为:用一个买家问题簇中交易状态为成交状态的买家问题特征向量的个数比上交易状态为成交状态的买家问题特征向量的总个数。分别计算得到每个买家问题簇的流失比例和成交比例后,再根据每个买家问题簇的流失比例与成交比例,计算表达式的运算结果。
在以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值中,正态分布累积分布函数的具体表达式为,其中,商品的一个买家问题簇中买家问题特征向量的个数/商品的所有买家问题特征向量的总个数为该函数表达式中的自变量,μ为平均值,σ2为方差。在本申请实施例中,由于不同买家问题簇中的买家问题占买家问题总数的比例不一样,可以将各个买家问题簇中的买家问题占买家问题总数的比例集合起来,成为一个数值序列,然后对该数值序列进行求平均值运算和求方差运算,获得该数值序列的平均值和方差。将上述函数表达式中的μ用计算获得数值序列的平均值替代,σ2用计算获得数值序列的方差替代,函数自变量用数值序列中某一个买家问题簇中的买家问题占买家问题总数的比例替代。
根据正态分布累积分布函数画出正态分布累积分布函数的函数图,改变正态分布累积分布函数的平均值μ和方差σ2,可以分析得到函数图中不论是什么均值和方差,只是平滑程度跟着变化。通过分析,可以知道,长尾的少量问题的系数会非常低,低于0.1,而函数图的中部的斜率急剧升高,提高了权重,尤其是函数图的末尾会接近1。使用正态分布累积分布函数的目的就是为了限制长尾数量极少的问题即流失比例远远高于成交比例的买家问题的分数。
当流失比例比成交比例高于一定倍数,给位于分母位置的成交比例加上0.01是为了防止成交比例为0时的除零操作,同时乘以一个以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值,目的是为了倍数加权,进一步减少长尾问题的出现,因为对于长尾问题会出现流失比例百分百的情况。判断基于获得的每个买家问题簇的流失比例与成交比例,计算表达式以商品的一个买家问题簇中买家问题特征向量的个数与商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值的运算结果是否大于预设阈值,预设阈值设为λ。若运算结果大于预设阈值λ,则将该买家问题簇代表的买家问题确定为买家流失问题;若运算结果小于预设阈值λ,说明该买家问题簇不属于买家流失问题,该买家问题簇将不会再返回出来,即将该买家问题簇过滤,使得该买家问题簇不被呈现在买家问题特征集合中,获得更新后的买家问题特征集合。
容易知道的是,这里λ的值需要根据实际情况进行调整,不同的λ使得被归因为买家流失问题的问题簇不一样。λ的理论范围是 0到100 ,最小值是当流失比例为0时,即完全没有流失;最大值为流失比例为1,即百分百流失,1/(0+0.01) = 100, 并且在正态分布累积分布函数的输出结果为理论最大值1的时候,得到最大值100。
假设,买家问题特征集合Q={A,B,C,D}。买家问题簇A包括A1,A2,A3,A4,A5;买家问题簇B包括B1,B2,B3,B4;买家问题簇C包括C1,C2,C3;买家问题簇D包括D1,D2。买家问题簇A中交易状态为流失状态A流失的包括A1,A3,A4这三个买家问题特征向量,买家问题簇A中交易状态为成交状态A成交的包括A2,A5这两个买家问题特征向量;买家问题簇B中交易状态为流失状态B流失的包括B1这一个买家问题特征向量,买家问题簇B中交易状态为成交状态B成交的包括B2,B3,B4三个买家问题特征向量;买家问题簇C中交易状态为流失状态C流失的包括C1,C2,C3这三个买家问题特征向量,买家问题簇C中交易状态为成交状态C成交为0个;买家问题簇D中交易状态为流失状态D流失包括D2这一个买家问题特征向量,买家问题簇D中交易状态为流失状态D成交的包括D1这一个买家问题特征向量。而交易状态为流失状态的买家问题特征向量的总个数R流失为8,交易状态为成交状态的买家问题特征向量的总个数R成交为6。每个买家问题簇的流失比例用Qk流失/R流失表示,每个买家问题簇的成交比例用Qk成交/R成交表示,其中,k表示买家问题特征集合Q中任一买家问题簇,即可以用(Qk流失/R流失)/((Qk成交/R成交)+0.01)*正态分布累积分布函数(商品的一个买家问题簇中买家问题特征向量的个数/商品的所有买家问题特征向量的总个数)>λ这个表达式作为一个买家问题簇是否为买家流失问题的判断表达式。例如,买家问题簇A的流失比例为3/8,买家问题簇A的成交比例为2/6,买家问题簇A中的买家问题占买家问题总数的比例为5/14,数值序列的平均值为1/4,数值序列的方差为5/784,再根据表达式计算出结果,判断运算结果是否大于λ。假设,预设阈值λ为1,根据表达式通过计算,买家问题簇A的运算结果大于预设阈值λ,所以买家问题簇A确定为买家流失问题。买家问题簇B的流失比例为1/8,买家问题簇B的成交比例为3/6,买家问题簇B中的买家问题占买家问题总数的比例为4/14,数值序列的平均值为1/4,数值序列的方差为5/784, 根据表达式计算出结果,买家问题簇B的运算结果小于预设阈值λ,所以买家问题簇B不是买家流失问题,且买家问题簇B不参与后续的方法步骤中。
用户流失归因聚焦方法还包括:将卖家回答集合进行特征处理,获得N个卖家回答簇组成的卖家回答特征集合,其中,N为大于1的整数,根据N个卖家回答簇,获得每个卖家回答簇对应的卖家中心回答,按照每个买家流失问题对应的买家问题类别,将每个判断为买家流失问题的买家问题簇匹配的多个卖家回答簇中卖家回答数量最多的卖家回答簇对应的卖家中心回答确定为买家流失问题的热门卖家回答。
与上述步骤S11描述的过程相似,将卖家回答集合中的每个卖家回答输入至神经网络预训练模型的输入层,通过神经网络预训练模型的特征转化处理,在神经网络预训练模型的输出层获得与每个卖家回答对应的卖家回答特征向量。
卖家回答集合中的每个卖家回答经过特征转化处理后,每个卖家回答对应一个卖家回答特征向量。假设,卖家回答集合中有K个卖家回答,那么,与之对应的,共有K个卖家回答特征向量,通过计算每个卖家回答特征向量与K个卖家回答特征向量之间的欧几里得距离,并将计算结果采用矩阵的形式表现出来,获得K*K阶的回答距离矩阵。
经过一系列的处理运算获得回答距离矩阵,此时,回答距离矩阵可以用于表示每个卖家回答与每个卖家回答之间的相似性,欧几里得距离值越大,表示这两个卖家回答特征向量之间的差异性越大。
将问题距离矩阵经过层次聚类处理,获得由M个买家问题簇组成的买家问题特征集合。每个买家问题簇代表着一个买家问题类别,并且每一个买家问题簇中包括至少一个买家问题。
与上述步骤S11中描述的过程相似,使用层次聚类的方法对回答距离矩阵进行聚类处理时,要预设一个第二平均距离阈值β,通过调整β来调整聚合后簇与簇之间的粒度。将回答距离矩阵经过层次聚类处理,获得由N个卖家回答簇组成的卖家回答特征集合。每个卖家回答簇代表着一个卖家回答类别,并且每一个卖家回答簇中包括至少一个卖家回答。
经过层次聚类后得到的卖家回答聚类结果,每一个卖家回答簇都会有一个卖家中心回答,该卖家中心回答可以代表该卖家回答簇中所有的卖家回答,即一个卖家回答簇可以用该卖家回答簇对应的卖家中心回答简化表示。与上述根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题的运算过程相似,卖家回答特征集合由N个卖家回答簇组成的,那么,对每个卖家回答簇中的所有卖家回答特征向量进行平均值计算,获得N个回答平均向量;将距离每个回答平均向量最近距离的卖家回答特征向量确定为与该卖家回答簇对应的卖家中心回答,N个卖家回答簇得到N个卖家中心回答。详细地,根据至少一个为买家流失问题的买家中心问题中的每个买家中心问题对应的买家问题特征向量匹配至少一个卖家中心回答,按照每个买家流失问题对应的买家问题类别,将每个判断为买家流失问题的买家问题簇匹配的多个卖家回答簇中卖家回答数量最多的卖家回答簇对应的卖家中心回答确定为买家流失问题的热门卖家回答。
在本申请实施例中,在商品交易会话问答中,一个买家问题对应至少一个卖家回答,那么,要使得一个买家问题簇中的多个买家问题特征向量对应一个卖家中心回答,需要在多个卖家回答中心里确定出一个与买家中心问题匹配度最高的卖家中心回答。因此,将至少一个卖家中心回答中数量最多的卖家中心回答确定为每个买家流失问题对应的热门卖家回答,并将热门卖家回答确定为买家中心问题对应的卖家回答。
卖家回答集合中的卖家回答进行特征处理,获得N个卖家回答簇组成的卖家回答特征集合。假设,N为4,即卖家回答特征集合中包括卖家回答簇W、卖家回答簇X、卖家回答簇Y和卖家回答簇Z,一个买家问题对应3句卖家回答。买家问题簇A中的A1,A3,A4的交易状态为流失状态,对应的卖家回答为RA1.1、RA1.2、RA1.3、RA3.1、RA3.2、RA3.3、RA4.1、RA4.2、RA4.3。A1,A3,A4的9个卖家回答中为W、X、Y、Z四个卖家回答簇的情况为:W:RA1.3、RA3.2;X:空;Y:RA1.1、RA1.2、RA3.1、RA4.3;Z: RA3.3、RA4.1、RA4.2,将这四个卖家回答簇中具有最多数量的卖家回答簇确定为买家问题簇A的热门卖家回答,即卖家回答簇Y作为买家问题簇A的热门卖家回答,并将该卖家回答簇Y对应的卖家中心回答确定为买家问题簇A对应的买家中心问题的卖家回答,作为输出显示分析结果。并且,另一方面,在输出卖家回答簇Y对应的卖家中心回答以及买家问题簇A对应的买家中心问题的卖家回答的同时,也将买家问题在买家问题集合中出现的频次以及卖家回答在卖家回答集合中出现的频次输出,使得在分析买家流失问题与卖家回答之间的关系更明确。如下表所示。
流失热度 | 买家流失问题聚焦 | 卖家热门回答 |
68 | 没有货啊 | 亲亲,选择您的地址,能拍下就是有货的哦 ×24 |
49 | 下单不了啊 | 您可以先收藏关注噢,后面有货方便亲快速查看,感谢亲的支持 ×13 |
16 | 有赠品吗 | 这款没有送赠品的哟×11 |
详细地,上述表中,流失热度指该买家问题的出现频次,买家流失问题聚焦即买家流失问题对应的买家中心问题,而卖家热门回答即对应的热度最高的卖家回答的卖家中心回答,并且其后的数字代表该卖家回答的频次。例如,买家问题集合中主要包括有3个为买家流失问题的买家问题簇以及买家提问关于商品的各个问题的问题频率。其中,可以知道买家流失问题中,最容易造成的买家流失的问题是“没有货啊”,该问题的问题频率为68次;其次,造成的买家流失的问题是“下单不了啊”,该问题的问题频率为49次;最后一个造成的买家流失的问题是“有赠品吗”,该问题的问题频率为16次。也就是说,对于卖家的该款商品,买家最关心的问题是有没有货,而针对买家流失问题“没有货啊”,卖家热门回答为“亲亲,选择您的地址,能拍下就是有货的哦”,且该回答的回答频次是24次,也就是说,根据卖家的回答,可以知道该商品在一些地区可能是没有货的了,那么这个卖家回答可能会造成买家流失。实际上,卖家可以在进行上述的回答之后,再主动进行相关商品的推荐,使得买家可能具有兴趣进行进一步浏览,从而更有可能提高卖家店铺整体的成交率,也就是说,卖家回答不够主动使得买家流失的可能性更高。而对于买家流失问题中排名第二造成买家流失的“下单不了啊”这个买家流失问题,卖家热门回答为“您可以先收藏关注噢,后面有货方便亲快速查看,感谢亲的支持”,实际上,对于这个卖家回答,卖家回答本身并没有解决买家的问题,使得买家并不满意卖家的回答从而未完成商品的交易,也就是说,卖家回答不够好使得买家流失的可能性增加。而对于买家流失问题“有赠品吗”,说明买家可能希望在购买商品的时候获得额外的赠品,该买家流失问题对应的卖家热门回答“这款没有送赠品的哟”,由于没有赠品使得买家流失。这个卖家回答本身没有什么问题,但是可以根据这个问题卖家可以考虑偶尔做一些购买商品正品获得赠品的活动,从而使得成交率更高。
通过上述对一些买家流失问题和买家流失问题对应的卖家热门回答之间的分析可以知道卖家回答中存在的问题,造成买家流失,那么,可以通过了解到的卖家回答存在的问题,进行改进,提高买家的满意度,从而提高商品的成交率。
请参阅图3,本申请一些可能的实施例提供了一种用户流失归因聚焦装置100,该数据分析装置100包括:
第一处理模块110,用于将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数。
第二处理模块120,用于根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本申请实施例提供了一种用户流失归因聚焦方法,方法包括:将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;根据M个买家问题簇,获得每个买家问题簇对应的买家中心问题,并根据预设阈值判断每个买家问题簇是否为买家流失问题。通过算法分析,可以实时聚焦高频买家流失问题和卖家回答,挖掘买家咨询热点和买家诉求,定位卖家服务缺陷,从而提升买家服务满意度,提高店铺内商品的成交率。
本申请一些可能的实施例提供了一种存储介质,配置为存储计算机可执行指令,该计算机可执行指令被执行时执行上述任意一项实施例提供的增量学习方法的操作。
本申请一些可能的实施例提供了一种计算机程序产品,包括计算机可执行指令,当上述计算机可执行指令在设备上运行时,该设备中的处理器执行用于实现上述任意一项实施例提供的增量学习方法的指令。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用户流失归因聚焦方法,其特征在于,所述方法包括:
将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;
根据M个所述买家问题簇,获得每个所述买家问题簇对应的买家中心问题,并根据预设阈值判断每个所述买家问题簇是否为买家流失问题。
2.根据权利要求1所述的用户流失归因聚焦方法,其特征在于,所述方法还包括:
将卖家回答集合进行特征处理,获得N个卖家回答簇组成的卖家回答特征集合,其中,N为大于1的整数;
根据N个所述卖家回答簇,获得每个所述卖家回答簇对应的卖家中心回答,按照每个所述买家流失问题对应的买家问题类别,将每个判断为所述买家流失问题的所述买家问题簇匹配的多个所述卖家回答簇中卖家回答数量最多的所述卖家回答簇对应的所述卖家中心回答确定为所述买家流失问题的热门卖家回答。
3.根据权利要求2所述的用户流失归因聚焦方法,其特征在于,所述根据M个所述买家问题簇,获得每个所述买家问题簇对应的买家中心问题,并根据预设阈值判断每个所述买家问题簇是否为买家流失问题,包括:
对所述买家问题集合进行特征转化处理,使得所述买家问题集合中的每个买家问题转化成买家问题特征向量;
对每个所述买家问题簇中的所有所述买家问题特征向量进行平均值计算,获得M个问题平均向量;将距离每个所述问题平均向量最近距离的买家问题特征向量确定为与该买家问题簇对应的买家中心问题,获得M个与所述买家问题簇对应的所述买家中心问题;
确定每个所述买家问题簇中的每个所述买家问题特征向量所对应的交易状态,其中,所述交易状态包括用于表征买家卖家成功交易的成交状态和用于表征买家卖家交易未成交的流失状态;
计算每个所述买家问题簇的流失比例和成交比例,再判断以商品的一个所述买家问题簇中所述买家问题特征向量的个数与所述商品的所有买家问题特征向量的总个数的比值作为函数自变量的正态分布累积分布函数对应的函数值乘以流失比例与成交比例加上0.01的比值的计算结果是否大于所述预设阈值,若是,则将该所述买家问题簇确定为所述买家流失问题,其中,所述流失比例为一个所述买家问题簇中为所述流失状态的买家问题特征向量的个数与M个所述买家问题簇中为所述流失状态的买家问题特征向量的个数之比,所述成交比例为一个所述买家问题簇中为所述成交状态的买家问题特征向量的个数与M个所述买家问题簇中为所述成交状态的买家问题特征向量的个数之比。
4.根据权利要求3所述的用户流失归因聚焦方法,其特征在于,所述确定每个所述买家问题簇中的每个所述买家问题特征向量所对应的交易状态,包括:
判断所述买家在商品交易会话问答结束后的预设时长内,是否购买所述商品;
若是,每个所述买家问题特征向量对应的所述交易状态为所述成交状态;
若否,每个所述买家问题特征向量对应的所述交易状态为所述流失状态。
5.根据权利要求4所述的用户流失归因聚焦方法,其特征在于,所述根据N个所述卖家回答簇,获得每个所述卖家回答簇对应的卖家中心回答,按照每个所述买家流失问题对应的买家问题类别,将每个判断为所述买家流失问题的所述买家问题簇匹配的多个所述卖家回答簇中卖家回答数量最多的所述卖家回答簇对应的所述卖家中心回答确定为所述买家流失问题的热门卖家回答,包括:
对所述卖家回答集合进行特征转化处理,使得所述卖家回答集合中的每个卖家回答转化成卖家回答特征向量;
对每个所述卖家回答簇中的所有所述卖家回答特征向量进行平均值计算,获得N个回答平均向量,将距离每个所述回答平均向量最近距离的卖家回答特征向量确定为与该卖家回答簇对应的卖家中心回答,获得N个与所述卖家回答簇对应的所述卖家中心回答;
根据每个判断为所述买家流失问题的所述买家问题簇中的为所述流失状态的所述买家问题特征向量对应多个所述卖家回答簇,将多个所述卖家回答簇中的卖家回答数量最多的所述卖家回答簇确定为每个所述买家问题簇对应的所述卖家回答簇,并将与每个所述买家问题簇对应的所述卖家回答簇的所述卖家中心回答确定为每个所述买家流失问题对应的所述热门卖家回答。
6.根据权利要求1所述的用户流失归因聚焦方法,其特征在于,在所述将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合之前,所述方法还包括:
买家发送一个所述商品的商品链接,基于所述商品链接在所述买家与所述商品的卖家之间建立商品交易会话问答;
获得所述买家在商品交易会话问答中提问的最后一个与所述商品有关的所述买家问题,其中,与所述商品有关的所述买家问题包括与所述商品自身相关的问题、与所述商品对应的物流问题、与所述商品对应的售后问题和所述商品的优惠问题;
集合多个所述买家提出的多个所述买家问题,获得所述买家问题集合。
7.根据权利要求5所述的用户流失归因聚焦方法,其特征在于,所述在对所述买家问题集合进行特征转化处理,使得所述买家问题集合中的每个买家问题转化成买家问题特征向量之后,以及在对所述卖家回答集合进行特征转化处理,使得所述卖家回答集合中的每个卖家回答转化成卖家回答特征向量之后,所述方法还包括:
计算每个所述买家问题特征向量与所有所述买家问题特征向量之间的距离,获得问题距离矩阵;预设每个所述买家问题簇与所述买家问题簇之间的第一平均距离阈值,通过调整所述第一平均距离阈值来调整所述买家问题簇的粒度,其中,所述第一平均距离阈值越小,所述买家问题簇的粒度越小;
计算每个所述卖家回答特征向量与所有所述卖家回答特征向量之间的距离,获得回答距离矩阵;预设每个所述卖家回答簇与所述卖家回答簇之间的第二平均距离阈值,通过调整所述第二平均距离阈值来调整所述卖家回答簇的粒度,其中,所述第二平均距离阈值越小,所述卖家回答簇的粒度越小。
8.一种用户流失归因聚焦装置,其特征在于,所述装置包括:
第一处理模块,用于将买家问题集合进行特征处理,获得由M个买家问题簇组成的买家问题特征集合,其中,M为大于1的整数;
第二处理模块,用于根据M个所述买家问题簇,获得每个所述买家问题簇对应的买家中心问题,并根据预设阈值判断每个所述买家问题簇是否为买家流失问题。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7任一项所述的用户流失归因聚焦方法。
10.一种电子设备,其特征在于,所述电子设备包括:处理器、通信总线、通信接口以及存储器;
所述通信总线分别连接所述处理器、所述通信接口和所述存储器;
所述存储器存储有计算机可读取指令,当所述处理器执行可读取指令时,运行如权利要求1-7中任一权项所述的用户流失归因聚焦方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626688.XA CN111507782A (zh) | 2020-07-02 | 2020-07-02 | 一种用户流失归因聚焦方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626688.XA CN111507782A (zh) | 2020-07-02 | 2020-07-02 | 一种用户流失归因聚焦方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507782A true CN111507782A (zh) | 2020-08-07 |
Family
ID=71878842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010626688.XA Pending CN111507782A (zh) | 2020-07-02 | 2020-07-02 | 一种用户流失归因聚焦方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507782A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450153A (zh) * | 2021-07-02 | 2021-09-28 | 京东科技控股股份有限公司 | 数据处理方法及装置 |
CN113869930A (zh) * | 2021-08-26 | 2021-12-31 | 阿里巴巴(中国)有限公司 | 用户体验数据处理方法及电子设备 |
CN114331227A (zh) * | 2022-03-08 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据分析的方法、装置、电子设备和可读介质 |
CN115796978A (zh) * | 2022-11-11 | 2023-03-14 | 武汉小帆船电子商务有限公司 | 基于电子商务平台的爆款商品全周期监测方法 |
-
2020
- 2020-07-02 CN CN202010626688.XA patent/CN111507782A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450153A (zh) * | 2021-07-02 | 2021-09-28 | 京东科技控股股份有限公司 | 数据处理方法及装置 |
CN113450153B (zh) * | 2021-07-02 | 2024-08-20 | 京东科技控股股份有限公司 | 数据处理方法及装置 |
CN113869930A (zh) * | 2021-08-26 | 2021-12-31 | 阿里巴巴(中国)有限公司 | 用户体验数据处理方法及电子设备 |
CN114331227A (zh) * | 2022-03-08 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据分析的方法、装置、电子设备和可读介质 |
CN114331227B (zh) * | 2022-03-08 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 数据分析的方法、装置、电子设备和可读介质 |
CN115796978A (zh) * | 2022-11-11 | 2023-03-14 | 武汉小帆船电子商务有限公司 | 基于电子商务平台的爆款商品全周期监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562818B (zh) | 信息推荐系统及方法 | |
CN111507782A (zh) | 一种用户流失归因聚焦方法、装置、存储介质及电子设备 | |
CN111709812A (zh) | 基于用户动态分类的电商平台商品推荐方法及系统 | |
CN109242612B (zh) | 一种产品推荐的方法及设备 | |
US9727616B2 (en) | Systems and methods for predicting sales of item listings | |
CN111951051B (zh) | 一种为客户推荐产品的方法、装置和系统 | |
CN112148973A (zh) | 一种信息推送的数据处理方法及装置 | |
CN112381627B (zh) | 育儿知识下的商品评分处理推荐方法、装置 | |
CN110659926A (zh) | 一种数据价值评估系统以及方法 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
Jain et al. | NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks | |
CN111861679A (zh) | 一种基于人工智能的商品推荐方法 | |
CN111311381A (zh) | 一种商品推荐方法及系统 | |
US11551194B2 (en) | System to facilitate exchange of data segments between data aggregators and data consumers | |
CN103309885A (zh) | 一种在电子交易平台中识别特征用户的方法及装置和搜索方法及装置 | |
CN117807302B (zh) | 一种客户信息的处理方法及装置 | |
CN112991026A (zh) | 一种商品推荐方法、系统、设备及计算机可读存储介质 | |
CN118096292A (zh) | 一种基于云购物的智能推荐方法及系统 | |
CN107909401A (zh) | 一种基于大数据技术的满意度测算方法 | |
CN116703533A (zh) | 一种商业管理数据优化存储分析方法 | |
CN114266594A (zh) | 一种基于东南亚跨境电商平台的大数据分析方法 | |
CN110335072B (zh) | 大宗商品数据提取及报告生成的方法、系统、介质及装置 | |
CN111768139B (zh) | 备货处理方法、装置、设备及存储介质 | |
CN113269610A (zh) | 银行产品的推荐方法、装置及存储介质 | |
CN110738538B (zh) | 识别相似物品的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200807 |