CN116205675A - 一种基于线程划分的数据采集方法及装置 - Google Patents

一种基于线程划分的数据采集方法及装置 Download PDF

Info

Publication number
CN116205675A
CN116205675A CN202310472996.5A CN202310472996A CN116205675A CN 116205675 A CN116205675 A CN 116205675A CN 202310472996 A CN202310472996 A CN 202310472996A CN 116205675 A CN116205675 A CN 116205675A
Authority
CN
China
Prior art keywords
user
shopping
users
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310472996.5A
Other languages
English (en)
Other versions
CN116205675B (zh
Inventor
李德安
明月
肖洋
周少娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202310472996.5A priority Critical patent/CN116205675B/zh
Publication of CN116205675A publication Critical patent/CN116205675A/zh
Application granted granted Critical
Publication of CN116205675B publication Critical patent/CN116205675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子数字数据处理技术领域,具体涉及一种基于线程划分的数据采集方法及装置,包括:对获取的用户的行为数据进行分析,明确用户之间的特点和关系,将用户进行划分,将各类用户分配给不同的线程,确保用户之间的强关联性得到满足,最后根据用户聚类划分的类型进行线程的划分。本发明根据不同用户之间的消费行为进行归类,使对消费行为相似的用户进行相似的商品推荐,进而在进行数据推广时能够减小服务器的数据负荷,避免数据服务器的数据量太大,造成线路拥堵。

Description

一种基于线程划分的数据采集方法及装置
技术领域
本发明涉及电子数字数据处理技术领域,具体涉及一种基于线程划分的数据采集方法及装置。
背景技术
随着大数据技术的不断发展,人们获取各种相关的数据可以通过大数据技术进行信息的采集,但是随着数据量越来越大,为了能够快速的获取相关的有用数据,需要对根据采集数据的类型对系统的线程进行划分。线程是系统进行运算调度的最小单位,也被称为轻量级进程,它包含在进程之中,是进程的实际运作单位。进程中可以包含多个线程,每个线程是进程中单一顺序的控制流,可以并行执行不同的任务,它可与同属一个进程的其它线程共享该进程所拥有的全部资源。因此为了提高获取数据的速度,本发明提出一种基于线程划分的数据采集方法。
在现有技术中,专利CN111090268A公布了一种线程划分的数据采集方法,通过将目标数据的特征进行格式转换,然后根据每个目标数据格式的特征与匹配数据格式的特征之间的特征生成每目标数据格式对应的格式转换协议,但是该方法在对线程进行规划时,未对数据之间的特征进行分析,因此所获得的线程划分并不是最优的,会加大服务器的计算量。
发明内容
本发明提供一种基于线程划分的数据采集方法及装置,以解决现有的问题。
本发明的一种基于线程划分的数据采集方法及装置采用如下技术方案:
本发明提供了一种基于线程划分的数据采集方法及装置,该方法包括以下步骤:
获取电商平台中每个用户的行为数据,包括用户的购物所需时间、浏览的商品种类数量以及商品价格;
根据用户购买商品时所有购物所需时间的平均值和所有商品的平均价格获取购物习惯特征量;
对所有用户的购物习惯特征量进行聚类,获得多个聚类簇,记为层次聚类簇,根据层次聚类簇中任意两个用户之间购物种类之间的差异获得购物决策差异系数;根据层次聚类簇中任意两个用户之间购物决策时间的差异获得购物决策差异因子;将购物决策差异系数对购物决策差异因子的乘积校正结果记为购物决策差异;
获取层次聚类簇中中所有用户的购物习惯特征量的方差,将购物习惯特征量的方差对购物习惯特征量的乘积校正结果记为购物习惯特征量的异常值,将购物习惯特征量的异常值的归一化结果记为消费行为异常程度;
根据任意两个用户之间消费行为异常程度的和值作为消费习惯关联性因子,根据任意两个用户的购物决策差异与消费习惯关联性因子之间的比例关系获得消费习惯关联性;
根据层次聚类簇中用户之间的消费习惯关联性的大小,对层次聚类簇中的用户再次进行聚类,将聚类后获得的聚类簇记为K-means聚类簇;
根据层次聚类簇和K-means聚类簇的数量进行线程划分,将所有层次聚类簇中的所有K-means聚类簇的数量作为子线程的总数量,主线程用于对应层次聚类簇中的所有用户进行行为数据采集和商品推荐,子线程用于对应K-means聚类簇中所有用户的行为数据采集和商品推荐。
进一步的,所述购物习惯特征量,获取方法如下:
Figure SMS_1
式中,T表示用户的购物习惯特征量,V表示用户在购买时所浏览商品的商品种类数量,
Figure SMS_2
表示用户在购买第i个商品时的购物所需时间,
Figure SMS_3
表示用户在购买第i件商品时的商品价格,n表示用户在电商平台上个购买商品的总数,
Figure SMS_4
表示用户购买商品需要的平均购买所需时间,
Figure SMS_5
表示购买商品的平均商品价格。
进一步的,所述购物决策差异,获取方法如下:
购物决策差异的获取方法如下:
Figure SMS_6
其中,
Figure SMS_8
表示任意聚类簇中第A个用户与第B个用户的购物决策差异,
Figure SMS_10
表示对应的聚类簇中第
Figure SMS_13
个用户的购物决策时间,
Figure SMS_9
表示对应的聚类簇中第
Figure SMS_12
个用户的购物决策时间,m表示对应聚类簇中包含用户的数量,
Figure SMS_14
表示第A个用户的购物种类数量,
Figure SMS_15
表示第B个用户的购物种类数量,Q表示聚类簇中所有用户的所有购物种类数量,
Figure SMS_7
表示聚类簇中第A个用户的购物决策时间,
Figure SMS_11
表示聚类簇中第B个用户的购物决策时间。
进一步的,所述消费行为异常程度,获取方法如下:
Figure SMS_16
其中,
Figure SMS_17
表示第A个用户的消费行为异常程度,
Figure SMS_18
表示任意聚类簇中包含用户的数量,
Figure SMS_19
表示聚类簇中第A个用户的购物习惯特征量,
Figure SMS_20
表示聚类簇中所有用户的平均购物习惯特征量,
Figure SMS_21
表示第A个用户的用户购物习惯特征量与平均购物习惯特征量的差值,
Figure SMS_22
表示以自然常数为底的指数函数。
进一步的,所述消费习惯关联性,获取方法如下:
Figure SMS_23
其中,
Figure SMS_24
表示任意聚类簇中第A个用户与第B个用户的消费习惯关联性,
Figure SMS_25
表示聚类簇中第A个用户与第B个用户之间的购物决策差异,
Figure SMS_26
表示在聚类簇中第A个用户的消费行为异常程度,
Figure SMS_27
表示在聚类簇中第B个用户的消费行为异常程度,其中
Figure SMS_28
是预设超参数,为了防止分子分母为0,其取值为1。
进一步的,所述商品推荐,具体方法如下:
根据主线程或子线程中对应用户所浏览次数最多的商品种类,将属于同一商品种类的商品进行推荐。
进一步的,一种基于线程划分的数据采集装置,包括:网络设备装置、计算机处理器以及数据存储器,利用网络设备装置连接到互联网中,结合计算机处理器中的软件采集电商网络平台中用户的行为数据,并将采集的用户的行为数据利用数据存储器进行存储,利用计算机处理器根据上述方法步骤,处理分析用户的行为数据,并分配计算机处理器中的主线程和子线程;通过网络设备,将利用计算机处理器中的主线程和子线程对用户进行商品推荐的数据,发送到用户端。
本发明的技术方案的有益效果是:在对线程进行划分时,通过采集的数据之间的关系,来获得数据之间的相关系,因为本发明以消费数据为例,其中线程划分是根据所有的用户群体的消费行为习惯进行不同商品的推荐,在进行推荐时,因为用户数量巨大,如果根据每个用户的消费行为进行推荐,会导致服务器的数据计算量太大,因此通过对不同用户的消费习惯进行分析,根据不同用户之间的消费行为进行归类,使对消费行为相似的用户进行相似的商品推荐,进而在进行数据推广时能够减小服务器的数据负荷,避免数据服务器的数据量太大,造成线路拥堵。
附图说明
为了更楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于线程划分的数据采集方法及装置的步骤流程图;
图2为一维数据链示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于线程划分的数据采集方法及装置,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于线程划分的数据采集方法及装置的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于线程划分的数据采集方法及装置的步骤流程图,该方法包括以下步骤:
步骤S001,通过电商平台端获取平台中用户的行为数据。
例如对于一些现有的一些大数据系统,例如电商平台的推荐系统,由于实处理的数据量十分庞大,因此需要在数据读取或采集时需要进行线程划分,利用不同的线程处理和分析数据。
具体来说,对于电商平台的推荐系统,为了保证系统的高效,需要获取具有相近购物行为的用户群体,然后系统在对这些用户进行推荐时,可以开辟一个线程,用于采集这些用户群体在电商平台上行为数据,并进行推荐,然后再进行数据的筛选与匹配,选取与需求相关的数据,然后进行数据的汇总,最后完成推荐。对于具有不同购物行为的不同用户群体,分别需要开辟不同的线程,用于采集不同用户群体的消费和浏览数据,分别依据这些数据进行推荐,使得不同购物行为的用户群体分别划分线程进行处理时避免了不同购物行为下采集的数据之间的干扰而导致的徒增计算量的问题,可以实现电商平台的高效推荐的目的。
为了实现上述目的,需要对用群体进行划分,那么首先需要从电商平台上获取每个用户的行为数据;另外,将用户购买商品时,从进入商品详细页面到下单购买的浏览时间记为购物所需时间,根据电商平台中对商品的种类划分获取用户所购买商品的种类数量,记为商品种类数量,同时获取商品的价格,记为商品价格。
则每个用户的行为数据包括:购物所需时间、商品种类数量以及商品价格。
步骤S002,根据用户的行为数据对每个用户的购物习惯进行量化,获得购物习惯特征量。
因为在对线程进行划分时,主要是根据数据采集任务的类型、数据来源、采集频率和数据量等方面进行分析,确定采集任务的具体需求,然后根据采集任务的需求和采集数据的类型,制定合适的线程划分策略。为了能够准确的分析出各数据之间的相关关系,首先需要明确要采集的数据类型、来源和目的。例如:采集电商平台的商品信息,用于构建商品推荐系统。对于电商平台的商品信息,需要采集的数据类型可能包括商品价格、销量、评价以及用户的历史购物记录及浏览信息数据等,那么在通过系统采集数据进行线程划分时,主要是根据用户的购买习惯进行推荐人群的划分,因为在进行商品推荐时,为了减小系统对整个群体用户的推荐量,避免对每个用户都进行个性化分析,因此根据系统导出的用户购买记录来对用户群体进行习惯划分,使得每一次的推荐能够尽可能多的涵盖更多的用户,进而减小服务器的运算量。例如:有若干个用户的购物喜好是购买衣物,但是其对衣服的价格、款式等要求不相同,那么在进行用户推荐时,需要将购买相同价格区间和相同款式的用户归在同一个群体中,然后对其推荐相同的商品,但是这些用户在所有的购买记录中商品的种类又是不尽相同的,那么在进行商品推荐时又会存在个体差异,因此在不同用户群体之间又会存在交集,则在进行商品推荐时还需要考虑不同群体用户间的联系。
因为上述获得的数据是一个多维数据,那么在对不同用户间的数据进行分析时,需要根据数据的特征获得不同数据的相关性来描述不同用户间的关系。在对用户群体进行划分时,需要根据不同用户在进行购物选择商品的价格区间、浏览时间、商品种类等因素,因此首先对每个用户的购物习惯进行描述;
所述的购物习惯特征量获取方法如下:
Figure SMS_29
式中,T表示用户的购物习惯特征量,V表示用户在购买时所浏览商品的商品种类数量,
Figure SMS_30
表示用户在购买第i个商品时的购物所需时间,
Figure SMS_31
表示用户在购买第i件商品时的商品价格,n表示用户在电商平台上个购买商品的总数,
Figure SMS_32
表示用户购买商品需要的平均购买所需时间,
Figure SMS_33
表示购买商品的平均商品价格。
因为不同人的购买习惯是不一样的,有的人决策执行力较强,在购买一件商品时只浏览几件一样的商品,然后就会做出决定进行购买;而有的用户需要浏览好多相似的商品,然后再从中挑选一件商品,所需要的购物时间较长,并且不同的人群消费能力也是不相同的,则商品的平均价格也是不一样的,因此根据人群的购买习惯和消费能力来表示用户的购物习惯。
步骤S003,根据用户的行为数据的特点获得用户之间的购物决策差异,根据用户的购物习惯特征量的偏离程度获得用户的消费行为异常程度,并对用户进行聚类划分,最后获取每一类用户之间的消费习惯关联性。
通过对每一个用户的购物习惯特征量进行描述,然后对所有用户的购物习惯特征量进行层次聚类,层次聚类的迭代次数根据经验设置为2,获得若干个聚类簇,记为层次聚类簇,因为获得的购物习惯特征量是一个一维数据,那么通过层次聚类后每一个层次聚类簇内表示购物习惯特征量相近的用户群体,但是因为消费习惯相近的用户群体还存在个体的差异,因此好需要对不同的层次聚类簇进行分析。其中一维数据链如图2所示,箭头所指方向为对用户的购物习惯特征量进行从小到大的排列,由于购物习惯特征量大小存在差异,在横向分布上用户的购物习惯特征量之间的间隔不相同,图中的大圆表示每一个用户,小圆表示对应用户的消费行为对应的数据,即购物所需时间、商品种类数量以及商品价格;
因为个体之间存在差异,因此对相同层次聚类簇内的用户的消费行为进行分析时,需要对每个用户的消费行为进行判断,比如两个人的消费能力时相近的,但是购物习惯又不相同;或购物习惯相同,但是购物的种类不相同。
在这里的层次聚类是以用户的整体消费习惯为引导,将用户划分为不同的消费群体,然后再找寻同一消费群体之间的差异,进而得到购物习惯相近的消费群体。那么在通过大数据进行用户的购物习惯分析时,就可以根据采集不同的数据类型进行线程划分,从而减少服务器的分析运算量,节约资源。
因为上述在通过层次聚类获得的一维数据链中,是以每个用户的购物偏好为引导的,那么在对不同聚类信息进行分析时,可以根据不同的用户偏好来获得之间的关联性;
步骤(1),获取用户的购物决策时间:获取用户第一次浏览任意一个商品界面到下单购买该商品时所有时间,即用户购买任意一个商品的购物所需时间,将用户购买所有商品的购物所需时间的均值记为用户的购物决策时间,对于第j个聚类簇,其中的第A个用户的购物决策时间记为
Figure SMS_34
,第B个用户的购物决策时间记为
Figure SMS_35
根据用户之间的购物所需时间和购物种类数量的差异获得任意聚类簇中第A个用户与第B个用户的购物决策差异记为
Figure SMS_36
则购物决策差异的获取方法如下:
Figure SMS_37
其中,
Figure SMS_40
表示任意聚类簇中第A个用户与第B个用户的购物决策差异,
Figure SMS_43
表示对应的聚类簇中第
Figure SMS_45
个用户的购物决策时间,
Figure SMS_39
表示对应的聚类簇中第
Figure SMS_42
个用户的购物决策时间,m表示对应聚类簇中包含用户的数量,
Figure SMS_44
表示第A个用户的购物种类数量,
Figure SMS_46
表示第B个用户的购物种类数量,Q表示聚类簇中所有用户的所有购物种类数量,
Figure SMS_38
表示聚类簇中第A个用户的购物决策时间,
Figure SMS_41
表示聚类簇中第B个用户的购物决策时间;
Figure SMS_47
表示在聚类簇中所有用户两两之间的购物决策时间的差异,因为在同一聚类簇内用于的购物习惯比较相似,但是每一个购物影响因素是不一样的,因此根据不同的购物决策时间来表示个体之间的差异;
购物决策差异因子
Figure SMS_48
表示第A个用户与第B个用户的购物决策时间相对于聚类簇内所有用户的购物决策时间的相对差异,购物决策差异因子数值越大,说明第A个用户与第B个用户之间的购物决策差异越大。
购物决策差异系数
Figure SMS_49
表示第A个用户与第B个用户之间相对的购物种类之间的差异,其值越小说明用户A与用户B之间购物决策差异越小。
步骤(2),获取任意聚类簇中第A个用户的消费行为异常程度
Figure SMS_50
Figure SMS_51
其中,m表示任意聚类簇中包含用户的数量,
Figure SMS_52
表示聚类簇中第A个用户的购物习惯特征量,
Figure SMS_53
表示聚类簇中所有用户的平均购物习惯特征量,
Figure SMS_54
表示第A个用户的用户购物习惯特征量与平均购物习惯特征量的差值,
Figure SMS_55
表示以自然常数为底的指数函数;
因为一个用户的消费行为为其他用户存在较大的差异时,说明该用户的消费行为存在一定的异常,那么在进行用户间的相关性分析时,其相关性就较小;
Figure SMS_56
表示聚类簇中所有用户的购物习惯特征量的方差;
Figure SMS_57
表示的是第A个用户的购物习惯特征量的异常值,描述了聚类簇中群体之间购物习惯特征量的差异程度,也表示了个体与群体之间的购物习惯特征量的差异。
步骤(3),根据上述获得的消费行为异常程度,进而得到任意聚类簇中任意两个用户之间的消费习惯关联性,获取方法如下:
Figure SMS_58
其中,
Figure SMS_59
表示任意聚类簇中第A个用户与第B个用户的消费习惯关联性,
Figure SMS_60
表示聚类簇中第A个用户与第B个用户之间的购物决策差异,
Figure SMS_61
表示在聚类簇中第A个用户的消费行为异常程度,
Figure SMS_62
表示在聚类簇中第B个用户的消费行为异常程度,其中
Figure SMS_63
是预设超参数,为了防止分子分母为0,其取值为1。
消费习惯关联性反映了两个用户之间消费程度的相关性关系,其值越大,说明两个用户之间的消费习惯比较相似,因此在进行商品推送时可以推送同样的相关性产品。
步骤S004,根据用户的购物习惯特征量和消费习惯关联性进行聚类划分,根据聚类划分结果进行线程的划分。
本实施例中为了对不同用户的消费行为进行分析,采用K-means聚类方法,该聚类方法能够对不同用户消费行为进行归类,但是因为每一个用户都包含多个数据信息,即在对不同的用户进行分析时,一个用户所包含的数据维度较多,不能够直接进行聚类,需要对多维数据进行降维处理,获得数据之间的相关性,进而能够确定不同用户群体之间的关联程度。
则对多维数据进行降维处理的具体方法为:
首先,人为设定K-means聚类算法中的K值,本实施例将层次聚类后获得的层次聚类簇的数量作为K-means聚类算法中的K值;
然后,利用K-means聚类,根据用户之间的消费习惯关联性进行聚类,将每个层次聚类簇分别进行聚类,将每个层次聚类簇中用户之间的消费习惯关联性较大的用户,聚为一个K-means聚类簇,则一个K-means聚类簇中所包含的用户之间的消费习惯关联性都较大,通过K-means聚类实现数据降维;
另外,每一个K-means聚类簇都对应一个购物习惯特征量相近的用户群体;
利用K-means聚类将每个层次聚类簇中的用户再次进行聚类,实现了对包含购物决策时间、商品种类数量、商品价格多个数据,以及购物习惯特征量数据的用户根据消费习惯关联性进行降维,降维结果为一个K-means聚类簇;
需要说明的是,其中线程划分是根据所有的用户群体的消费行为习惯进行不同商品的推荐,在进行推荐时,因为用户数量巨大,如果根据每个用户的消费行为进行推荐,会导致服务器的数据计算量太大,因此本实施例根据不同用户之间的消费行为进行归类,使对消费行为相似的用户进行相似的商品推荐,因此根据上述的聚类获得的类别进行线程的划分。
具体线程划分的方法为:
因为在同一个聚类簇内用户的消费行为相同,因此在进行线程划分时,存在两层数据关系,第一层为通过用户的购物习惯特征量获得的层次聚类簇,即同一层次聚类簇中的用户开辟一个主线程进行用户数据采集和数据推荐,开辟的主线程的个数等于上述获得的层次聚类簇个数;
第二层为通过用户之间的消费习惯关联性获得的K-means聚类簇,因此主线程为用户的购物习惯特征量数据,子线程为用户之间的消费习惯关联性,即在每个主线程下,对每一个层次聚类簇中的每一个K-means聚类簇开辟一个子线程,即将所有层次聚类簇中的所有K-means聚类簇的数量作为子线程的总数量,子线程用于该类别中用户数据采集和数据推荐。
至此完成线程的划分,实现主线程用于对应层次聚类簇中的所有用户进行行为数据采集和商品推荐,子线程用于对应K-means聚类簇中所有用户的行为数据采集和商品推荐,根据主线程或子线程中对应用户所浏览次数最多的商品种类,将属于同一商品种类的商品进行推荐。
需要说明的是,本实施例所述的一种基于线程划分的数据采集装置,包括:网络设备装置、计算机处理器以及数据存储器,利用网络设备装置连接到互联网中,结合计算机处理器中的软件采集电商网络平台中用户的行为数据,并将采集的用户的行为数据利用数据存储器进行存储,利用计算机处理器根据上述方法步骤,处理分析用户的行为数据,并分配计算机处理器中的主线程和子线程;通过网络设备,将利用计算机处理器中的主线程和子线程对用户进行商品推荐的数据,发送到用户端。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于线程划分的数据采集方法,其特征在于,该方法包括以下步骤:
获取电商平台中每个用户的行为数据,包括用户的购物所需时间、浏览的商品种类数量以及商品价格;
根据用户购买商品时所有购物所需时间的平均值和所有商品的平均价格获取购物习惯特征量;
对所有用户的购物习惯特征量进行聚类,获得多个聚类簇,记为层次聚类簇,根据层次聚类簇中任意两个用户之间购物种类之间的差异获得购物决策差异系数;根据层次聚类簇中任意两个用户之间购物决策时间的差异获得购物决策差异因子;将购物决策差异系数对购物决策差异因子的乘积校正结果记为购物决策差异;
获取层次聚类簇中所有用户的购物习惯特征量的方差,将购物习惯特征量的方差对购物习惯特征量的乘积校正结果记为购物习惯特征量的异常值,将购物习惯特征量的异常值的归一化结果记为消费行为异常程度;
根据任意两个用户之间消费行为异常程度的和值作为消费习惯关联性因子,根据任意两个用户的购物决策差异与消费习惯关联性因子之间的比例关系获得消费习惯关联性;
根据层次聚类簇中用户之间的消费习惯关联性的大小,对层次聚类簇中的用户再次进行聚类,将聚类后获得的聚类簇记为K-means聚类簇;
根据层次聚类簇和K-means聚类簇的数量进行线程划分,将所有层次聚类簇中的所有K-means聚类簇的数量作为子线程的总数量,主线程用于对应层次聚类簇中的所有用户进行行为数据采集和商品推荐,子线程用于对应K-means聚类簇中所有用户的行为数据采集和商品推荐。
2.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述购物习惯特征量,获取方法如下:
Figure QLYQS_1
式中,T表示用户的购物习惯特征量,V表示用户在购买时所浏览商品的商品种类数量,
Figure QLYQS_2
表示用户在购买第i个商品时的购物所需时间,
Figure QLYQS_3
表示用户在购买第i件商品时的商品价格,n表示用户在电商平台上个购买商品的总数。
3.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述购物决策差异,获取方法如下:
购物决策差异的获取方法如下:
Figure QLYQS_4
其中,
Figure QLYQS_6
表示任意聚类簇中第A个用户与第B个用户的购物决策差异,
Figure QLYQS_9
表示对应的聚类簇中第
Figure QLYQS_11
个用户的购物决策时间,
Figure QLYQS_7
表示对应的聚类簇中第
Figure QLYQS_10
个用户的购物决策时间,m表示对应聚类簇中包含用户的数量,
Figure QLYQS_12
表示第A个用户的购物种类数量,
Figure QLYQS_13
表示第B个用户的购物种类数量,Q表示聚类簇中所有用户的所有购物种类数量,
Figure QLYQS_5
表示聚类簇中第A个用户的购物决策时间,
Figure QLYQS_8
表示聚类簇中第B个用户的购物决策时间。
4.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述消费行为异常程度,获取方法如下:
Figure QLYQS_14
其中,
Figure QLYQS_15
表示第A个用户的消费行为异常程度,
Figure QLYQS_16
表示任意聚类簇中包含用户的数量,
Figure QLYQS_17
表示聚类簇中第A个用户的购物习惯特征量,
Figure QLYQS_18
表示聚类簇中所有用户的平均购物习惯特征量,
Figure QLYQS_19
表示以自然常数为底的指数函数。
5.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述消费习惯关联性,获取方法如下:
Figure QLYQS_20
其中,
Figure QLYQS_21
表示任意聚类簇中第A个用户与第B个用户的消费习惯关联性,
Figure QLYQS_22
表示聚类簇中第A个用户与第B个用户之间的购物决策差异,
Figure QLYQS_23
表示在聚类簇中第A个用户的消费行为异常程度,
Figure QLYQS_24
表示在聚类簇中第B个用户的消费行为异常程度,其中
Figure QLYQS_25
是预设超参数,为了防止分子分母为0,其取值为1。
6.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述商品推荐,具体方法如下:
根据主线程或子线程中对应用户所浏览次数最多的商品种类,将属于同一商品种类的商品进行推荐。
7.一种基于线程划分的数据采集装置,包括:网络设备装置、计算机处理器以及数据存储器,其特征在于,利用网络设备装置连接到互联网中,结合计算机处理器中的软件采集电商网络平台中用户的行为数据,并将采集的用户的行为数据利用数据存储器进行存储,利用计算机处理器实施权利要求1到权利要求6中任意一项所述的数据采集方法,处理分析用户的行为数据,并分配计算机处理器中的主线程和子线程;通过网络设备,将利用计算机处理器中的主线程和子线程对用户进行商品推荐的数据,发送到用户端。
CN202310472996.5A 2023-04-28 2023-04-28 一种基于线程划分的数据采集方法及装置 Active CN116205675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310472996.5A CN116205675B (zh) 2023-04-28 2023-04-28 一种基于线程划分的数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310472996.5A CN116205675B (zh) 2023-04-28 2023-04-28 一种基于线程划分的数据采集方法及装置

Publications (2)

Publication Number Publication Date
CN116205675A true CN116205675A (zh) 2023-06-02
CN116205675B CN116205675B (zh) 2023-09-08

Family

ID=86509792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310472996.5A Active CN116205675B (zh) 2023-04-28 2023-04-28 一种基于线程划分的数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN116205675B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431931A (zh) * 2023-06-14 2023-07-14 陕西思极科技有限公司 实时增量数据统计分析方法
CN116911926A (zh) * 2023-06-26 2023-10-20 杭州火奴数据科技有限公司 基于数据分析的广告营销推荐方法
CN117093916A (zh) * 2023-10-18 2023-11-21 深圳鼎智通讯有限公司 基于物联网技术的pos智能化监控系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143608A1 (en) * 2004-12-28 2006-06-29 Jan Dostert Thread monitoring using shared memory
CN103971191A (zh) * 2013-01-31 2014-08-06 国际商业机器公司 工作线程管理方法和设备
US20140358912A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Identifying Event-Specific Social Discussion Threads
CN109711867A (zh) * 2018-12-07 2019-05-03 广州市诚毅科技软件开发有限公司 基于收视大数据的购物者画像构建营销方法和系统
CN110503446A (zh) * 2018-05-16 2019-11-26 江苏天智互联科技股份有限公司 基于聚类算法的电商平台的客户分类方法与决策方法
JP2019212126A (ja) * 2018-06-06 2019-12-12 アスクル株式会社 販売支援システム、販売支援方法および販売支援プログラム
KR20200103202A (ko) * 2019-02-20 2020-09-02 동의대학교 산학협력단 딥러닝 뉴럴 네트워크 기반의 상품 추천 서비스 제공방법
CN113724042A (zh) * 2021-08-23 2021-11-30 中国建设银行股份有限公司 一种商品推荐方法、装置、介质和设备
CN113760512A (zh) * 2021-09-08 2021-12-07 北京世冠金洋科技发展有限公司 仿真模型的执行方法及装置、存储介质及电子设备
CN115578163A (zh) * 2022-10-18 2023-01-06 李倩文 一种组合商品信息的个性化推送方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060143608A1 (en) * 2004-12-28 2006-06-29 Jan Dostert Thread monitoring using shared memory
CN103971191A (zh) * 2013-01-31 2014-08-06 国际商业机器公司 工作线程管理方法和设备
US20140358912A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Identifying Event-Specific Social Discussion Threads
CN110503446A (zh) * 2018-05-16 2019-11-26 江苏天智互联科技股份有限公司 基于聚类算法的电商平台的客户分类方法与决策方法
JP2019212126A (ja) * 2018-06-06 2019-12-12 アスクル株式会社 販売支援システム、販売支援方法および販売支援プログラム
CN109711867A (zh) * 2018-12-07 2019-05-03 广州市诚毅科技软件开发有限公司 基于收视大数据的购物者画像构建营销方法和系统
KR20200103202A (ko) * 2019-02-20 2020-09-02 동의대학교 산학협력단 딥러닝 뉴럴 네트워크 기반의 상품 추천 서비스 제공방법
CN113724042A (zh) * 2021-08-23 2021-11-30 中国建设银行股份有限公司 一种商品推荐方法、装置、介质和设备
CN113760512A (zh) * 2021-09-08 2021-12-07 北京世冠金洋科技发展有限公司 仿真模型的执行方法及装置、存储介质及电子设备
CN115578163A (zh) * 2022-10-18 2023-01-06 李倩文 一种组合商品信息的个性化推送方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐晓波;樊静;: "基于客户聚类的商品推荐", 情报杂志, no. 06 *
王红军,陈庆新,陈新,郑德涛: "基于效用分析的客户聚类方法研究", 计算机集成制造系统-CIMS, no. 03 *
闫杰: "图书个性化推荐研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431931A (zh) * 2023-06-14 2023-07-14 陕西思极科技有限公司 实时增量数据统计分析方法
CN116431931B (zh) * 2023-06-14 2023-08-25 陕西思极科技有限公司 实时增量数据统计分析方法
CN116911926A (zh) * 2023-06-26 2023-10-20 杭州火奴数据科技有限公司 基于数据分析的广告营销推荐方法
CN116911926B (zh) * 2023-06-26 2024-08-27 杭州火奴数据科技有限公司 基于数据分析的广告营销推荐方法
CN117093916A (zh) * 2023-10-18 2023-11-21 深圳鼎智通讯有限公司 基于物联网技术的pos智能化监控系统
CN117093916B (zh) * 2023-10-18 2024-02-06 深圳鼎智通讯有限公司 基于物联网技术的pos机智能化监控系统

Also Published As

Publication number Publication date
CN116205675B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN116205675B (zh) 一种基于线程划分的数据采集方法及装置
CN108629665B (zh) 一种个性化商品推荐方法和系统
Lekakos et al. Improving the prediction accuracy of recommendation algorithms: Approaches anchored on human factors
Li et al. Using multidimensional clustering based collaborative filtering approach improving recommendation diversity
CN108268464B (zh) 一种基于协同过滤与logistic回归的个性化推荐方法及装置
CN105183727A (zh) 一种图书推荐方法及其系统
CN116431931B (zh) 实时增量数据统计分析方法
CN114219169A (zh) 颖幡供应链销售和库存预测算法模型和应用系统
Elovici et al. A decision-theoretic approach to data mining
CN112417294A (zh) 一种基于神经网络挖掘模型的业务智能推荐方法
Alawadh et al. A survey on methods and applications of intelligent market basket analysis based on association rule.
Leng et al. Recurrent convolution basket map for diversity next-basket recommendation
CN117972218A (zh) 基于大数据的用户需求精准匹配方法及系统
CN118096292A (zh) 一种基于云购物的智能推荐方法及系统
Lewaaelhamd Customer segmentation using machine learning model: an application of RFM analysis
Vaganov et al. Forecasting purchase categories with transition graphs using financial and social data
Kim et al. A deep bidirectional similarity learning model using dimensional reduction for multivariate time series clustering
CN112150179B (zh) 一种信息推送方法和装置
CN113269610A (zh) 银行产品的推荐方法、装置及存储介质
CN115222177A (zh) 业务数据处理方法、装置、计算机设备和存储介质
Chakrabarti et al. Monitoring large scale production processes using a rule-based visualization recommendation system
CN116340644A (zh) 一种基于协同过滤算法的金融产品推荐方法及装置
Meena et al. Product recommendation system using distance measure of product image features
Jadhav et al. Customer Segmentation and Buyer Targeting Approach
Wasilewski Customer segmentation in e-commerce: a context-aware quality model for comparing clustering algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant