CN111340428A - 货物类型的特征表示方法、系统、电子设备和存储介质 - Google Patents

货物类型的特征表示方法、系统、电子设备和存储介质 Download PDF

Info

Publication number
CN111340428A
CN111340428A CN202010142430.2A CN202010142430A CN111340428A CN 111340428 A CN111340428 A CN 111340428A CN 202010142430 A CN202010142430 A CN 202010142430A CN 111340428 A CN111340428 A CN 111340428A
Authority
CN
China
Prior art keywords
cargo
data
type
cargo type
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010142430.2A
Other languages
English (en)
Other versions
CN111340428B (zh
Inventor
李轩增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN202010142430.2A priority Critical patent/CN111340428B/zh
Publication of CN111340428A publication Critical patent/CN111340428A/zh
Application granted granted Critical
Publication of CN111340428B publication Critical patent/CN111340428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0605Supply or demand aggregation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提供一种货物类型的特征表示方法、系统、电子设备和存储介质。其中方法包括:以对货物的关联操作行为对应的货物类型为数据序列,生成多组第一数据序列;在第一数据序列中对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;根据第二数据序列,以货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建图结构;在图结构中随机游走生成多组第三数据序列,根据第三数据序列训练向量模型,并根据向量模型获得每个货物类型的特征向量。本发明为货物类型的描述提供通用的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。

Description

货物类型的特征表示方法、系统、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,具体地说,涉及一种货物类型的特征表示方法、系统、电子设备和存储介质。
背景技术
在物流平台,车货匹配场景中常需要对货物类型进行描述。例如,司机搜索货源时,选定某一类货物类型,则系统可以为司机推荐符合该货物类型及其相似货物类型的货源。高效的车货匹配可以帮助用户快速获得所需信息,提升市场效率。
现有技术中,通过统计分析的方法,得到基于司机、城市、路线等维度的货物类型的离散分布。在车货匹配场景下通过查询货物类型键值得到相应的分数,实现车货匹配。但是,随着车货匹配场景的升级,货物类型的描述愈发精细。过去使用的货物类型只有几十种,最新的分层级货物类型条目数量极大膨胀,已扩展到包含一级类目几十种、二级类目几百种,因此需要对货物类型的描述进行改进。
然而,现有的货物类型都是基于独热编码,各个货物类型在向量空间上相互正交,因此无泛化能力、无法自动估计不同货物类型间的关联程度。尤其在分层级类目的货物类型体系下,随着类目数量膨胀,每个货物类型下的有效统计量变少且不同货物类型之间的分布不均衡程度变大。再加上分层级类目的货物类型体系中未填类目占据更多的比重,使有效货物类型相对不均衡程度更加增大,导致货物类型的分布倾斜加剧,系统无法在车货匹配场景下自动估计货物类型的相关程度的问题更加突出。
需要说明的是,在上述背景技术部分申请的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种货物类型的特征表示方法、系统、电子设备和存储介质,为货物类型的描述提供通用的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。
本发明的一个方面提供一种货物类型的特征表示方法,包括步骤:自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。
在一些实施例中,所述对货物的操作行为数据包括对货物的点击行为数据和对货物的电话行为数据;所述对部分操作行为对应的货物类型进行上采样的步骤中,对所述电话行为数据对应的货物类型进行上采样。
在一些实施例中,所述对所述电话行为数据对应的货物类型进行上采样的步骤包括:在每组所述第一数据序列中,确定电话行为数据对应的货物类型;以所述电话行为数据对应的货物类型及该货物类型的前一货物类型为一组采样数据,在该货物类型及其后一货物类型之间插入多组所述采样数据。
在一些实施例中,所述对默认货物类型进行下采样的步骤包括:在每组所述第一数据序列中,确定默认货物类型,所述默认货物类型是数值等于预设值的货物类型;对所述默认货物类型进行一次随机选择,保留所述一次随机选择选中的默认货物类型。
在一些实施例中,所述对默认货物类型进行下采样的步骤还包括:在每组所述第一数据序列中,对保留的所述默认货物类型进行二次随机选择,获取所述二次随机选择选中的默认货物类型的货源地;根据各货源地的货物类型的分布,对所述二次随机选择选中的默认货物类型进行替换。
在一些实施例中,所述根据两货物类型的关联次数获得对应节点的边权重的步骤包括:以各组所述第二数据序列中每相邻两货物类型为一组关联数据;计算各组所述关联数据在相同起点的所有组关联数据中的概率,其中一组关联数据中前一货物类型为该组关联数据的起点;以每组所述关联数据的概率作为该组所述关联数据中前一货物类型对应的节点指向后一货物类型对应的节点的边的边权重。
在一些实施例中,所述在所述图结构中随机游走生成多组第三数据序列的步骤中,采用Deep Walk算法,通过随机游走生成多组定长的第三数据序列;所述根据各所述第三数据序列训练向量模型的步骤中,采用Word2vec算法,将各所述第三数据序列作为训练数据训练所述向量模型。
在一些实施例中,所述对货物的操作行为数据自司机账号的行为日志中获得;所述以关联操作行为对应的货物类型为数据序列的步骤中,以一司机账号对应的操作行为一组关联操作行为。
在一些实施例中,所述生成货物类型的多组第一数据序列的步骤包括:将每个司机账号对应的操作行为按时间戳先后顺序拼接成一组操作行为数据序列;根据每个操作行为指向的货物的货物类型,将各组所述操作行为数据序列转化成货物类型的原始数据序列;在每组所述原始数据序列中,对连续相同的货物类型进行去重,形成每相邻货物类型不同的第一数据序列。
本发明的另一个方面提供一种货物类型的特征表示系统,包括:第一数据处理模块,用于自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;第二数据处理模块,用于在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;图结构构建模块,用于根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及特征向量生成模块,用于在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。
本发明的又一个方面提供一种电子设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意实施例所述的货物类型的特征表示方法的步骤。
本发明的再一个方面提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述任意实施例所述的货物类型的特征表示方法的步骤。
本发明与现有技术相比的有益效果至少包括:
本发明针对车货匹配场景的业务特点,在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示;
本发明为货物类型的描述提供了通用的,具有更强泛化能力的特征表示方式,解决因车货匹配场景下因货物类型的分层类目逐渐细化导致现行方案无法对相似货物类型进行合理估计的缺陷;本发明生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础,通过自动估计货物类型的相关程度来缓解货物类型粒度过细和分布倾斜加剧的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明实施例中货物类型的特征表示方法的步骤示意图;
图2示出本发明实施例中生成第一数据序列的步骤示意图;
图3示出本发明实施例中对默认货物类型进行下采样的步骤示意图;
图4示出本发明实施例中获得两节点之间边权重的步骤示意图;
图5示出本发明实施例中货物类型的特征表示系统的模块示意图;
图6示出本发明实施例中电子设备的结构示意图;以及
图7示出本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
图1示出实施例中货物类型的特征表示方法的主要步骤,参照图1所示,在一些实施例中,货物类型的特征表示方法主要包括:在步骤S10中,自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;在步骤S20中,在每组第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;在步骤S30中,根据各第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及在步骤S40中,在图结构中随机游走生成多组第三数据序列,根据各第三数据序列训练向量模型,并根据向量模型获得每个货物类型的特征向量。
本实施例中,在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成能够克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示,可以为货物类型生成通用的,具有强泛化能力的特征向量,从而在车货匹配场景下为相似货物类型的合理估计提供数据基础。
在物流平台,步骤S10中对货物的操作行为数据通常是自司机账号的行为日志中获得。具体来说,可以选择过去某一较长且适宜的时间窗口内平台所有司机账号在搜索货源时的行为日志表,以及此时间窗口内平台所有货源的分层级货物类型,作为数据来源。其中,时间窗口可以是月份或季度,因各城市的产出物资存在周期性变化,可以适当调整时间窗口。分层级货物类型中,一级货物类型例如包括水果、日化、电子零件等,二级货物类型例如包括属于水果的苹果、香蕉,属于日化的洗发水、沐浴露,属于电子零件的电容、晶体管等等。分层级货物类型主要是为方便货主发货时选择其货源的所属货物类型,在系统中,不管是一级货物类型或二级货物类型,每个货物类型唯一对应一个数值,以方便标识不同的货物类型。
进一步的,步骤S10中以一司机账号对应的操作行为为一组关联操作行为,形成每个司机账号对应的货物类型的第一数据序列。也即,本实施例将同一司机账号的操作行为视为关联操作行为,形成以司机账号区分的多组第一数据序列。具体来说,参照图2所示,生成货物类型的多组第一数据序列的过程包括:在步骤S102中,将每个司机账号对应的操作行为按时间戳先后顺序拼接成一组操作行为数据序列;在步骤S104中,根据每个操作行为指向的货物的货物类型,将各组操作行为数据序列转化成货物类型的原始数据序列;以及在步骤S106中,在每组原始数据序列中,对连续相同的货物类型进行去重,形成每相邻货物类型不同的第一数据序列。
以对货物的操作行为数据中包含司机A和B的操作行为数据为例,经对每个司机账号的操作行为根据时间戳先后顺序进行拼接,并根据每个每个操作行为指向的货物的货物类型,获取对应的货物类型原始序列,包括司机A对应的第一数据序列,如{1,2,2,2,3,4,5,5,8,8},以及司机B对应的第一数据序列,如{1,3,2,2,3,4,6,6,6,5,8}。之后,对每个第一数据序列中连续相同的货物类型数据采用留一操作,形成司机A对应的第一数据序列{1,2,3,4,5,8}和司机B对应的第一数据序列{1,3,2,3,4,6,5,8}。
在一些实施例中,对货物的操作行为数据包括对货物的点击行为数据和对货物的电话行为数据。也即在步骤S10获取司机账号的行为日志时,选择每个司机账号的点击行为日志表和电话行为日志表,从中获取对货物的点击行为数据和电话行为数据。进一步的,步骤S20对部分操作行为对应的货物类型进行上采样的过程中,对电话行为数据对应的货物类型进行上采样。电话行为是操作行为中比较重要的行为数据,通过对电话行为数据对应的货物类型进行上采样,增加电话行为数据对应的数据样本。具体来说,对电话行为数据对应的货物类型进行上采样的步骤包括:在每组第一数据序列中,确定电话行为数据对应的货物类型;以及以电话行为数据对应的货物类型及该货物类型的前一货物类型为一组采样数据,在该货物类型及其后一货物类型之间插入多组采样数据。
以上述司机A对应的第一数据序列{1,2,3,4,5,8}为例,经遍历确定其中第二条货物类型“2”是由电话行为数据转化而来。则以该第二条货物类型“2”及其前一条货物类型“1”为一组采样数据,在该第二条货物类型“2”及其后一条货物类型“3”之间插入多组采样数据,例如插入4组采样数据,形成处理后的数据序列{1,2,1,2,1,2,1,2,1,2,3,4,5,8}。同理,司机B对应的第一数据序列{1,3,2,3,4,6,5,8}经上采样处理后形成数据序列{1,3,2,3,2,3,2,3,2,3,2,3,4,6,5,8}。
进一步的,步骤S20中默认货物类型是指货源在发布时未填写货物类型的情况,通常系统会为这类货物类型空缺的货源指定默认数值作为其货物类型。对默认货物类型进行下采样,减少其样本数据,以避免数据缺失对货物类型的特征表示造成不利影响。参照图3所示,对默认货物类型进行下采样的过程包括:在步骤S202中,在每组第一数据序列中,确定默认货物类型,默认货物类型是数值等于预设值的货物类型;以及在步骤S204中,对默认货物类型进行一次随机选择,保留一次随机选择选中的默认货物类型。通过一次随机选择,保留部分默认货物类型,使默认货物类型的样本数据减少。例如在一个实施例中,随机保留每组第一数据序列中20%的默认货物类型。
继续参照图3所示,对默认货物类型进行下采样的过程还包括:在步骤S206中,在每组第一数据序列中,对保留的默认货物类型进行二次随机选择,获取二次随机选择选中的默认货物类型的货源地;以及在步骤S208中,根据各货源地的货物类型的分布,对二次随机选择选中的默认货物类型进行替换。在下采样的基础上,对下采样后的默认货物类型做基于货源地维度的货物类型分布的随机替换,实现在默认货物类型的预处理过程中间接利用Side Information(补充信息),而非在后续的图结构构建及最后的特征向量生成阶段加入Side Information。因此,本实施例对默认货物类型的处理不会引入干扰因素,且在线上部署本发明构建的特征向量时,可以降低进行模型推断的复杂度,提高系统的即时性和运行效率。
在一个实施例中,随机保留每个第一数据序列中默认货物类型的20%后,对保留的默认货物类型中50%根据该默认货物类型的数据来源地(即货源地)的货物类型离散分布进行随机替换。例如,在一组第一数据序列中,总共有20条默认货物类型数据,经一次随机选择后保留下其中4条默认货物类型数据,再经二次随机选择,选中其中2条默认货物类型数据,例如是第i条默认货物类型数据和第j条默认货物类型数据。该第i条默认货物类型数据和第j条默认货物类型数据均来自M货源地,M货源地的货物类型离散分布中,苹果和香蕉的货物类型数量分布比例是1:1。则将该第i条默认货物类型数据和第j条默认货物类型数据分别替换为苹果和香蕉对应的货物类型数据。在其他实施例中,对默认货物类型数据下采样后可以做其他方式的基于其货源地货物类型分布情况的随机替换,使默认货物类型的处理符合其货源地货物类型分布,间接利用Side Information对类型缺失的数据进行处理。
上述实施例通过步骤S10和S20,实现针对车货匹配场景的业务特点,在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,为货物类型的特征表示提供数据基础。
接着,通过步骤S30构建图结构,具体是Graph Embedding图神经网络。以各第二数据序列中的货物类型为图结构中的节点,将货物类型数据映射至图结构中以利于数据处理,并解决货物类型数据基于独热编码导致各个货物类型在向量空间上相互正交,无法自动估计不同货物类型之间的关联程度的问题。构建图结构时,根据两货物类型的关联次数获得对应节点的边权重,参照图4所示,获得两节点之间的边权重的过程包括:在步骤S302中,以各组第二数据序列中每相邻两货物类型为一组关联数据;在步骤S304中,计算各组关联数据在相同起点的所有组关联数据中的概率,其中一组关联数据中前一货物类型为该组关联数据的起点;以及在步骤S306中,以每组关联数据的概率作为该组关联数据中前一货物类型对应的节点指向后一货物类型对应的节点的边的边权重。
举例来说,在一个实施例中,例如获得了司机C对应的第二数据序列{1,3,2,3}和司机D对应的第二数据序列{2,1,2,3}。在前述步骤中,已将该两个第二数据序列中的各个货物类型数据作为节点,相同的货物类型数据为同一节点,得到图结构的三个节点:“1”、“2”、“3”。当然,在实际应用场景中,有成千上万的司机账号对应的第二数据序列以及海量的节点,不以本实施例所示为限。之后,以各组第二数据序列中每相邻两货物类型为一组关联数据,得到司机C对应的三组关联数据1→3、3→2、2→3,和司机D对应的三组关联数据2→1、1→2、2→3。接着根据起点计算关联数据的概率分布,在起点为节点“1”的关联数据组中,关联数据“1→2”的概率为0.5,关联数据“1→3”的概率为0.5;在起点为节点“2”的关联数据组中,关联数据“2→1”的概率为0.33,关联数据“2→3”的概率为0.67;在起点为节点“3”的关联数据组中,关联数据“3→2”的概率为1.0。最后以关联数据的概率作为对应两个节点之间的边权重,得到节点“1”指向节点“2”的边的边权重为0.5,节点“1”指向节点“3”的边的边权重为0.5,节点“2”指向节点“1”的边的边权重为0.33,节点“2”指向节点“3”的边的边权重为0.67,节点“3”指向节点“2”的边的边权重为1.0。从而构建起货物类型“1”、“2”、“3”的图结构。
进一步的,步骤S40中,采用Deep Walk算法,在货物类型的图结构中通过随机游走生成多组定长的第三数据序列,并采用Word2vec算法,将各组第三数据序列作为训练数据训练向量模型,从而利用训练好的向量模型得到每个货物类型的特征向量。Deep Walk算法将节点视为词,通过随机游走生成定长序列作为句子,输入给Word2vec算法以得到节点的向量表示。其中,Graph Embedding算法、Deep Walk算法、Word2vec算法均是比较成熟的算法模型,因此不再展开介绍。本发明针对车货匹配场景下的业务特点,在构建图结构和生成特征向量之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,从而基于第二数据序列构建图结构并对货物类型进行特征表示。
上述实施例的货物类型的特征表示方法采用以Graph Embedding为基础的图方法对货物类型进行特征表示,把所有货物类型看作图结构中的节点,将各货物类型间可能的隐含关系通过数据筛选、基于业务场景的合理修正来确认边权重,最后利用Deep Walk方法构建货物类型的数据序列进行Embedding。根据上述的特征表示方法,可以为每个货物类型生成通用的,具有强泛化能力的特征向量,为车货匹配场景下相似货物类型的合理估计提供数据基础。
本发明实施例还提供一种货物类型的特征表示系统,参照图5所示,货物类型的特征表示系统5主要包括:第一数据处理模块510,用于自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列。在一些实施例中,第一数据处理模块510可用于实现上述货物类型的特征表示方法实施例中的步骤S10。第二数据处理模块520,用于在每组第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列。在一些实施例中,第二数据处理模块520可用于实现上述货物类型的特征表示方法实施例中的步骤S20。图结构构建模块530,用于根据各第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构。在一些实施例中,图结构构建模块530可用于实现上述货物类型的特征表示方法实施例中的步骤S30。特征向量生成模块540,用于在图结构中随机游走生成多组第三数据序列,根据各第三数据序列训练向量模型,并根据向量模型获得每个货物类型的特征向量。在一些实施例中,特征向量生成模块540可用于实现上述货物类型的特征表示方法实施例中的步骤S40。
本实施例的货物类型的特征表示系统在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示;从而为货物类型的描述提供通用的,具有强泛化能力的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,处理器被配置为经由执行可执行指令来执行上述实施例中的货物类型的特征表示方法的步骤。
如上所述,本发明的电子设备能够实现在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示;从而为货物类型的描述提供通用的,具有强泛化能力的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。
图6是本发明实施例中电子设备的结构示意图,应当理解的是,图6仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图6来描述本发明的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行上述实施例中描述的货物类型的特征表示方法的步骤。例如,处理单元610可以执行如图1至图4所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现上述实施例描述的货物类型的特征表示方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述实施例描述的货物类型的特征表示方法的步骤。
如上所述,本发明的计算机可读存储介质能够实现在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示;从而为货物类型的描述提供通用的,具有强泛化能力的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。
图7是本发明的计算机可读存储介质的结构示意图。参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (12)

1.一种货物类型的特征表示方法,其特征在于,包括步骤:
自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;
在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;
根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及
在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。
2.如权利要求1所述的特征表示方法,其特征在于,所述对货物的操作行为数据包括对货物的点击行为数据和对货物的电话行为数据;以及
所述对部分操作行为对应的货物类型进行上采样的步骤中,对所述电话行为数据对应的货物类型进行上采样。
3.如权利要求2所述的特征表示方法,其特征在于,所述对所述电话行为数据对应的货物类型进行上采样的步骤包括:
在每组所述第一数据序列中,确定电话行为数据对应的货物类型;以及
以所述电话行为数据对应的货物类型及该货物类型的前一货物类型为一组采样数据,在该货物类型及其后一货物类型之间插入多组所述采样数据。
4.如权利要求1所述的特征表示方法,其特征在于,所述对默认货物类型进行下采样的步骤包括:
在每组所述第一数据序列中,确定默认货物类型,所述默认货物类型是数值等于预设值的货物类型;以及
对所述默认货物类型进行一次随机选择,保留所述一次随机选择选中的默认货物类型。
5.如权利要求4所述的特征表示方法,其特征在于,所述对默认货物类型进行下采样的步骤还包括:
在每组所述第一数据序列中,对保留的所述默认货物类型进行二次随机选择,获取所述二次随机选择选中的默认货物类型的货源地;以及
根据各货源地的货物类型的分布,对所述二次随机选择选中的默认货物类型进行替换。
6.如权利要求1所述的特征表示方法,其特征在于,所述根据两货物类型的关联次数获得对应节点的边权重的步骤包括:
以各组所述第二数据序列中每相邻两货物类型为一组关联数据;
计算各组所述关联数据在相同起点的所有组关联数据中的概率,其中一组关联数据中前一货物类型为该组关联数据的起点;以及
以每组所述关联数据的概率作为该组所述关联数据中前一货物类型对应的节点指向后一货物类型对应的节点的边的边权重。
7.如权利要求1所述的特征表示方法,其特征在于,所述在所述图结构中随机游走生成多组第三数据序列的步骤中,采用Deep Walk算法,通过随机游走生成多组定长的第三数据序列;以及
所述根据各所述第三数据序列训练向量模型的步骤中,采用Word2vec算法,将各所述第三数据序列作为训练数据训练所述向量模型。
8.如权利要求1所述的特征表示方法,其特征在于,所述对货物的操作行为数据自司机账号的行为日志中获得;以及
所述以关联操作行为对应的货物类型为数据序列的步骤中,以一司机账号对应的操作行为一组关联操作行为。
9.如权利要求8所述的特征表示方法,其特征在于,所述生成货物类型的多组第一数据序列的步骤包括:
将每个司机账号对应的操作行为按时间戳先后顺序拼接成一组操作行为数据序列;
根据每个操作行为指向的货物的货物类型,将各组所述操作行为数据序列转化成货物类型的原始数据序列;以及
在每组所述原始数据序列中,对连续相同的货物类型进行去重,形成每相邻货物类型不同的第一数据序列。
10.一种货物类型的特征表示系统,其特征在于,包括:
第一数据处理模块,用于自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;
第二数据处理模块,用于在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;
图结构构建模块,用于根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及
特征向量生成模块,用于在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。
11.一种电子设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述的货物类型的特征表示方法的步骤。
12.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至9任一项所述的货物类型的特征表示方法的步骤。
CN202010142430.2A 2020-03-04 2020-03-04 货物类型的特征表示方法、系统、电子设备和存储介质 Active CN111340428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010142430.2A CN111340428B (zh) 2020-03-04 2020-03-04 货物类型的特征表示方法、系统、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010142430.2A CN111340428B (zh) 2020-03-04 2020-03-04 货物类型的特征表示方法、系统、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111340428A true CN111340428A (zh) 2020-06-26
CN111340428B CN111340428B (zh) 2022-09-27

Family

ID=71185832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010142430.2A Active CN111340428B (zh) 2020-03-04 2020-03-04 货物类型的特征表示方法、系统、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111340428B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948463A (zh) * 2021-03-01 2021-06-11 创新奇智(重庆)科技有限公司 轧钢数据采样方法、装置、电子设备及存储介质
CN114399250A (zh) * 2021-12-30 2022-04-26 淮阴工学院 基于认知图谱的冷链多温混配选温方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976140A (zh) * 2016-04-27 2016-09-28 大连海事大学 大规模流式数据环境下的车货实时匹配方法
CN108229728A (zh) * 2017-12-18 2018-06-29 成都返空汇网络技术有限公司 一种货源信息的推荐方法及一种计算机设备
CN109242044A (zh) * 2018-09-30 2019-01-18 江苏满运软件科技有限公司 车货匹配模型的训练方法、装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976140A (zh) * 2016-04-27 2016-09-28 大连海事大学 大规模流式数据环境下的车货实时匹配方法
CN108229728A (zh) * 2017-12-18 2018-06-29 成都返空汇网络技术有限公司 一种货源信息的推荐方法及一种计算机设备
CN109242044A (zh) * 2018-09-30 2019-01-18 江苏满运软件科技有限公司 车货匹配模型的训练方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948463A (zh) * 2021-03-01 2021-06-11 创新奇智(重庆)科技有限公司 轧钢数据采样方法、装置、电子设备及存储介质
CN112948463B (zh) * 2021-03-01 2022-10-14 创新奇智(重庆)科技有限公司 轧钢数据采样方法、装置、电子设备及存储介质
CN114399250A (zh) * 2021-12-30 2022-04-26 淮阴工学院 基于认知图谱的冷链多温混配选温方法及装置

Also Published As

Publication number Publication date
CN111340428B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN107679059B (zh) 业务模板的匹配方法、装置、计算机设备及存储介质
CN110276074B (zh) 自然语言处理的分布式训练方法、装置、设备及存储介质
CN111340428B (zh) 货物类型的特征表示方法、系统、电子设备和存储介质
CN106407381B (zh) 一种基于人工智能的推送信息的方法和装置
CN108171576B (zh) 订单处理方法、装置、电子设备及计算机可读存储介质
US11294945B2 (en) Unsupervised text summarization with reinforcement learning
US20210279279A1 (en) Automated graph embedding recommendations based on extracted graph features
CN111125491A (zh) 商品信息的搜索方法和装置、存储介质及电子装置
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
US11386272B2 (en) Learning method and generating apparatus
CN117648422A (zh) 问答提示系统、问答提示、库构建、模型训练方法和装置
CN111782774B (zh) 一种问题推荐的方法及装置
CN111861801A (zh) 酒店满房预测方法、系统、设备及存储介质
CN116342164A (zh) 目标用户群体的定位方法、装置、电子设备及存储介质
CN115098362B (zh) 页面测试方法、装置、电子设备以及存储介质
CN112035401A (zh) 模型数据处理方法、装置、电子设备及可读介质
CN115204931A (zh) 用户服务策略确定方法、装置及电子设备
CN114676677A (zh) 信息处理方法、装置、服务器及存储介质
CN111027999B (zh) 一种拼租用户推荐方法、装置、电子设备和存储介质
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
US20130325365A1 (en) Buildable part pairs in an unconfigured product structure
US20230185791A1 (en) Prioritized data cleaning
US20230206075A1 (en) Method and apparatus for distributing network layers in neural network model
CN115545822A (zh) 产品属性推荐方法和装置、计算机存储介质、电子设备
CN111523020A (zh) 用于输出信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant