CN116523583A - 电子商务数据分析系统及其方法 - Google Patents

电子商务数据分析系统及其方法 Download PDF

Info

Publication number
CN116523583A
CN116523583A CN202211575931.5A CN202211575931A CN116523583A CN 116523583 A CN116523583 A CN 116523583A CN 202211575931 A CN202211575931 A CN 202211575931A CN 116523583 A CN116523583 A CN 116523583A
Authority
CN
China
Prior art keywords
data
scale
feature vector
training
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211575931.5A
Other languages
English (en)
Inventor
李菁菁
李海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Guanghua University
Original Assignee
Changchun Guanghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Guanghua University filed Critical Changchun Guanghua University
Priority to CN202211575931.5A priority Critical patent/CN116523583A/zh
Publication of CN116523583A publication Critical patent/CN116523583A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种电子商务数据分析系统及其方法。其采用基于深度学习的人工智能语义理解算法来提取出所述用户的兴趣爱好和历史行为的各个数据项的基于全局语义理解特征的多尺度关联性特征分布信息,以此来进行推荐商品的主题标签的确定,进而基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐。这样,可以根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。

Description

电子商务数据分析系统及其方法
技术领域
本申请涉及数据分析技术领域,且更为具体地,涉及一种电子商务数据分析系统及其方法。
背景技术
面对急速增长的数据规模,用户正面临着“信息超载问题”,如果不借助于搜索引擎、推荐系统或者信息分类等辅助技术,用户从海量的互联网资源中找到自己真正感兴趣的信息是一件非常困难的事情,使得信息的有效利用率反而降低了。搜索引擎和个性化推荐系统是解决“信息超载”问题的两种手段。搜索引擎根据用户输入的关键字反馈给用户查询的结果,由于搜索引擎根据的是所有人的行为规律返回搜索结果,无法根据每个用户提供个性化服务,使得可能用户真正感兴趣的内容被海量的搜索结果所掩盖。
个性化推荐在此问题上弥补了搜索引擎的不足,即代替用户评估其所有未看过的产品,并通过分析用户的兴趣爱好和历史行为,主动推荐符合用户喜好的项目。
在大数据时代下的推荐系统会面临海量的训练规模,传统单机环境下的推荐系统不能满足大数据时代推荐的需求。进入Web2.0时代后,实时推荐的需求越来越多,而传统推荐系统,都是定期对数据进行分析,然后对模型进行更新,进而使用新的模型进行个性化推荐,训练效率低下。
因此,期待一种优化的电子商务数据分析方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种电子商务数据分析系统及其方法。其采用基于深度学习的人工智能语义理解算法来提取出所述用户的兴趣爱好和历史行为的各个数据项的基于全局语义理解特征的多尺度关联性特征分布信息,以此来进行推荐商品的主题标签的确定,进而基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐。这样,可以根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
根据本申请的一个方面,提供了一种电子商务数据分析系统,其包括:
数据采集单元,用于获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;
上下文理解单元,用于分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;
矩阵化单元,用于将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;
第一尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;
第二尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;
多尺度融合单元,用于融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及
分析结果生成单元,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
在上述的电子商务数据分析系统中,所述上下文理解单元,包括:
分词子单元,用于对所述第一数据进行分词处理以将所述第一数据转化为由多个词组成的第一词序列;
词嵌入子单元,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及
上下文语义编码子单元,用于使用所述包括嵌入层的上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述第一语义理解特征向量。
在上述的电子商务数据分析系统中,所述上下文语义编码子单元,包括:
查询向量构造二级子单元,用于将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;
自注意二级子单元,用于计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;
标准化二级子单元,用于分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;
关注度计算二级子单元,用于将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;
注意力施加二级子单元,用于分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述第一语义理解特征向量。
在上述的电子商务数据分析系统中,所述第一尺度关联编码单元,进一步用于:使用所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的最后一层输出所述第一尺度关联语义特征向量,其中,所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
在上述的电子商务数据分析系统中,所述第二尺度关联编码单元,进一步用于:使用所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的最后一层输出所述第二尺度关联语义特征向量,其中,所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
在上述的电子商务数据分析系统中,所述多尺度融合单元,进一步用于:以如下公式来融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;
其中,所述公式为:
Vc=Concat[V1,V2]
其中,V1,V2表示所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量,Concat[·]表示级联函数,Vc表示所述分类特征向量。
在上述的电子商务数据分析系统中,所述分析结果生成单元,进一步用于:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
在上述的电子商务数据分析系统中,还包括用于对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练的训练模块;
其中,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括第一训练数据、第二训练数据、第三训练数据和第四训练数据,以及,所述推荐商品的主题标签的真实值;
训练上下文理解单元,用于分别将所述第一训练数据、所述第二训练数据、所述第三训练数据和所述第四训练数据通过所述包括嵌入层的上下文编码器以得到第一至第四训练语义理解特征向量;
训练矩阵化单元,用于将所述第一至第四训练语义理解特征向量排列为二维训练语义关联矩阵;
第一尺度训练关联编码单元,用于将所述二维训练语义关联矩阵通过所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一训练尺度关联语义特征向量;
第二尺度训练关联编码单元,用于将所述二维训练语义关联矩阵通过所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二训练尺度关联语义特征向量;
多尺度训练融合单元,用于融合所述第一训练尺度关联语义特征向量和所述第二训练尺度关联语义特征向量以得到训练分类特征向量;
分类损失单元,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;
训练单元,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练,其中,在所述训练的每一轮迭代中,计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数作为加权权重对所述训练分类特征向量进行加权迭代。
在上述的电子商务数据分析系统中,所述在所述训练的每一轮迭代中,以如下公式计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数作为所述加权权重对所述训练分类特征向量进行加权迭代;
其中,所述公式为:
其中V是所述训练分类特征向量,M是所述分类器对所述训练分类特征向量的权重矩阵,表示张量乘法,d(·,·)表示向量之间的距离,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,w表示所述加权权重。
根据本申请的另一个方面,提供了一种电子商务数据分析方法,其包括:
获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;
分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;
将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;
将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;
将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;
融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
与现有技术相比,本申请提供的一种电子商务数据分析系统及其方法,其采用基于深度学习的人工智能语义理解算法来提取出所述用户的兴趣爱好和历史行为的各个数据项的基于全局语义理解特征的多尺度关联性特征分布信息,以此来进行推荐商品的主题标签的确定,进而基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐。这样,可以根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的电子商务数据分析系统的应用场景图。
图2为根据本申请实施例的电子商务数据分析系统的框图示意图。
图3为根据本申请实施例的电子商务数据分析系统中的所述上下文理解单元的框图示意图。
图4为根据本申请实施例的电子商务数据分析系统中的所述上下文语义编码子单元的框图示意图。
图5为根据本申请实施例的电子商务数据分析系统中进一步包括的训练模块的框图示意图。
图6为根据本申请实施例的电子商务数据分析方法的流程图。
图7为根据本申请实施例的电子商务数据分析方法的系统架构的示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如上所述,面对急速增长的数据规模,用户正面临着“信息超载问题”,如果不借助于搜索引擎、推荐系统或者信息分类等辅助技术,用户从海量的互联网资源中找到自己真正感兴趣的信息是一件非常困难的事情,使得信息的有效利用率反而降低了。搜索引擎和个性化推荐系统是解决“信息超载”问题的两种手段。搜索引擎根据用户输入的关键字反馈给用户查询的结果,由于搜索引擎根据的是所有人的行为规律返回搜索结果,无法根据每个用户提供个性化服务,使得可能用户真正感兴趣的内容被海量的搜索结果所掩盖。
个性化推荐在此问题上弥补了搜索引擎的不足,即代替用户评估其所有未看过的产品,并通过分析用户的兴趣爱好和历史行为,主动推荐符合用户喜好的项目。
在大数据时代下的推荐系统会面临海量的训练规模,传统单机环境下的推荐系统不能满足大数据时代推荐的需求。进入Web2.0时代后,实时推荐的需求越来越多,而传统推荐系统,都是定期对数据进行分析,然后对模型进行更新,进而使用新的模型进行个性化推荐,训练效率低下。因此,期待一种优化的电子商务数据分析方案。
目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
近年来,深度学习以及神经网络的发展为电子商务中商品的个性化推荐提供了新的解决思路和方案。
相应地,考虑到为了能够对于用户进行准确地个性化商品推荐需要对用户的兴趣爱好和历史行为进行语义理解,例如搜索关键词、社交账号中关于商品的描述、支付系统中的交易记录以及站内好友互动的互动内容等,以此进行主动推荐符合用户喜好的项目商品。并且,考虑到所述用户的兴趣爱好和历史行为中的各个数据的语义理解之间都具有着关联性,为了提高商品推荐的精准度,需要对其关联性关系进行挖掘。
具体地,在本申请的技术方案中,期望采用基于深度学习的人工智能语义理解算法来提取出所述用户的兴趣爱好和历史行为的各个数据项的基于全局语义理解特征的多尺度关联性特征分布信息,以此来进行推荐商品的主题标签的确定,进而基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐。这样,能够根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
具体地,在本申请的技术方案中,首先,获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容。接着,考虑到所述第一至第四数据都是由多个词或词组组成的语句,因此,为了能够对其进行准确地语义理解来得到所述第一至第四数据的语义信息,进一步分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器中进行编码,以分别提取出所述第一至第四数据中各个词基于全局的高维语义特征,从而得到第一至第四语义理解特征向量。也就是,具体地,首先,对于所述第一至第四数据进行分词处理以避免后续进行语义特征提取时发生语义混乱;接着,再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量;然后,使用所述上下文编码器的转换器对所获得词嵌入向量的序列进行基于全局的上下文语义编码以生成具有所述第一至第四数据中各个词基于全局的高维语义特征的所述第一至第四语义理解特征向量。
进一步地,考虑到在对于所述第一至第四数据进行语义理解时,由于所述第一至第四数据都是由多个词或词组组成的语句,因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征,也就是说,在所述第一至第四数据中各个词所组成的不同尺度的词组和语句具有不同的语义理解。并且,所述第一至第四数据中的各个数据项之间还具有着关联性的特征分布信息。因此,为了能够更准确地对于所述第一至第四数据进行语义理解,从而更精准地进行商品推荐,在本申请的技术方案中,进一步对于具有所述第一至第四数据中各个词基于全局的高维语义特征的所述第一至第四语义理解特征向量,将其排列为二维语义关联矩阵后通过使用具有不同尺度的二维卷积核的文本卷积神经网络中进行处理,以分别提取出所述第一至第四数据中各个数据项之间在不同尺度词特征下的多尺度语义关联特征。也就是,具体地,将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量,并将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量。
然后,融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量中的特征信息,以融合所述第一至第四数据中的各个数据项之间在不同尺度词特征下的多尺度语义理解关联特征,从而得到具有多尺度语义理解特征的分类特征向量。进一步地,再将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。这样,能够基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
特别地,在本申请的技术方案中,由于所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量分别表达了所述第一至第四语义理解特征向量之间的在不同尺度下的向量内和向量间二维维度上的语义关联特征,因此,为了充分使用上述信息来提高分类准确性,优选地通过直接级联所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量来得到所述分类特征向量,但是这样也会导致所述分类特征向量的整体分布具有较强的离散性,使得分类器的训练困难,尤其是分类器的标签值的收敛困难。
因此,优选地使用软标签学习来代替常用的硬标签学习,具体地,在每次迭代时,以如下公式计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;
其中,所述公式为:
V是所述分类特征向量,M是所述分类器对所述训练分类特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值。
这里,所述基于跨分类器软相似性的自由标签优化因数通过在以硬标签值计算特征向量的分类概率之前来对所述分类特征向量和分类器对于其的权重矩阵进行双向聚簇,来通过所述分类特征向量与所述权重矩阵的跨分类器的软相似性模拟基于分类器权重矩阵的伪类别,从而以软相似性学习来避免了硬标签学习带来的分类量化损失,实现了更关注于分类器的内在权重结构的自由标签优化,从而优化了分类器的标签值的训练,提升了分类器的训练速度,进而提高了分类的准确性。这样,能够根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
基于此,本申请提供了一种电子商务数据分析系统,其包括:数据采集单元,用于获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;上下文理解单元,用于分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;矩阵化单元,用于将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;第一尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;第二尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;多尺度融合单元,用于融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及,分析结果生成单元,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
图1为根据本申请实施例的电子商务数据分析系统的应用场景图。如图1所示,在该应用场景中,获取第一数据(例如,如图1中所示意的D1)、第二数据(例如,如图1中所示意的D2)、第三数据(例如,如图1中所示意的D3)和第四数据(例如,如图1中所示意的D4),其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容,然后,然后,将所述第一数据、所述第二数据、所述第三数据和所述第四数据输入至部署有电子商务数据分析算法的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用所述电子商务数据分析算法对所述第一数据、所述第二数据、所述第三数据和所述第四数据进行处理以生成用于表示推荐商品的主题标签的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2为根据本申请实施例的电子商务数据分析系统的框图示意图。如图2所示,根据本申请实施例的电子商务数据分析系统100,包括:数据采集单元110,用于获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;上下文理解单元120,用于分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;矩阵化单元130,用于将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;第一尺度关联编码单元140,用于将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;第二尺度关联编码单元150,用于将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;多尺度融合单元160,用于融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及,分析结果生成单元170,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
更具体地,在本申请实施例中,所述数据采集单元110,用于获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容。为了能够对于用户进行准确地个性化商品推荐需要对用户的兴趣爱好和历史行为进行语义理解,例如搜索关键词、社交账号中关于商品的描述、支付系统中的交易记录以及站内好友互动的互动内容等,以此进行主动推荐符合用户喜好的项目商品。并且,考虑到所述用户的兴趣爱好和历史行为中的各个数据的语义理解之间都具有着关联性,为了提高商品推荐的精准度,需要对其关联性关系进行挖掘。
更具体地,在本申请实施例中,所述上下文理解单元120,用于分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量。考虑到所述第一至第四数据都是由多个词或词组组成的语句,因此,为了能够对其进行准确地语义理解来得到所述第一至第四数据的语义信息,进一步分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器中进行编码,以分别提取出所述第一至第四数据中各个词基于全局的高维语义特征,从而得到第一至第四语义理解特征向量。也就是,具体地,首先,对于所述第一至第四数据进行分词处理以避免后续进行语义特征提取时发生语义混乱;接着,再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量;然后,使用所述上下文编码器的转换器对所获得词嵌入向量的序列进行基于全局的上下文语义编码以生成具有所述第一至第四数据中各个词基于全局的高维语义特征的所述第一至第四语义理解特征向量。
相应地,在一个具体示例中,如图3所示,所述上下文理解单元120,包括:分词子单元121,用于对所述第一数据进行分词处理以将所述第一数据转化为由多个词组成的第一词序列;词嵌入子单元122,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及,上下文语义编码子单元123,用于使用所述包括嵌入层的上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述第一语义理解特征向量。
相应地,在一个具体示例中,所述上下文理解单元120,还包括:第二分词子单元,用于对所述第二数据进行分词处理以将所述第二数据转化为由多个词组成的第二词序列;第二词嵌入子单元,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第二词序列中各个词映射到词向量以获得第二词向量的序列;以及,第二上下文语义编码子单元,用于使用所述包括嵌入层的上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述第二语义理解特征向量。
相应地,在一个具体示例中,所述上下文理解单元120,还包括:第三分词子单元,用于对所述第三数据进行分词处理以将所述第三数据转化为由多个词组成的第三词序列;第三词嵌入子单元,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第三词序列中各个词映射到词向量以获得第三词向量的序列;以及,第三上下文语义编码子单元,用于使用所述包括嵌入层的上下文编码器的转化器对所述第三词向量的序列进行基于全局的上下文语义编码以获得所述第三语义理解特征向量。
相应地,在一个具体示例中,所述上下文理解单元120,还包括:第四分词子单元,用于对所述第四数据进行分词处理以将所述第四数据转化为由多个词组成的第四词序列;第四词嵌入子单元,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第四词序列中各个词映射到词向量以获得第四词向量的序列;以及,第四上下文语义编码子单元,用于使用所述包括嵌入层的上下文编码器的转化器对所述第四词向量的序列进行基于全局的上下文语义编码以获得所述第四语义理解特征向量。
应可以理解,所述第一至第四语义理解特征向量即指所述第一语义理解特征向量、所述第二语义理解特征向量、所述第三语义理解特征向量和所述第四语义理解特征向量。
相应地,在一个具体示例中,如图4所示,所述上下文语义编码子单元123,包括:查询向量构造二级子单元1231,用于将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;自注意二级子单元1232,用于计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;标准化二级子单元1233,用于分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;关注度计算二级子单元1234,用于将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;注意力施加二级子单元1235,用于分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述第一语义理解特征向量。
相应地,在一个具体示例中,所述上下文语义编码子单元123,还包括:第二查询向量构造二级子单元,用于将所述第二词向量的序列进行一维排列以得到第二全局词序列特征向量;第二自注意二级子单元,用于计算所述第二全局词序列特征向量与所述第二词向量的序列中各个词向量的转置向量之间的乘积以得到多个第二自注意力关联矩阵;第二标准化二级子单元,用于分别对所述多个第二自注意力关联矩阵中各个第二自注意力关联矩阵进行标准化处理以得到多个第二标准化后自注意力关联矩阵;第二关注度计算二级子单元,用于将所述多个第二标准化后自注意力关联矩阵中各个第二标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第二概率值;第二注意力施加二级子单元,用于分别以所述多个第二概率值中各个第二概率值作为权重对所述第二词向量的序列中各个第二词向量进行加权以得到所述第二语义理解特征向量。
相应地,在一个具体示例中,所述上下文语义编码子单元123,还包括:第三查询向量构造二级子单元,用于将所述第三词向量的序列进行一维排列以得到第三全局词序列特征向量;第三自注意二级子单元,用于计算所述第三全局词序列特征向量与所述第三词向量的序列中各个词向量的转置向量之间的乘积以得到多个第三自注意力关联矩阵;第三标准化二级子单元,用于分别对所述多个第三自注意力关联矩阵中各个第三自注意力关联矩阵进行标准化处理以得到多个第三标准化后自注意力关联矩阵;第三关注度计算二级子单元,用于将所述多个第三标准化后自注意力关联矩阵中各个第三标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第三概率值;第三注意力施加二级子单元,用于分别以所述多个第三概率值中各个第三概率值作为权重对所述第三词向量的序列中各个第三词向量进行加权以得到所述第三语义理解特征向量。
相应地,在一个具体示例中,所述上下文语义编码子单元123,还包括:第四查询向量构造二级子单元,用于将所述第四词向量的序列进行一维排列以得到第四全局词序列特征向量;第四自注意二级子单元,用于计算所述第四全局词序列特征向量与所述第四词向量的序列中各个词向量的转置向量之间的乘积以得到多个第四自注意力关联矩阵;第四标准化二级子单元,用于分别对所述多个第四自注意力关联矩阵中各个第四自注意力关联矩阵进行标准化处理以得到多个第四标准化后自注意力关联矩阵;第四关注度计算二级子单元,用于将所述多个第四标准化后自注意力关联矩阵中各个第四标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第四概率值;第四注意力施加二级子单元,用于分别以所述多个第四概率值中各个第四概率值作为权重对所述第四词向量的序列中各个第四词向量进行加权以得到所述第四语义理解特征向量。
更具体地,在本申请实施例中,所述矩阵化单元130,用于将所述第一至第四语义理解特征向量排列为二维语义关联矩阵。
考虑到在对于所述第一至第四数据进行语义理解时,由于所述第一至第四数据都是由多个词或词组组成的语句,因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征,也就是说,在所述第一至第四数据中各个词所组成的不同尺度的词组和语句具有不同的语义理解。并且,所述第一至第四数据中的各个数据项之间还具有着关联性的特征分布信息。因此,为了能够更准确地对于所述第一至第四数据进行语义理解,从而更精准地进行商品推荐,在本申请的技术方案中,进一步对于具有所述第一至第四数据中各个词基于全局的高维语义特征的所述第一至第四语义理解特征向量,将其排列为二维语义关联矩阵后通过使用具有不同尺度的二维卷积核的文本卷积神经网络中进行处理,以分别提取出所述第一至第四数据中各个数据项之间在不同尺度词特征下的多尺度语义关联特征。也就是,具体地,将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量,并将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量。
更具体地,在本申请实施例中,所述第一尺度关联编码单元140,用于将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量。
相应地,在一个具体示例中,所述第一尺度关联编码单元140,进一步用于:使用所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的最后一层输出所述第一尺度关联语义特征向量,其中,所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
更具体地,在本申请实施例中,所述第二尺度关联编码单元150,用于将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量。
相应地,在一个具体示例中,所述第二尺度关联编码单元150,进一步用于:使用所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的最后一层输出所述第二尺度关联语义特征向量,其中,所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
更具体地,在本申请实施例中,所述多尺度融合单元160,用于融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量。融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量中的特征信息,以融合所述第一至第四数据中的各个数据项之间在不同尺度词特征下的多尺度语义理解关联特征,从而得到具有多尺度语义理解特征的分类特征向量。
相应地,在一个具体示例中,所述多尺度融合单元160,进一步用于:以如下公式来融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;其中,所述公式为:
Vc=Concat[V1,V2]
其中,V1,V2表示所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量,Concat[·]表示级联函数,Vc表示所述分类特征向量。
更具体地,在本申请实施例中,所述分析结果生成单元170,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
相应地,在一个具体示例中,所述分析结果生成单元170,进一步用于:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。相应地,在一个具体示例中,如图5所示,所述的电子商务数据分析系统,还包括用于对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练的训练模块200;其中,所述训练模块200,包括:训练数据获取单元210,用于获取训练数据,所述训练数据包括第一训练数据、第二训练数据、第三训练数据和第四训练数据,以及,所述推荐商品的主题标签的真实值;训练上下文理解单元220,用于分别将所述第一训练数据、所述第二训练数据、所述第三训练数据和所述第四训练数据通过所述包括嵌入层的上下文编码器以得到第一至第四训练语义理解特征向量;训练矩阵化单元230,用于将所述第一至第四训练语义理解特征向量排列为二维训练语义关联矩阵;第一尺度训练关联编码单元240,用于将所述二维训练语义关联矩阵通过所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一训练尺度关联语义特征向量;第二尺度训练关联编码单元250,用于将所述二维训练语义关联矩阵通过所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二训练尺度关联语义特征向量;多尺度训练融合单元260,用于融合所述第一训练尺度关联语义特征向量和所述第二训练尺度关联语义特征向量以得到训练分类特征向量;分类损失单元270,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;训练单元280,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练,其中,在所述训练的每一轮迭代中,计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数作为加权权重对所述训练分类特征向量进行加权迭代。
特别地,在本申请的技术方案中,由于所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量分别表达了所述第一至第四语义理解特征向量之间的在不同尺度下的向量内和向量间二维维度上的语义关联特征,因此,为了充分使用上述信息来提高分类准确性,优选地通过直接级联所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量来得到所述分类特征向量,但是这样也会导致所述分类特征向量的整体分布具有较强的离散性,使得分类器的训练困难,尤其是分类器的标签值的收敛困难。因此,优选地使用软标签学习来代替常用的硬标签学习,具体地,在每次迭代时,计算所述分类特征向量的基于跨分类器软相似性的自由标签优化因数。
相应地,在一个具体示例中,所述在所述训练的每一轮迭代中,以如下公式计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;
其中,所述公式为:
V是所述分类特征向量,M是所述分类器对所述训练分类特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值。
这里,所述基于跨分类器软相似性的自由标签优化因数通过在以硬标签值计算特征向量的分类概率之前来对所述分类特征向量和分类器对于其的权重矩阵进行双向聚簇,来通过所述分类特征向量与所述权重矩阵的跨分类器的软相似性模拟基于分类器权重矩阵的伪类别,从而以软相似性学习来避免了硬标签学习带来的分类量化损失,实现了更关注于分类器的内在权重结构的自由标签优化,从而优化了分类器的标签值的训练,提升了分类器的训练速度,进而提高了分类的准确性。这样,能够根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
综上,基于本申请实施例的电子商务数据分析系统100被阐明,其采用基于深度学习的人工智能语义理解算法来提取出所述用户的兴趣爱好和历史行为的各个数据项的基于全局语义理解特征的多尺度关联性特征分布信息,以此来进行推荐商品的主题标签的确定,进而基于所述推荐商品的主题标签来进行用户喜好的电子商务商品的个性化推荐。这样,可以根据用户的喜好和习惯准确且智能地进行商品的个性化推荐,以在避免信息超载的同时节省用户的时间,使得用户能够找到自己真正感兴趣的信息。
如上所述,根据本申请实施例的所述电子商务数据分析系统100可以实现在各种终端设备中,例如电子商务数据分析算法的服务器等。在一个示例中,电子商务数据分析系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该电子商务数据分析系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该电子商务数据分析系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该电子商务数据分析系统100与该终端设备也可以是分立的设备,并且该电子商务数据分析系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图6为根据本申请实施例的电子商务数据分析方法的流程图。如图6所示,根据本申请实施例的电子商务数据分析方法,其包括:S110,获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;S120,分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;S130,将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;S140,将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;S150,将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;S160,融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及,S170,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
图7为根据本申请实施例的电子商务数据分析方法的系统架构的示意图。如图7所示,在所述电子商务数据分析方法的系统架构中,首先,获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;接着,分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;然后,将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;接着,将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;然后,将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;接着,融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;最后,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
在一个具体示例中,在上述电子商务数据分析方法中,所述分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量,包括:对所述第一数据进行分词处理以将所述第一数据转化为由多个词组成的第一词序列;使用所述包括嵌入层的上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及,使用所述包括嵌入层的上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述第一语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量,还包括:对所述第二数据进行分词处理以将所述第二数据转化为由多个词组成的第二词序列;使用所述包括嵌入层的上下文编码器的嵌入层将所述第二词序列中各个词映射到词向量以获得第二词向量的序列;以及,使用所述包括嵌入层的上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述第二语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量,还包括:对所述第三数据进行分词处理以将所述第三数据转化为由多个词组成的第三词序列;使用所述包括嵌入层的上下文编码器的嵌入层将所述第三词序列中各个词映射到词向量以获得第三词向量的序列;以及,使用所述包括嵌入层的上下文编码器的转化器对所述第三词向量的序列进行基于全局的上下文语义编码以获得所述第三语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量,还包括:对所述第四数据进行分词处理以将所述第四数据转化为由多个词组成的第四词序列;使用所述包括嵌入层的上下文编码器的嵌入层将所述第四词序列中各个词映射到词向量以获得第四词向量的序列;以及,使用所述包括嵌入层的上下文编码器的转化器对所述第四词向量的序列进行基于全局的上下文语义编码以获得所述第四语义理解特征向量。
应可以理解,所述第一至第四语义理解特征向量即指所述第一语义理解特征向量、所述第二语义理解特征向量、所述第三语义理解特征向量和所述第四语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述使用所述包括嵌入层的上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述第一语义理解特征向量,包括:将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述第一语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述使用所述包括嵌入层的上下文编码器的转化器对所述第二词向量的序列进行基于全局的上下文语义编码以获得所述第二语义理解特征向量,还包括:将所述第二词向量的序列进行一维排列以得到第二全局词序列特征向量;计算所述第二全局词序列特征向量与所述第二词向量的序列中各个词向量的转置向量之间的乘积以得到多个第二自注意力关联矩阵;分别对所述多个第二自注意力关联矩阵中各个第二自注意力关联矩阵进行标准化处理以得到多个第二标准化后自注意力关联矩阵;将所述多个第二标准化后自注意力关联矩阵中各个第二标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第二概率值;分别以所述多个第二概率值中各个第二概率值作为权重对所述第二词向量的序列中各个第二词向量进行加权以得到所述第二语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述使用所述包括嵌入层的上下文编码器的转化器对所述第三词向量的序列进行基于全局的上下文语义编码以获得所述第三语义理解特征向量,还包括:将所述第三词向量的序列进行一维排列以得到第三全局词序列特征向量;计算所述第三全局词序列特征向量与所述第三词向量的序列中各个词向量的转置向量之间的乘积以得到多个第三自注意力关联矩阵;分别对所述多个第三自注意力关联矩阵中各个第三自注意力关联矩阵进行标准化处理以得到多个第三标准化后自注意力关联矩阵;将所述多个第三标准化后自注意力关联矩阵中各个第三标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第三概率值;分别以所述多个第三概率值中各个第三概率值作为权重对所述第三词向量的序列中各个第三词向量进行加权以得到所述第三语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述使用所述包括嵌入层的上下文编码器的转化器对所述第四词向量的序列进行基于全局的上下文语义编码以获得所述第四语义理解特征向量,还包括:将所述第四词向量的序列进行一维排列以得到第四全局词序列特征向量;计算所述第四全局词序列特征向量与所述第四词向量的序列中各个词向量的转置向量之间的乘积以得到多个第四自注意力关联矩阵;分别对所述多个第四自注意力关联矩阵中各个第四自注意力关联矩阵进行标准化处理以得到多个第四标准化后自注意力关联矩阵;将所述多个第四标准化后自注意力关联矩阵中各个第四标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第四概率值;分别以所述多个第四概率值中各个第四概率值作为权重对所述第四词向量的序列中各个第四词向量进行加权以得到所述第四语义理解特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量,进一步包括:使用所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的最后一层输出所述第一尺度关联语义特征向量,其中,所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
在一个具体示例中,在上述电子商务数据分析方法中,所述将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量,进一步包括:使用所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的最后一层输出所述第二尺度关联语义特征向量,其中,所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
在一个具体示例中,在上述电子商务数据分析方法中,所述融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量,进一步包括:以如下公式来融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;其中,所述公式为:
Vc=Concat[V1,V2]
其中,V1,V2表示所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量,Concat[·]表示级联函数,Vc表示所述分类特征向量。
在一个具体示例中,在上述电子商务数据分析方法中,所述将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签,进一步包括:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
在一个具体示例中,在上述电子商务数据分析方法中,还包括对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练;其中,所述对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练,包括:获取训练数据,所述训练数据包括第一训练数据、第二训练数据、第三训练数据和第四训练数据,以及,所述推荐商品的主题标签的真实值;分别将所述第一训练数据、所述第二训练数据、所述第三训练数据和所述第四训练数据通过所述包括嵌入层的上下文编码器以得到第一至第四训练语义理解特征向量;将所述第一至第四训练语义理解特征向量排列为二维训练语义关联矩阵;将所述二维训练语义关联矩阵通过所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一训练尺度关联语义特征向量;将所述二维训练语义关联矩阵通过所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二训练尺度关联语义特征向量;融合所述第一训练尺度关联语义特征向量和所述第二训练尺度关联语义特征向量以得到训练分类特征向量;将所述训练分类特征向量通过所述分类器以得到分类损失函数值;基于所述分类损失函数值并通过梯度下降的方向传播来对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练,其中,在所述训练的每一轮迭代中,计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数作为加权权重对所述训练分类特征向量进行加权迭代。
在一个具体示例中,在上述电子商务数据分析方法中,所述在所述训练的每一轮迭代中,以如下公式计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;
其中,所述公式为:
V是所述分类特征向量,M是所述分类器对所述训练分类特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值。
这里,本领域技术人员可以理解,上述电子商务数据分析方法中的各个步骤的具体操作已经在上面参考图1到图5的电子商务数据分析系统的描述中得到了详细介绍,并因此,将省略其重复描述。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种电子商务数据分析系统,其特征在于,包括:
数据采集单元,用于获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;
上下文理解单元,用于分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;
矩阵化单元,用于将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;
第一尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;
第二尺度关联编码单元,用于将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;
多尺度融合单元,用于融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及
分析结果生成单元,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
2.根据权利要求1所述的电子商务数据分析系统,其特征在于,所述上下文理解单元,包括:
分词子单元,用于对所述第一数据进行分词处理以将所述第一数据转化为由多个词组成的第一词序列;
词嵌入子单元,用于使用所述包括嵌入层的上下文编码器的嵌入层将所述第一词序列中各个词映射到词向量以获得第一词向量的序列;以及
上下文语义编码子单元,用于使用所述包括嵌入层的上下文编码器的转化器对所述第一词向量的序列进行基于全局的上下文语义编码以获得所述第一语义理解特征向量。
3.根据权利要求2所述的电子商务数据分析系统,其特征在于,所述上下文语义编码子单元,包括:
查询向量构造二级子单元,用于将所述第一词向量的序列进行一维排列以得到第一全局词序列特征向量;
自注意二级子单元,用于计算所述第一全局词序列特征向量与所述第一词向量的序列中各个词向量的转置向量之间的乘积以得到多个第一自注意力关联矩阵;
标准化二级子单元,用于分别对所述多个第一自注意力关联矩阵中各个第一自注意力关联矩阵进行标准化处理以得到多个第一标准化后自注意力关联矩阵;
关注度计算二级子单元,用于将所述多个第一标准化后自注意力关联矩阵中各个第一标准化后自注意力关联矩阵通过Softmax分类函数以得到多个第一概率值;
注意力施加二级子单元,用于分别以所述多个第一概率值中各个第一概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述第一语义理解特征向量。
4.根据权利要求3所述的电子商务数据分析系统,其特征在于,所述第一尺度关联编码单元,进一步用于:使用所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的最后一层输出所述第一尺度关联语义特征向量,其中,所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
5.根据权利要求4所述的电子商务数据分析系统,其特征在于,所述第二尺度关联编码单元,进一步用于:使用所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的最后一层输出所述第二尺度关联语义特征向量,其中,所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络的第一层的输入为所述二维语义关联矩阵。
6.根据权利要求5所述的电子商务数据分析系统,其特征在于,所述多尺度融合单元,进一步用于:以如下公式来融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;
其中,所述公式为:
Vc=Concat[V1,V2]
其中,V1,V2表示所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量,Concat[·]表示级联函数,Vc表示所述分类特征向量。
7.根据权利要求6所述的电子商务数据分析系统,其特征在于,所述分析结果生成单元,进一步用于:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及
将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
8.根据权利要求7所述的电子商务数据分析系统,其特征在于,还包括用于对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练的训练模块;其中,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括第一训练数据、第二训练数据、第三训练数据和第四训练数据,以及,所述推荐商品的主题标签的真实值;
训练上下文理解单元,用于分别将所述第一训练数据、所述第二训练数据、所述第三训练数据和所述第四训练数据通过所述包括嵌入层的上下文编码器以得到第一至第四训练语义理解特征向量;
训练矩阵化单元,用于将所述第一至第四训练语义理解特征向量排列为二维训练语义关联矩阵;
第一尺度训练关联编码单元,用于将所述二维训练语义关联矩阵通过所述使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一训练尺度关联语义特征向量;
第二尺度训练关联编码单元,用于将所述二维训练语义关联矩阵通过所述使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二训练尺度关联语义特征向量;
多尺度训练融合单元,用于融合所述第一训练尺度关联语义特征向量和所述第二训练尺度关联语义特征向量以得到训练分类特征向量;
分类损失单元,用于将所述训练分类特征向量通过所述分类器以得到分类损失函数值;
训练单元,用于基于所述分类损失函数值并通过梯度下降的方向传播来对所述包括嵌入层的上下文编码器、所述第一文本卷积神经网络、所述第二文本卷积神经网络和所述分类器进行训练,其中,在所述训练的每一轮迭代中,计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数作为加权权重对所述训练分类特征向量进行加权迭代。
9.根据权利要求8所述的电子商务数据分析系统,其特征在于,所述在所述训练的每一轮迭代中,以如下公式计算所述训练分类特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;
其中,所述公式为:
V是所述分类特征向量,M是所述分类器对所述训练分类特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值。
10.一种电子商务数据分析方法,其特征在于,包括:
获取第一数据、第二数据、第三数据和第四数据,其中,所述第一数据为搜索关键词、所述第二数据为社交账号中关于商品的描述、所述第三数据为支付系统中的交易记录,且所述第四数据为站内好友互动的互动内容;
分别将所述第一数据、所述第二数据、所述第三数据和所述第四数据通过包括嵌入层的上下文编码器以得到第一至第四语义理解特征向量;
将所述第一至第四语义理解特征向量排列为二维语义关联矩阵;
将所述二维语义关联矩阵通过使用具有第一尺度的二维卷积核的第一文本卷积神经网络以得到第一尺度关联语义特征向量;
将所述二维语义关联矩阵通过使用具有第二尺度的二维卷积核的第二文本卷积神经网络以得到第二尺度关联语义特征向量;
融合所述第一尺度关联语义特征向量和所述第二尺度关联语义特征向量以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示推荐商品的主题标签。
CN202211575931.5A 2022-12-09 2022-12-09 电子商务数据分析系统及其方法 Withdrawn CN116523583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211575931.5A CN116523583A (zh) 2022-12-09 2022-12-09 电子商务数据分析系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211575931.5A CN116523583A (zh) 2022-12-09 2022-12-09 电子商务数据分析系统及其方法

Publications (1)

Publication Number Publication Date
CN116523583A true CN116523583A (zh) 2023-08-01

Family

ID=87405250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211575931.5A Withdrawn CN116523583A (zh) 2022-12-09 2022-12-09 电子商务数据分析系统及其方法

Country Status (1)

Country Link
CN (1) CN116523583A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739787A (zh) * 2023-08-11 2023-09-12 深圳市艾德网络科技发展有限公司 基于人工智能的交易推荐方法及系统
CN116777572A (zh) * 2023-08-25 2023-09-19 乐麦信息技术(杭州)有限公司 基于大数据的电子商务交易管理系统及其方法
CN117611245A (zh) * 2023-12-14 2024-02-27 浙江博观瑞思科技有限公司 用于电商运营活动策划的数据分析管理系统及方法
CN117710006A (zh) * 2024-01-30 2024-03-15 深圳市承和润文化传播股份有限公司 基于大数据技术的电子商务营销分析系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739787A (zh) * 2023-08-11 2023-09-12 深圳市艾德网络科技发展有限公司 基于人工智能的交易推荐方法及系统
CN116739787B (zh) * 2023-08-11 2023-12-26 深圳市艾德网络科技发展有限公司 基于人工智能的交易推荐方法及系统
CN116777572A (zh) * 2023-08-25 2023-09-19 乐麦信息技术(杭州)有限公司 基于大数据的电子商务交易管理系统及其方法
CN117611245A (zh) * 2023-12-14 2024-02-27 浙江博观瑞思科技有限公司 用于电商运营活动策划的数据分析管理系统及方法
CN117611245B (zh) * 2023-12-14 2024-05-31 浙江博观瑞思科技有限公司 用于电商运营活动策划的数据分析管理系统及方法
CN117710006A (zh) * 2024-01-30 2024-03-15 深圳市承和润文化传播股份有限公司 基于大数据技术的电子商务营销分析系统及方法
CN117710006B (zh) * 2024-01-30 2024-04-30 深圳市承和润文化传播股份有限公司 基于大数据技术的电子商务营销分析系统及方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN110263160B (zh) 一种计算机问答系统中的问句分类方法
CN116523583A (zh) 电子商务数据分析系统及其方法
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN112069408B (zh) 一种融合关系抽取的推荐系统及方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
WO2023236977A1 (zh) 一种数据处理方法及相关设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN111241232A (zh) 业务服务的处理方法、装置、服务平台及存储介质
JP2022169743A (ja) 情報抽出方法、装置、電子機器及び記憶媒体
CN113204618A (zh) 基于语义增强的信息识别方法、装置、设备及存储介质
CN116992304A (zh) 基于人工智能的政策匹配分析系统及其方法
CN116150535A (zh) 一种企业网站建设推广平台及方法
Zhen et al. The research of convolutional neural network based on integrated classification in question classification
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
CN117194652B (zh) 一种基于深度学习的信息推荐系统
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
Wu et al. Text classification using triplet capsule networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230801