CN111597296A - 商品数据的处理方法、装置和系统 - Google Patents

商品数据的处理方法、装置和系统 Download PDF

Info

Publication number
CN111597296A
CN111597296A CN201910127070.6A CN201910127070A CN111597296A CN 111597296 A CN111597296 A CN 111597296A CN 201910127070 A CN201910127070 A CN 201910127070A CN 111597296 A CN111597296 A CN 111597296A
Authority
CN
China
Prior art keywords
word
identification information
word vector
commodity
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910127070.6A
Other languages
English (en)
Inventor
王涛
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910127070.6A priority Critical patent/CN111597296A/zh
Publication of CN111597296A publication Critical patent/CN111597296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种商品数据的处理方法、装置和系统。其中,该方法包括:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。本申请解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。

Description

商品数据的处理方法、装置和系统
技术领域
本申请涉及机器学习领域,具体而言,涉及一种商品数据的处理方法、装置和系统。
背景技术
随着计算机技术的发展,人们可以通过互联网实现远程购物。计算机技术不仅为人们的日常购物提供了方便,还使得电商能够了解到客户的需求,为客户的需求提供更好的服务。例如,对于电商平台,当客户输入“Mini Bluetooth Speaker”是搜索词之后,电商平台能够准确的为客户提供的蓝牙音箱。
通过中心词提取可实现对用户输入的搜索词进行关联,进而确定用户需求的目的。通过提取搜索信息和商品标题的中心词,进而完成中心词的匹配,匹配的分数决定了搜索词与商品的相关程度。在电商的特定场景,存在着大量的商品数据,这些数据全部来自于卖家自己填写。电商平台通过利用这些大规模的语料数据预训练模型,进而提升有监督模型中心词任务的效果,其中,大规模语料的预训练模型使用的是word2vec或随机初始化模型,该预训练模型未考虑到搜索词在不同上下文环境中可能有不同的含义。
另外,由上述内容可知,现有的大规模语料的预训练模型完全借助人工标注数据,对于电商平台的搜索信息以及商品标题各提取一部分,然后通过人工标注的方式进行标注,直接在此基础上进行学习得到一个模型,该预训练模型的标注数据依赖人工生成,成本高,数据迁移代价高,如果出现新的场景则需要重新进行标注和生产。另外如果电商平台的商品集合和搜索信息集合发生变化,标注数据则需要重新进行标注,代价较高,如果后期需要继续提升效果,所需标注数据量会呈指数集增加,边际成本较高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种商品数据的处理方法、装置和系统,以至少解决现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
根据本申请实施例的一个方面,提供了一种商品数据的处理方法,包括:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
根据本申请实施例的另一方面,还提供了一种商品数据的处理方法,包括:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同确定商品标识信息的中心词向量;至少基于中心词向量确定与中心词向量匹配的商品。
根据本申请实施例的另一方面,还提供了一种商品数据的处理装置,包括:分词模块,用于对商品标识信息进行分词处理,得到至少一个分词;第一确定模块,用于基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;分析模块,用于将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;第二确定模块,用于至少基于中心词向量确定与中心词向量匹配的商品。
根据本申请实施例的另一方面,还提供了一种商品数据的处理系统,包括:服务器,用于接收查询请求,并从查询请求中提取商品标识信息;对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品;客户端设备,用于向服务器发送查询请求,其中,该查询请求中携带有待检索的商品标识信息。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的商品数据的处理方法。
根据本申请实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述的商品数据的处理方法。
根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
根据本申请实施例的另一方面,还提供了一种计算机设备,用于提供人机交互界面,人机交互界面包括:第一控件,用于展示对商品标识信息进行分词处理得到的至少一个分词;第二控件,用于展示基于至少一个分词在商品标识信息中的含义确定的至少一个分词的词向量;第三控件,用于展示将至少一个分词的词向量共同输入至第一模型进行分析,得到的商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;第四控件,用于展示至少基于中心词向量确定与中心词向量匹配的商品。
在本申请实施例中,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量输入至第一模型进行分析,以得到商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
在上述过程中,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的计算机终端的硬件结构框图;
图2是根据本申请实施例的一种商品数据的处理方法的流程图;
图3是根据本申请实施例的一种可选的商品数据的处理方法的系统框架图;
图4是根据本申请实施例的一种商品数据的处理方法的流程图;
图5是根据本申请实施例的一种商品数据的处理装置的示意图;
图6是根据本申请实施例的一种商品数据的处理系统的示意图;以及
图7是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,还提供了一种商品数据的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现商品数据的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的商品数据的处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的商品数据的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的商品数据的处理方法。图2是根据本申请实施例一的商品数据的处理方法的流程图,由图2可知,该方法包括如下步骤:
步骤S202,对商品标识信息进行分词处理,得到至少一个分词。
需要说明的是,上述商品标识信息可以为但不限于电商标题,或者电商平台中用户输入的搜索信息,例如,用户在电商平台的搜索框输入“Mini Bluetooth Speaker”,则“Mini Bluetooth Speaker”为商品标识信息。容易注意到的是,商品标识信息中包含的内容较多,为了向用户推荐与用户搜索内容最相近的待搜索商品,需要对商品标识信息进行分词处理,得到至少一个分词,进而从至少一个分词中确定与待搜索商品最接近的中心词。
在一种可选的方案中,服务器可以获取商品标识信息,并对商品标识信息进行分词处理。具体的,服务器首先检测商品标识信息所对应的语言,然后确定与语言对应的分词算法,并使用确定的分词算法对商品标识信息进行分词处理。例如,在检测到商品标识信息为中文的情况下,服务器可以采用基于字典或词库匹配的分词算法、基于词频度统计的分词算法和基于知识理解的分词算法对商品标识信息进行分词处理。在检测到商品标识信息为英文的情况下,服务器可以采用词干提取算法进行对商品标识信息进行分词处理。
步骤S204,基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量。
需要说明的是,词向量(Word Embedding)是指将词语表示成在一个空间向量中的向量集合,其中,语义更加相近的词语被映射的数据点更加接近,例如,对于词语“零食”、“饼干”和“数码”,则词语“零食”和“饼干”之间的关联性,大于“零食”和“数码”之间的关联性,也大于“饼干”和“数码”之间的关联性。
此外,还需要说明的是,由步骤S204可知,本申请所提供的方案考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确。
可选的,在得到至少一个分词之后,服务器可采用预训练模型对至少一个分词进行处理,得到至少一个分词的词向量。其中,预训练模型采用预训练算法进行对至少一个分词进行训练,使得在大规模语料中无监督的学习到词向量,将该词向量用于其他任务,例如中心词,从而提高预训练模型的训练效果。预训练模型可以包括但不限于语言模型预训练模型、FastText、GloVec等词向量预训练模型。
步骤S206,将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量。
需要说明的是,第一模型可以为词向量语言模型(即ELMO),中心词为电商标题或者用户通过电商平台的搜索框所输入的与待搜索商品最为接近的词,例如,用户在搜索框中输入“women t-shirt”,则中心词为“t-shirt”。另外,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签。
步骤S208,至少基于中心词向量确定与中心词向量匹配的商品。
可选的,服务器可通过比对的方式来确定与中心词向量匹配的商品。其中,服务器可通过商品标识数据库确定预设的中心词,然后再将中心词向量对应的中心词与预设的中心词进行比对,根据比对结果来确定商品。另外,在确定了与中心词向量匹配的商品之后,服务器将该商品的相关信息发送至客户端设备,客户端设备即可向用户展示该商品,其中,商品的相关信息包括如下至少之一:商品的名称信息、图像信息,客户端设备包括但不限于移动终端(例如,手机、平板、电脑等)。
基于上述步骤S202至步骤S208所限定的方案,可以获知,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量输入至第一模型进行分析,以得到商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
容易注意到的是,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
在一种可选的方案中,在对商品标识信息进行分词处理之前,服务器首先接收来自客户端设备的查询请求,然后根据查询请求来确定商品标识信息。其中,该查询请求中携带有待检索的商品标识信息。可选的,用户通过客户端设备输入商品标识信息,例如,输入“Mini Bluetooth Speaker”,并点击对应的发送控件之后,客户端设备向服务器发送查询请求。服务器在接收到查询请求之后,对查询请求进行解析处理,从解析结果中得到用户输入的商品标识信息,并对商品标识信息进行处理,得到与商品标识信息对应的商品。
进一步地,在得到商品标识信息之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量。具体的,服务器将至少一个分词分别输入至第二模型进行分析,得到至少一个分词的词向量,其中,至少一个分词的词向量和至少一个分词在商品标识信息中的上下文具有对应关系,第二模型对依据样本分词在不同上下文的含义进行训练。
可选的,上述第二模型为预训练模型,可以为为循环神经网络模型(即RNN,Recurrent Neural Networks)。具体的,服务器在将得到的至少一个分词输入至第二模型之后,第二模型计算每个分词与相邻的分词在语料库中共同出现的频率等统计量,并将得到的统计量映射到语义向量,从而得到分词的词向量。
可选的,第二模型还可基于该分词的相邻分词对该分词进行预测,进而得到分词的词向量。在预测过程中,不断学习分词与分词之间的近似关系,并对第二模型不断进行更新,从而保证了分词的词向量的准确性。
在一种可选的方案中,在基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量之前,服务器还确定至少一个分词在商品标识信息中的上下文信息,并依据上下文信息确定至少一个分词在商品标识信息中的含义,然后基于含义对至少一个分词进行向量化处理,得到至少一个分词的词向量。
需要说明的是,上述过程采用了ELMo(Deep Contextual Word Embedding forLanguage Model的简称)技术来确定分词的词向量。例如,商品标题为“Mini BluetoothSpeaker”,服务器通过对商品标题进行分词可以得到“Mini”、“Bluetooth”以及“Speaker”几个分词,服务器通过前面几个分词对后面的分词出现的概率进行预测,例如,出现“Speaker”的概率为80%,出现“wristband”的概率为30%,并确定ELMo模型的训练样本集,例如,确定“Speaker”为正样本,而从语料集中随机挑选出的其他分词(例如,“wristband”)构成负样本,输入到循环神经网络中进行训练,训练完成后,当用户输入商品标识信息之后,服务器即可确定商品标识信息中每个分词对应的词向量。
此外,还需要说明的是,ELMo为动态词向量技术,动态词向量技术考虑了分词所在句子的上下文环境,得到的词向量在不同句子中有不同的表达,因此在作为下游任务模型(例如,情感分析、分类、翻译等)输入时,相对于word2vec以及随机初始化具有准确识别的特点。
进一步地,在确定了至少一个分词的词向量之后,服务器将至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,其中,顺序包括:至少一个分词的词向量所对应的分词在商品标识信息中的顺序。仍以商品标识信息“Mini Bluetooth Speaker”为例,对于分词“Mini”、“Bluetooth”以及“Speaker”,则按照“Mini”、“Bluetooth”、“Speaker”的顺序向第一模型输入每个分词对应的词向量。
需要说明的是,分词在不同的位置上表达的含义也不相同,因此,为了保证词向量对应的上下文含义不发生变化,在对至少一个分词的词向量进行拼接的过程中,使至少一个分词的词向量按照分词在商品标识信息中的顺序进行拼接,并将拼接后的词向量输入至第一模型,可以保证词向量对应的上下文含义不发生变化,进一步保证了中心词的准确性。
更进一步地,在将至少一个分词的词向量共同输入至第一模型进行分析之后,即可确定中心词的词向量,然后服务器可基于中心词向量确定与中心词向量匹配的商品。具体的,服务器首先确定商品标识数据库中商品标识信息的中心词,然后确定中心词向量所对应中心词与商品标识数据库中中心词的相似度,并在相似度大于预设阈值时,确定与商品标识数据库中中心词对应的商品为查询请求所请求的商品。例如,中心词向量对应的中心词为“speaker”,服务器从商品标识数据库中查询与“speaker”相似度大于预设阈值的中心词,在确定了中心词之后,进而根据多个中心词与商品信息之间的关联关系确定该中心词所对应的商品。
需要说明的是,商品标识数据库中存储有多个中心词、多个商品的商品信息以及多个中心词与商品信息之间的关联关系,例如,中心词“Speaker”对应的商品包括“SONOSspeaker”、“JBL speaker”、“DOSS speaker”等。
可选的,在基于中心词向量确定与中心词向量匹配的商品之后,服务器还向客户端设备反馈与中心词向量匹配的商品,并通过客户端设备展示与中心词向量匹配的商品。其中,客户端设备可接收到商品的商品信息,例如,产品对应的链接、图像、产品说明等。例如,客户端设备展示产品对应的链接,在用户点击链接之后,即可浏览该商品的相关信息(例如,商品的产地、价格、结构等)。
在一种可选的方案中,图3示出了商品数据的处理方法的系统框架图。具体的,服务器可从商品标识数据库中获取商品标识信息的多个分词,并通过第二模型和ELMo技术对多个分词进行处理,得到每个分词对应的词向量。同时,服务器还对商品标识信息进行中心词标注,并将标注后的中心词标注数据以及每个分词的词向量输入至第一模型中,然后根据中心词标注数据以及每个分词的词向量来确定商品标识信息对应的中心词向量。进而,服务器可以根据中心词向量确定用户所要搜索的商品。
由上述内容可知,本申请所提供的商品数据处理方法使用ELMo技术对商品标题进行预训练得到词向量,并将预训练的词向量作为第一模型的输入来确定商品标题所对应的商品,提高了第一模型的泛化能力,在不增加标注数据情况下,有效的提升了中心词的提取效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的商品数据的处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种商品数据的处理方法,如图4所示,该方法包括:
步骤S402,对商品标识信息进行分词处理,得到至少一个分词。
需要说明的是,上述商品标识信息可以为但不限于电商标题,或者电商平台中用户输入的搜索信息。由于商品标识信息中包含的内容较多,为了向用户推荐与用户搜索内容最相近的待搜索商品,需要对商品标识信息进行分词处理,得到至少一个分词,进而从至少一个分词中确定与待搜索商品最接近的中心词。
在一种可选的方案中,服务器可以获取商品标识信息,并对商品标识信息进行分词处理。具体的,客户端设备向服务器发送查询请求,其中,查询请求中携带有待检索的商品标识信息。服务器在接收到查询请求之后,首先检测商品标识信息所对应的语言,然后确定与语言对应的分词算法,并使用确定的分词算法对商品标识信息进行分词处理。例如,在检测到商品标识信息为中文的情况下,服务器可以采用基于字典或词库匹配的分词算法、基于词频度统计的分词算法和基于知识理解的分词算法对商品标识信息进行分词处理。在检测到商品标识信息为英文的情况下,服务器可以采用词干提取算法进行对商品标识信息进行分词处理。
步骤S404,基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量。
需要说明的是,本申请所提供的方案考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确。
步骤S406,将至少一个分词的词向量共同确定商品标识信息的中心词向量。
可选的,在确定了至少一个分词对应的词向量之后,服务器将至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,根据分析结果得到商品标识信息的中心词向量。其中,顺序可以包括至少一个分词的词向量所对应的分词在商品标识信息中的顺序。
步骤S408,至少基于中心词向量确定与中心词向量匹配的商品。
可选的,服务器可通过比对的方式来确定与中心词向量匹配的商品。其中,服务器可通过确定商品标识数据库中商品标识信息的中心词,然后再确定中心词向量所对应中心词与商品标识数据库中中心词的相似度。在相似度大于预设阈值时,确定与商品标识数据库中中心词对应的商品为查询请求所请求的商品。最后服务器向客户端设备反馈与中心词向量匹配的商品,并通过客户端设备展示与中心词向量匹配的商品。
基于上述步骤S402至步骤S408所限定的方案,可以获知,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量共同确定商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
容易注意到的是,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
需要说明的是,本实施例所提供的方案与实施例1中所提供的方案内容相同,详细内容已在实施例1中进行说明,在此不再赘述。
实施例3
根据本申请实施例,还提供了一种用于实施上述商品数据的处理方法的商品数据的处理装置,如图5所示,该装置50包括:分词模块501、第一确定模块503、分析模块505以及第二确定模块507。
其中,分词模块501,用于对商品标识信息进行分词处理,得到至少一个分词;第一确定模块503,用于基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;分析模块505,用于将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;第二确定模块507,用于至少基于中心词向量确定与中心词向量匹配的商品。
此处需要说明的是,上述分词模块501、第一确定模块503、分析模块505以及第二确定模块507对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
在一种可选的方案中,第一确定模块包括:第一分析模块。其中,第一分析模块,用于将至少一个分词分别输入至第二模型进行分析,得到至少一个分词的词向量,其中,至少一个分词的词向量和至少一个分词在商品标识信息中的上下文具有对应关系,第二模型对依据样本分词在不同上下文的含义进行训练。
在一种可选的方案中,商品数据的处理装置还包括:第三确定模块、第四确定模块以及处理模块。其中,第三确定模块,用于确定至少一个分词在商品标识信息中的上下文信息;第四确定模块,用于依据上下文信息确定至少一个分词在商品标识信息中的含义;处理模块,用于基于含义对至少一个分词进行向量化处理,得到至少一个分词的词向量。
在一种可选的方案中,分析模块包括:第二分析模块。其中,第二分析模块,用于将至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,其中,顺序包括:至少一个分词的词向量所对应的分词在商品标识信息中的顺序。
在一种可选的方案中,商品数据的处理装置还包括:接收模块。其中,接收模块,用于接收来自客户端设备的查询请求,其中,该查询请求中携带有待检索的商品标识信息。
在一种可选的方案中,第二确定模块包括:第五确定模块、第六确定模块以及第七确定模块。其中,第五确定模块,用于确定商品标识数据库中商品标识信息的中心词;第六确定模块,用于确定中心词向量所对应中心词与商品标识数据库中中心词的相似度;第七确定模块,用于在相似度大于预设阈值时,确定与商品标识数据库中中心词对应的商品为查询请求所请求的商品。
在一种可选的方案中,商品数据的处理装置还包括:展示模块。其中,展示模块,用于向客户端设备反馈与中心词向量匹配的商品,并通过客户端设备展示与中心词向量匹配的商品。
实施例4
根据本申请实施例,还提供了一种用于实施上述商品数据的处理方法的商品数据的处理系统,如图6所示,该系统包括:客户端设备602和服务器604。
其中,服务器604,用于接收查询请求,并从查询请求中提取商品标识信息;对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品;客户端设备602,用于向服务器发送查询请求,其中,该查询请求中携带有待检索的商品标识信息。
可选的,客户端设备包括但不限于移动终端(例如,手机、平板、电脑等)。用户通过客户端设备输入商品标识信息,例如,输入“Mini Bluetooth Speaker”,并点击对应的发送控件之后,客户端设备向服务器发送查询请求。服务器在接收到查询请求之后,对查询请求进行解析处理,从解析结果中得到用户输入的商品标识信息。然后,服务器对商品标识信息进行分词处理,得到至少一个分词,并确定至少一个分词在商品标识信息中的上下文信息,然后依据上下文信息确定至少一个分词在商品标识信息中的含义,并基于含义对至少一个分词进行向量化处理,得到至少一个分词的词向量。
进一步地,在得到至少一个分词的词向量之后,服务器将至少一个分词的词向量按照分词在商品标识信息中的顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,得到商品标识信息的中心词向量。最后,基于中心词向量确定与中心词向量匹配的商品,并向客户端设备反馈与中心词向量匹配的商品,通过客户端设备展示与中心词向量匹配的商品。
由上可知,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量输入至第一模型进行分析,以得到商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
容易注意到的是,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
需要说明的是,本实施例所提供的商品数据的处理系统可执行实施例1中的商品数据的处理方法,相关内容已在实施例1中进行说明,在此不再赘述。
实施例5
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行商品数据的处理方法中以下步骤的程序代码:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
可选地,图7是根据本申请实施例的一种计算机终端的结构框图。如图7所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器702、存储器704以及传输装置706。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的商品数据的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的商品数据的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
可选的,上述处理器还可以执行如下步骤的程序代码:将至少一个分词分别输入至第二模型进行分析,得到至少一个分词的词向量,其中,至少一个分词的词向量和至少一个分词在商品标识信息中的上下文具有对应关系,第二模型对依据样本分词在不同上下文的含义进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:确定至少一个分词在商品标识信息中的上下文信息;依据上下文信息确定至少一个分词在商品标识信息中的含义;基于含义对至少一个分词进行向量化处理,得到至少一个分词的词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:将至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,其中,顺序包括:至少一个分词的词向量所对应的分词在商品标识信息中的顺序。
可选的,上述处理器还可以执行如下步骤的程序代码:对商品标识信息进行分词处理,得到至少一个分词之前,方法还包括:接收来自客户端设备的查询请求,其中,该查询请求中携带有待检索的商品标识信息。
可选的,上述处理器还可以执行如下步骤的程序代码:确定商品标识数据库中商品标识信息的中心词;确定中心词向量所对应中心词与商品标识数据库中中心词的相似度;在相似度大于预设阈值时,确定与商品标识数据库中中心词对应的商品为查询请求所请求的商品。
可选的,上述处理器还可以执行如下步骤的程序代码:向客户端设备反馈与中心词向量匹配的商品,并通过客户端设备展示与中心词向量匹配的商品。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例所提供的商品数据的处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将至少一个分词分别输入至第二模型进行分析,得到至少一个分词的词向量,其中,至少一个分词的词向量和至少一个分词在商品标识信息中的上下文具有对应关系,第二模型对依据样本分词在不同上下文的含义进行训练。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定至少一个分词在商品标识信息中的上下文信息;依据上下文信息确定至少一个分词在商品标识信息中的含义;基于含义对至少一个分词进行向量化处理,得到至少一个分词的词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至第一模型进行分析,其中,顺序包括:至少一个分词的词向量所对应的分词在商品标识信息中的顺序。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对商品标识信息进行分词处理,得到至少一个分词之前,方法还包括:接收来自客户端设备的查询请求,其中,该查询请求中携带有待检索的商品标识信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定商品标识数据库中商品标识信息的中心词;确定中心词向量所对应中心词与商品标识数据库中中心词的相似度;在相似度大于预设阈值时,确定与商品标识数据库中中心词对应的商品为查询请求所请求的商品。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:向客户端设备反馈与中心词向量匹配的商品,并通过客户端设备展示与中心词向量匹配的商品。
实施例7
根据本申请实施例,还提供了一种用于实施上述商品数据的处理方法的计算机设备,该计算机设备包括:处理器以及存储器。
其中,存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:对商品标识信息进行分词处理,得到至少一个分词;基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量;将至少一个分词的词向量共同输入至第一模型进行分析,得到商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;至少基于中心词向量确定与中心词向量匹配的商品。
由上可知,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量输入至第一模型进行分析,以得到商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
容易注意到的是,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
需要说明的是,本实施例所提供的计算机设备可执行实施例1中的商品数据的处理方法,相关内容已在实施例1中进行说明,在此不再赘述。
实施例8
根据本申请实施例,还提供了一种用于实施上述商品数据的处理方法的计算机设备,该计算机设备用于提供人机交互界面,其中,人机交互界面包括:第一控件、第二控件、第三控件以及第四控件。
其中,第一控件,用于展示对商品标识信息进行分词处理得到的至少一个分词;第二控件,用于展示基于至少一个分词在商品标识信息中的含义确定的至少一个分词的词向量;第三控件,用于展示将至少一个分词的词向量共同输入至第一模型进行分析,得到的商品标识信息的中心词向量,其中,通过多组数据对第一模型进行训练,多组数据中的每组数据中均包括:样本词向量和用于标识样本词向量为中心词的标签;第四控件,用于展示至少基于中心词向量确定与中心词向量匹配的商品。
由上可知,采用分词在商品标识信息中的含义对商品数据进行处理的方式,在对商品标识信息进行分词处理,得到至少一个分词之后,服务器基于至少一个分词在商品标识信息中的含义确定至少一个分词的词向量,并将至少一个分词的词向量输入至第一模型进行分析,以得到商品标识信息的中心词向量,最后,基于中心词向量确定与中心词向量匹配的商品。
容易注意到的是,在确定与商品标识信息匹配的商品的过程中,通过对分词在商品标识信息中的含义来确定词向量,并根据词向量来确定中心词向量。由于考虑到了分词在商品标识信息中的上下文含义,达到了对商品标识信息进行识别的目的,解决了一词多义的问题,使得商品标识信息的中心词向量的确定更加准确,从而实现了提高商品匹配度的技术效果。
由此可见,本申请所提供的方案解决了现有技术未考虑到商品标识信息的上下文含义,从而导致商品匹配度低的技术问题。
需要说明的是,本实施例所提供的计算机设备可执行实施例1中的商品数据的处理方法,相关内容已在实施例1中进行说明,在此不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种商品数据的处理方法,其特征在于,包括:
对商品标识信息进行分词处理,得到至少一个分词;
基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量;
将所述至少一个分词的词向量共同输入至第一模型进行分析,得到所述商品标识信息的中心词向量,其中,通过多组数据对所述第一模型进行训练,所述多组数据中的每组数据中均包括:样本词向量和用于标识所述样本词向量为中心词的标签;
至少基于所述中心词向量确定与所述中心词向量匹配的商品。
2.根据权利要求1所述的方法,其特征在于,基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量,包括:
将所述至少一个分词分别输入至第二模型进行分析,得到所述至少一个分词的词向量,其中,所述至少一个分词的词向量和所述至少一个分词在所述商品标识信息中的上下文具有对应关系,所述第二模型依据样本分词在不同上下文的含义进行训练。
3.根据权利要求1所述的方法,其特征在于,基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量包括:
确定所述至少一个分词在所述商品标识信息中的上下文信息;
依据所述上下文信息确定所述至少一个分词在所述商品标识信息中的含义;
基于所述含义对所述至少一个分词进行向量化处理,得到所述至少一个分词的词向量。
4.根据权利要求1所述的方法,其特征在于,将所述至少一个分词的词向量共同输入至第一模型进行分析包括:
将所述至少一个分词的词向量按照顺序进行拼接,并将拼接好后得到的词向量输入至所述第一模型进行分析,其中,所述顺序包括:所述至少一个分词的词向量所对应的分词在所述商品标识信息中的顺序。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,
所述方法还包括:接收来自客户端设备的查询请求,其中,该查询请求中携带有待检索的所述商品标识信息。
6.根据权利要求5所述的方法,其特征在于,至少基于所述中心词向量确定与所述中心词向量匹配的商品包括:
确定商品标识数据库中所述商品标识信息的中心词;
确定所述中心词向量所对应中心词与所述商品标识数据库中中心词的相似度;
在所述相似度大于预设阈值时,确定与所述商品标识数据库中中心词对应的商品为所述查询请求所请求的商品。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:向所述客户端设备反馈与所述中心词向量匹配的商品,并通过所述客户端设备展示与所述中心词向量匹配的商品。
8.根据权利要求2所述的方法,其特征在于,所述第一模型为词向量语言模型,所述第二模型为循环神经网络模型。
9.一种商品数据的处理方法,其特征在于,包括:
对商品标识信息进行分词处理,得到至少一个分词;
基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量;
将所述至少一个分词的词向量共同确定所述商品标识信息的中心词向量;
至少基于所述中心词向量确定与所述中心词向量匹配的商品。
10.一种商品数据的处理装置,其特征在于,包括:
分词模块,用于对商品标识信息进行分词处理,得到至少一个分词;
第一确定模块,用于基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量;
分析模块,用于将所述至少一个分词的词向量共同输入至第一模型进行分析,得到所述商品标识信息的中心词向量,其中,通过多组数据对所述第一模型进行训练,所述多组数据中的每组数据中均包括:样本词向量和用于标识所述样本词向量为中心词的标签;
第二确定模块,用于至少基于所述中心词向量确定与所述中心词向量匹配的商品。
11.一种商品数据的处理系统,其特征在于,包括:
服务器,用于接收查询请求,并从查询请求中提取商品标识信息;对所述商品标识信息进行分词处理,得到至少一个分词;基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量;将所述至少一个分词的词向量共同输入至第一模型进行分析,得到所述商品标识信息的中心词向量,其中,通过多组数据对所述第一模型进行训练,所述多组数据中的每组数据中均包括:样本词向量和用于标识所述样本词向量为中心词的标签;至少基于所述中心词向量确定与所述中心词向量匹配的商品;
客户端设备,用于向所述服务器发送所述查询请求,其中,该查询请求中携带有待检索的所述商品标识信息。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的商品数据的处理方法。
13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的商品数据的处理方法。
14.一种计算机设备,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
对商品标识信息进行分词处理,得到至少一个分词;
基于所述至少一个分词在所述商品标识信息中的含义确定所述至少一个分词的词向量;
将所述至少一个分词的词向量共同输入至第一模型进行分析,得到所述商品标识信息的中心词向量,其中,通过多组数据对所述第一模型进行训练,所述多组数据中的每组数据中均包括:样本词向量和用于标识所述样本词向量为中心词的标签;
至少基于所述中心词向量确定与所述中心词向量匹配的商品。
15.一种计算机设备,用于提供人机交互界面,其特征在于,所述人机交互界面包括:
第一控件,用于展示对商品标识信息进行分词处理得到的至少一个分词;
第二控件,用于展示基于所述至少一个分词在所述商品标识信息中的含义确定的所述至少一个分词的词向量;
第三控件,用于展示将所述至少一个分词的词向量共同输入至第一模型进行分析,得到的所述商品标识信息的中心词向量,其中,通过多组数据对所述第一模型进行训练,所述多组数据中的每组数据中均包括:样本词向量和用于标识所述样本词向量为中心词的标签;
第四控件,用于展示至少基于所述中心词向量确定与所述中心词向量匹配的商品。
CN201910127070.6A 2019-02-20 2019-02-20 商品数据的处理方法、装置和系统 Pending CN111597296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910127070.6A CN111597296A (zh) 2019-02-20 2019-02-20 商品数据的处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910127070.6A CN111597296A (zh) 2019-02-20 2019-02-20 商品数据的处理方法、装置和系统

Publications (1)

Publication Number Publication Date
CN111597296A true CN111597296A (zh) 2020-08-28

Family

ID=72189982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910127070.6A Pending CN111597296A (zh) 2019-02-20 2019-02-20 商品数据的处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111597296A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744019A (zh) * 2021-01-12 2021-12-03 北京沃东天骏信息技术有限公司 一种商品推荐方法、装置、设备及存储介质
CN117273865A (zh) * 2023-11-14 2023-12-22 深圳市灵智数字科技有限公司 商品推荐方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN107577763A (zh) * 2017-09-04 2018-01-12 北京京东尚科信息技术有限公司 检索方法和装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN109145107A (zh) * 2018-09-27 2019-01-04 平安科技(深圳)有限公司 基于卷积神经网络的主题提取方法、装置、介质和设备
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN107577763A (zh) * 2017-09-04 2018-01-12 北京京东尚科信息技术有限公司 检索方法和装置
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109145107A (zh) * 2018-09-27 2019-01-04 平安科技(深圳)有限公司 基于卷积神经网络的主题提取方法、装置、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETERS M E等: "Deep contextualized word representations" *
李枫林: "基于深度学习的文本表示方法", pages 158 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744019A (zh) * 2021-01-12 2021-12-03 北京沃东天骏信息技术有限公司 一种商品推荐方法、装置、设备及存储介质
CN117273865A (zh) * 2023-11-14 2023-12-22 深圳市灵智数字科技有限公司 商品推荐方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN111784455A (zh) 一种物品推荐方法及推荐设备
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
WO2023011382A1 (zh) 推荐方法、推荐模型训练方法及相关产品
CN107832338B (zh) 一种识别核心产品词的方法和系统
CN110782318A (zh) 基于音频交互的营销方法、装置以及存储介质
CN107729453B (zh) 一种提取中心产品词的方法和装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110837581A (zh) 视频舆情分析的方法、装置以及存储介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN111598596A (zh) 数据处理方法、装置、电子设备及存储介质
CN110874534B (zh) 数据处理方法和数据处理装置
CN112052297B (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN111597296A (zh) 商品数据的处理方法、装置和系统
CN112883719A (zh) 一种品类词识别方法、模型训练方法、装置及系统
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN110413823A (zh) 服装图片推送方法及相关装置
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
CN113011182B (zh) 一种对目标对象进行标签标注的方法、装置和存储介质
CN113569741A (zh) 图像试题的答案生成方法、装置、电子设备及可读介质
CN111797622B (zh) 用于生成属性信息的方法和装置
CN111274383B (zh) 一种应用于报价的分类对象方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828