CN109993619A - 数据处理方法 - Google Patents

数据处理方法 Download PDF

Info

Publication number
CN109993619A
CN109993619A CN201711498802.XA CN201711498802A CN109993619A CN 109993619 A CN109993619 A CN 109993619A CN 201711498802 A CN201711498802 A CN 201711498802A CN 109993619 A CN109993619 A CN 109993619A
Authority
CN
China
Prior art keywords
attribute
data
target object
attribute data
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711498802.XA
Other languages
English (en)
Other versions
CN109993619B (zh
Inventor
张瞻
毛瑞九
夏继光
李聚信
蒋佳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711498802.XA priority Critical patent/CN109993619B/zh
Publication of CN109993619A publication Critical patent/CN109993619A/zh
Application granted granted Critical
Publication of CN109993619B publication Critical patent/CN109993619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种数据处理方法,包括:确定目标对象所缺失的数据对应的缺失属性;获取关于所述目标对象的描述信息,其中,所述描述信息包括至少一张图像,所述图像包括所述目标对象的至少一个属性数据;从所述描述信息中提取与所述缺失属性对应的属性数据。

Description

数据处理方法
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种数据处理方法和一种数据处理系统。
背景技术
随着计算机和互联网技术的快速发展,服务商在各种网络平台中为用户提供各式各样的服务对象,但是服务商提供的服务对象的属性数据存在不完整的情况,导致用户无法更加准确地了解服务商提供的服务对象。例如,在电子商务中,在电商平台推出的各式各样的商品中存在商品属性数据不完整的情况,影响用户对该些商品的了解,因此如何填充商品的属性数据成为亟待解决的问题。
在实现本发明构思的过程中,发明人发现现有技术中至少存在如下问题,现有填充方法对服务对象的属性数据填充率较低,填充准确性较差,导致用户无法更加准确地了解服务商提供的服务对象。
发明内容
有鉴于此,本公开提供了一种优化的数据处理方法和数据处理系统。
本公开的一个方面提供了一种数据处理方法,包括:确定目标对象所缺失的数据对应的缺失属性,获取关于所述目标对象的描述信息,其中,所述描述信息包括至少一张图像,所述图像包括所述目标对象的至少一个属性数据,从所述描述信息中提取与所述缺失属性对应的属性数据。
根据本公开实施例,上述从所述描述信息中提取与所述缺失属性对应的属性数据,包括:从所述至少一张图像中提取至少一个第一属性数据,获取至少一个对比对象关于所述缺失属性的第二属性数据,根据第二属性数据,从所述至少一个第一属性数据中确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述方法还包括:将所述目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果,根据所述至少一个预测结果确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述方法中在所述描述信息中不包含与所述缺失属性对应的属性数据时,利用所述至少一个训练好的模型确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述描述信息还包括所述目标对象的标题数据,所述标题数据包括所述目标对象的至少一个属性数据。
本公开的另一方面提供了一种数据处理系统,包括:第一确定模块、获取模块、以及提取模块。第一确定模块确定目标对象所缺失的数据对应的缺失属性。获取模块获取关于所述目标对象的描述信息,其中,所述描述信息包括至少一张图像,所述图像包括所述目标对象的至少一个属性数据。提取模块从所述描述信息中提取与所述缺失属性对应的属性数据。
根据本公开实施例,上述从所述描述信息中提取与所述缺失属性对应的属性数据,包括:提取单元从所述至少一张图像中提取至少一个第一属性数据。获取单元获取至少一个对比对象关于所述缺失属性的第二属性数据。确定单元根据第二属性数据,从所述至少一个第一属性数据中确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述系统还包括:输入模块、以及第二确定模块。输入模块将所述目标对象的的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果。第二确定模块根据所述至少一个预测结果确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述系统中在所述描述信息中不包含与所述缺失属性对应的属性数据时,利用所述至少一个训练好的模型确定所述目标对象的与所述缺失属性对应的属性数据。
根据本公开实施例,上述描述信息还包括所述目标对象的标题数据,所述标题数据包括所述目标对象的至少一个属性数据。
本公开的另一方面提供了一种模型训练系统,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述任一项所述的方法。
本公开的另一方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述任一项所述的方法。
根据本公开的实施例,可以至少部分地解决现有的填充方法无法高效、准确地填充服务对象的属性数据,导致用户无法更加准确地了解服务商提供的服务对象,并因此可以实现高效、准确地填充服务对象的属性数据的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据处理方法和系统的系统框架;
图2示意性示出了根据本公开实施例的数据处理方法和系统的应用场景;
图3A~图3B示意性示出了根据本公开实施例的数据处理方法的流程图;
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图;
图5A~图5B示意性示出了根据本公开实施例的数据处理系统的框图;
图6示意性示出了根据本公开另一实施例的数据处理系统的框图;以及
图7示意性示出了根据本公开实施例的适于实现数据处理的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种数据处理方法,该方法包括:确定目标对象所缺失的数据对应的缺失属性,获取关于目标对象的描述信息,其中,描述信息包括至少一张图像,图像包括目标对象的至少一个属性数据,从描述信息中提取与缺失属性对应的属性数据。
图1示意性示出了根据本公开实施例的可以应用于数据处理方法和数据处理系统的示例性系统框架100。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理方法装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,用户的属性数据可以存储在终端设备101、102、或者103中的任意一个(例如,终端设备101,但不限于此)之中。然后,终端设备101可以将数据发送到服务器或者服务器集群中,并由接收到该数据的服务器或者服务器集群来执行本公开实施例所提供的数据处理方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据处理方法和系统的应用场景。
如图2所示,该应用场景200例如可以包括服务商提供的服务对象210、处理单元220、以及存储单元230。
根据本公开实施例,服务商提供的服务对象210,例如可以是游戏服务商提供的游戏产品、电商提供的商品等等。其中,服务商提供的服务对象210例如包括该对象的描述信息211,例如当服务对象210为电商提供的商品时,描述信息211例如可以是商品本身带有的商品图片信息,该图片上带有关于该商品的描述信息211,例如描述信息211包括商品的名称、生产日期、保质期等详细信息,例如商品的名称为Aa、生产日期为Bb、保质期为Cc等等。
根据本公开实施例,处理单元220例如可以是将商品图片上的描述信息211处理成包含商品属性数据的信息。其中,处理单元220例如可以包括提取图片上文字的模型、从文字中提取出商品属性数据的模型等等。
根据本公开实施例,存储单元230例如可以是存储商品属性数据的网络或者数据库,存储于存储单元230中的商品的属性数据例如包括属性数据不够完整的商品,本公开实施例将处理单元220处理得到的商品属性数据填充到存储单元230中,以使得存储于存储单元230中的商品的属性数据更加完整。
下面结合图1的系统架构以及图2的应用场景,参考图3A~图4来描述根据本公开示例性实施方式的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图3A~图3B示意性示出了根据本公开实施例的数据处理方法的流程图。
如图3A所示,该方法包括操作S310~S330。
在操作S310,确定目标对象所缺失的数据对应的缺失属性。
在本公开实施例中,网络中的各种服务商提供各式各样的服务对象,例如游戏服务商提供各种游戏产品、电商提供各种商品。针对服务商提供的服务对象,关于该些服务对象的属性数据难免存在不完整的情况,导致用户无法更加准确地了解服务商提供的服务对象。
例如在电子商务中,各大电商平台经常推出各式各样的商品,该些商品例如包括多种属性以及该些属性对应的属性数据,例如商品A可以包括净含量、功效、包装单位等等属性,该些属性对应的属性数据例如为:1升、消毒/抗菌、瓶装等等。该些商品的属性以及属性数据例如存储于电商的数据库中,电商在线上推广该些商品时,将数据库中的商品以及对应的商品属性数据推广至用户,用户在浏览该些商品时,该些商品的属性以及属性数据提供给用户关于该商品的相关信息,用户可以参考商品的属性数据做出是否购买的决定。然而,存储于数据库中的商品的属性数据难免不够完整,例如存储于数据库中的商品A的属性数据例如缺失了商品A的组成成分,电商在线上推广商品A时,用户不能够得到商品A的组成成分,影响用户对商品A的了解,影响用户的购买决定。因此有必对服务商提供的服务对象(例如电商提供的商品)的属性数据进行填充,提高服务对象(商品)的属性数据完整性。
根据本公开实施例,每个对象例如包括多个属性,每个属性例如可以有相应的数据。当对象的多个属性中某一些属性缺少了与该些属性对应的数据时,该些缺失数据的对象可以作为本公开实施例的目标对象,该些属性为目标对象的缺失属性。通过本公开实施例,获取该些目标对象的缺失属性的相应数据,以此填充目标对象缺失属性对应的数据,实现目标对象的信息更加完整。
根据本公开实施例,电商存储于数据库中的关于商品(例如商品A和商品B,其中,商品A的商品名称例如为:anzeel安洁家居衣物除菌液2.6L*1瓶护色持久防霉味道清新不刺激,表中以Aa表示,商品B的商品名称例如为:anzeel安洁家居衣物洗衣液1L*1袋护色持久防霉味道清新不刺激,表中以Bb表示)的数据的存储格式例如为表1所示。
表1
商品编号 商品名称 商品属性 属性数据
101 Aa 净含量 2.6L
101 Aa 功效 消毒/抗菌
101 Aa 包装单位 瓶装
102 Bb 净含量 1L
102 Bb 功效 清洁
根据本公开实施例,商品A和商品B例如为同一类商品(例如都为清洁商品),在确定目标对象的缺失属性时,例如可以将某一对象(商品A或商品B)在数据库中的存储方式由多行数据转换为单行多列数据形式,例如为表2所示。
表2
商品编号 商品名称 净含量 功效 包装单位
101 Aa 2.6L 消毒/抗菌 瓶装
102 Bb 1L 清洁
如表2所示,目标对象例如可以是商品B,该目标对象(商品B)缺失的数据对应的缺失属性例如是“包装单位”。
根据本公开实施例,确定目标对象所缺失的数据对应的缺失属性,例如为确定商品B的缺失属性为“包装单位”,例如将表2中缺失属性的属性数据设置为空值(NA)。
在操作S320,获取关于目标对象的描述信息,其中,描述信息包括至少一张图像,图像包括目标对象的至少一个属性数据。
根据本公开实施例,目标对象的描述信息例如可以包含目标对象的多个属性的相应数据。其中,描述信息例如可以包括关于目标对象的图像,该图像例如包括目标对象的多个属性数据。
在本公开实施例中,例如目标对象为商品B时,商品B的描述信息例如包括商品B的图像,该图像上包含商品B的多个属性数据,例如该图像为商品B包装上带有的商品信息的图像。该商品的图像例如可以存储在电商的数据库中。
根据本公开实施例,描述信息还包括目标对象的标题数据,标题数据包括目标对象的至少一个属性数据。
在本公开实施例中,描述信息除了目标对象的图像,还可以包括目标对象的标题数据,该标题数据例如可以包括目标对象的多个属性数据。
在本公开实施例中,描述信息还可以包括目标对象已经填充好的属性数据(例如为目标对象非缺失属性对应的属性数据)。
根据本公开实施例,例如目标对象为商品B时,商品B的标题数据例如为“anzeel安洁家居衣物洗衣液1L*1袋护色持久防霉味道清新不刺激”该标题数据包含了目标对象的多个属性数据,例如包含的属性数据为“洗衣液”、“袋装”等等。
在操作S330,从描述信息中提取与缺失属性对应的属性数据。
如图3B所示,操作S330包括操作S331~S333。
在操作S331,从至少一张图像中提取至少一个第一属性数据。
根据本公开实施例,从描述信息中提取与缺失属性对应的属性数据,例如当描述信息为目标对象的图像时,提取图像上的文字信息。
根据本公开实施例,提取图像上的文字信息,例如可以通过图片文本识别工具(例如软件Python中的pytesser工具)直接提取图像上的文字信息。还可以将图像放大一定倍数(例如放大4倍)后提取图像的文字信息,以此提高图像的识别效果。
根据本公开实施例,当获取图像的文字信息后,利用结巴分词软件(jieba)将文字信息中的属性数据提取出来。具体为,将已经填充的多个商品的属性数据增加到结巴分词(jieba)系统词典中,并设置较高的词频(例如设置为20000)。利用结巴分词(jieba)的搜索引擎模式对目标对象(商品)的文字进行分词,得到多个词语,该多个词语例如包括目标对象的属性数据,该包括目标对象的属性数据的多个词语例如为第一属性数据。
根据本公开实施例,利用结巴分词(jieba)得到的分词结果例如包含一些特殊符号和一些常用词,例如特殊符号包括“《》”、“】”等,常用词例如包括“我们”、“你们”、“的”等。为了保证属性数据的有效性,例如可以去除该些特殊符号和常用词。在去除该些特殊符号和常用词后,例如可以将剩余的分词结果作为第一属性数据。
根据本公开实施例,第一属性数据除了从图像中获取的分词结果外,例如还可以从目标对象的标题数据中进行分词,标题数据的分词结果例如可以和图像的分词结果共同作为目标对象的第一属性数据。
在操作S332,获取至少一个对比对象关于缺失属性的第二属性数据。
根据本公开实施例,对比对象例如为除了目标对象外的其他对象。将对比对象关于缺失属性的属性数据作为第二属性数据。
根据本公开实施例,例如目标对象为商品B,对比对象例如商品A、商品C、商品D等等。目标对象(商品B)的缺失属性例如为“包装单位”,对比对象(商品A、商品C、商品D)关于缺失属性(包装单位)的属性数据分别为“瓶装”、“瓶装”、“袋装”,即,“瓶装”、“瓶装”、“袋装”作为第二属性数据。如表3所示。
表3
商品编号 商品名称 净含量 功效 包装单位
101 Aa 2.6L 消毒/抗菌 瓶装
102 Bb 1L 清洁
103 Cc 2.6L 消毒/抗菌 瓶装
104 Dd 1L 清洁 袋装
在操作S333,根据第二属性数据,从至少一个第一属性数据中确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,根据第二属性数据,从多个第一属性数据中确定目标对象的与缺失属性对应的属性数据。例如通过字符串匹配工具包(例如软件Python中的difflib工具)计算第一属性数据和第二属性数据之间的字符串相似度,例如选择第一属性数据中与第二属性数据相似度最大的或者相似度满足一定阈值条件的属性数据作为缺失属性对应的属性数据。
根据本公开实施例,字符串匹配算法中两个字符串的相似度计算公式为:
其中,s1,s2代表字符串,com(s1,s2)为字符串s1和字符串s2中共有字符的长度。length(s1)为字符串s1的长度,length(s2)为字符串s2的长度;sim(s1,s2)为两个字符串的相似度,sim(s1,s2)的阈值例如可以设置为为0.6。如果sim(s1,s2)>>0.6,表示字符串s2可作为目标对象的缺失属性相应的属性数据,如果sim(s1,s2)<0.6,则字符串s2不作为目标对象的缺失属性相应的属性数据。
根据本公开实施例,当目标对象为商品B时,通过对商品B的图像或标题数据作的分词处理,得到分词结果例如为“洗衣液”、“1L”、“袋装”、“清洁”、“50元”等等,然后将分词后的结果和商品B已填充的属性数据(“1L”,“清洁”)进行合并,去除重复词组,作为商品描述词组,即商品第一属性数据。即字符串s2为第一属性数据,即,字符串s2例如为“洗衣液”、“1L”、“袋装”、“清洁”、“50元”等等中的任意一个属性数据。
根据本公开实施例,商品B的缺失属性例如为“包装单位”。
根据本公开实施例,对比对象例如为商品A、商品C、商品D,该些对比对象关于缺失属性(包装单位)的属性数据例如分别为“瓶装”、“瓶装”、“袋装”,即字符串s1为第二属性数据“瓶装”、“瓶装”、“袋装”中的任意一个属性数据。
在本公开实施例中,例如字符串s2为“袋装”时,该字符串s2与字符串s1的相似度最高,因此可以将第一属性数据中的属性数据“袋装”,作为目标对象的的缺失属性(包装单位)对应的属性数据。
本公开实施例通过从目标对象的图像和/或标题数据中提取与目标对象的缺失属性对应的属性数据,并将提取得到的属性数据填充目标对象的缺失属性,本公开实施例的方法充分利用关于目标对象包含的信息(图像和/或标题数据等等)实现高效、准确地填充目标对象关于缺失属性的属性数据。
图4示意性示出了根据本公开另一实施例的数据处理方法的流程图。
如图4所示,该方法包括操作S310~S330、以及S410~S420。其中,操作S310~S330与上述参考图3A描述的方法相同或类似,在此不再赘述。
根据本公开实施例,在描述信息中不包含与缺失属性对应的属性数据时,利用至少一个训练好的模型确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,当描述信息(例如包括目标对象的图像和标题数据等)不包含目标对像的缺失属性对应的属性数据时,或者通过结巴分词得到分词结果不包含目标对像的缺失属性对应的属性数据,或者通过字符串匹配算法得不到目标对像的缺失属性对应的属性数据时,此时,例如可以通过多个训练好的模型确定目标对象的与缺失属性对应的属性数据。具体过程如下。
在操作S410,将目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果。
根据本公开实施例,例如将目标对象的属性数据(其中,目标对象的属性数据例如包括商品图片信息分词结果、商品标题信息分词结果、商品已填充属性数据)转化为数值型向量,输入到至少一个训练好的模型中,得到至少一个预测结果。
根据本公开实施例,至少一个训练好的模型包括scikit-learn内置的支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)、多层感知机(MultilayerPerceptron,MLP)、随机森林(Random Forest,RF)、k最近邻(k-Nearest Neighbors,KNN)等等模型。
在本公开实施例中,目标对象的属性数据例如包括商品图像信息分词结果、商品标题信息分词结果、商品已填充属性数据)。将目标对象(商品B)的商品图像信息分词结果、商品标题信息分词结果、商品已填充属性数据词组转化为数值型词向量,将词向量数据输入至训练好的模型中。
根据本公开实施例,在训练模型过程中,例如将与缺失属性对应的属性数据为已经填充好的对比对象作为训练模型的训练集,例如表3所示,商品B的缺失属性为“包装单位”,商品A、商品C、商品D已经填充好关于该缺失属性(“包装单位”)的属性数据,因此可以将商品A、商品C、商品D作为训练集。
根据本公开实施例,将目标对象(商品B)的图像信息分词结果、商品标题信息分词结果、商品已填充属性数据等属性数据输入至训练好的模型中,得到的预测结果例如为“瓶装”或“袋装”。
在操作S420,根据至少一个预测结果确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,每个训练模型得到的预测结果例如可以不同,因此多个模型可以的得到多个相应的预测结果。从该多个预测结果中确定目标对象的与缺失属性对应的属性数据,例如将预测结果中属性数据出现次数多的属性数据作为目标对象的与缺失属性对应的属性数据。
例如,上述举例的5种训练模型中分别得到的预测结果为“瓶装”、“袋装”、“瓶装”、“瓶装”、“袋装”,该5个预测结果中“瓶装”出现的次数最多,因此可以将“瓶装”作为商品B与缺失属性(包装单位)对应的属性数据。
根据本公开实施例,模型训练过程例如如下:
根据本公开实施例,表3中的商品A、商品B、商品C、商品D的的词组如下表4所示,其中,表4所示的每一行表示一个商品的词组。将该表4中的所有词组取集合,得到如表5所示的词组集合。对表5所示的词组集合转换为数值类型向量,如表6所示,获取商品A、商品C、商品D的数值类型向量作为商品的特征来训练得到上述多个模型。
表4
1.[2.6L,消毒/抗菌,瓶装]
2.[1L,清洁]
3.[2.6L,消毒/抗菌,瓶装]
4.[1L,清洁,袋装]
表5
[2.6L,1L,消毒/抗菌,清洁,瓶装,袋装]
表6
1.[1,0,1,0,1,0]
2.[0,1,0,0,1,0]
3.[1,0,1,0,1,0]
4.[0,1,0,1,0,1]
通过上述如表6所示的数值类型向量作为特征训练得到的多个模型中,例如可以通过该训练得到的多个训练模型来预测目标对象(例如为商品B)的与缺失属性(包装单位)对应的属性数据。
可以理解,上述举例的模型是为便于理解本公开实施例所做出的举例,本公开实施例的模型包括但不限于上述所举例的模型,本领域技术人员可根据实际应用情况选择合适的模型,本公开实施例不限制具体的对象,商品A、商品B、商品C、商品D只是为便于理解本公开实施例作做出的举例,不对本公开实施例做出任何限制。
本公开实施例通过多个训练模型来预测目标对象的属性数据,通过从目标对象的图像和/或标题数据获取属性数据,以及通过训练模型获取属性数据,通过该两种获取属性数据的方式同时或者目标对象的属性数据,可以实现高效、准确地填充目标对象关于缺失属性的属性数据。
图5A~图5B示意性示出了根据本公开实施例的数据处理系统的框图。
如图5A所示,数据处理系统500可以包括第一确定模块510、获取模块520、以及提取模块530。
第一确定模块510可以确定目标对象所缺失的数据对应的缺失属性。根据本公开实施例,第一确定模块510例如可以执行上文参考图3A描述的操作S310,在此不再赘述。
获取模块520可以获取关于目标对象的描述信息,其中,描述信息包括至少一张图像,图像包括目标对象的至少一个属性数据。根据本公开实施例,获取模块520例如可以执行上文参考图3A描述的操作S320,在此不再赘述。
提取模块530可以从描述信息中提取与缺失属性对应的属性数据。根据本公开实施例,提取模块530例如可以执行上文参考图3A描述的操作S330,在此不再赘述。
如图5B所示,提取模块530可以包括提取单元531、获取单元532、以及确定单元533。
提取单元531可以从至少一张图像中提取至少一个第一属性数据。根据本公开实施例,提取单元531例如可以执行上文参考图3B描述的操作S331,在此不再赘述。
获取单元532可以获取至少一个对比对象关于缺失属性的第二属性数据。根据本公开实施例,获获取单元532例如可以执行上文参考图3B描述的操作S332,在此不再赘述。
确定单元533可以根据第二属性数据,从至少一个第一属性数据中确定目标对象的与缺失属性对应的属性数据。根据本公开实施例,确定单元533例如可以执行上文参考图3A描述的操作S333,在此不再赘述。
图6示意性示出了根据本公开另一实施例的数据处理系统的框图。
如图6所示,数据处理系统500可以包括第一确定模块510、获取模块520、提取模块530、输入模块610、以及第二确定模块620。其中,第一确定模块510、获取模块520、以及提取模块530与上述参考图5描述的模块相同或类似,在此不再赘述。
输入模块610可以将目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果。根据本公开实施例,输入模块610例如可以执行上文参考图4描述的操作S410,在此不再赘述。
第二确定模块620可以根据至少一个预测结果确定目标对象的与缺失属性对应的属性数据。根据本公开实施例,第二确定模块620例如可以执行上文参考图4描述的操作S420,在此不再赘述。
可以理解的是,第一确定模块510、获取模块520、提取模块530、输入模块610、以及第二确定模块620可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一确定模块510、获取模块520、提取模块530、输入模块610、以及第二确定模块620中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一确定模块510、获取模块520、提取模块530、输入模块610、以及第二确定模块620中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图7示意性示出了根据本公开实施例的适于实现数据处理的计算机系统的方框图。图7示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,根据本公开实施例的计算机系统700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行参考图3A~图4描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行以上参考图3A~图4描述的处理方法的各种操作。需要注意,所述程序也可以存储在除ROM702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图3A~图4描述的数据处理方法的各种操作。
根据本公开的实施例,系统700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行:
一种数据处理方法,包括:确定目标对象所缺失的数据对应的缺失属性,获取关于目标对象的描述信息,其中,描述信息包括至少一张图像,图像包括目标对象的至少一个属性数据,从描述信息中提取与缺失属性对应的属性数据。
根据本公开实施例,上述从描述信息中提取与缺失属性对应的属性数据,包括:从至少一张图像中提取至少一个第一属性数据,获取至少一个对比对象关于缺失属性的第二属性数据,根据第二属性数据,从至少一个第一属性数据中确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,上述方法还包括:将目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果,根据至少一个预测结果确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,上述方法中在描述信息中不包含与缺失属性对应的属性数据时,利用至少一个训练好的模型确定目标对象的与缺失属性对应的属性数据。
根据本公开实施例,上述描述信息还包括目标对象的标题数据,标题数据包括目标对象的至少一个属性数据。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种数据处理方法,包括:
确定目标对象所缺失的数据对应的缺失属性;
获取关于所述目标对象的描述信息,其中,所述描述信息包括至少一张图像,所述图像包括所述目标对象的至少一个属性数据;
从所述描述信息中提取与所述缺失属性对应的属性数据。
2.根据权利要求1所述的方法,其中,所述从所述描述信息中提取与所述缺失属性对应的属性数据,包括:
从所述至少一张图像中提取至少一个第一属性数据;
获取至少一个对比对象关于所述缺失属性的第二属性数据;
根据第二属性数据,从所述至少一个第一属性数据中确定所述目标对象的与所述缺失属性对应的属性数据。
3.根据权利要求1所述的方法,还包括:
将所述目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果;
根据所述至少一个预测结果确定所述目标对象的与所述缺失属性对应的属性数据。
4.根据权利要求3所述的方法,其中,在所述描述信息中不包含与所述缺失属性对应的属性数据时,利用所述至少一个训练好的模型确定所述目标对象的与所述缺失属性对应的属性数据。
5.根据权利要求1所述的方法,其中,所述描述信息还包括所述目标对象的标题数据,所述标题数据包括所述目标对象的至少一个属性数据。
6.一种数据处理系统,包括:
第一确定模块,确定目标对象所缺失的数据对应的缺失属性;
获取模块,获取关于所述目标对象的描述信息,其中,所述描述信息包括至少一张图像,所述图像包括所述目标对象的至少一个属性数据;
提取模块,从所述描述信息中提取与所述缺失属性对应的属性数据。
7.根据权利要求6所述的系统,其中,所述从所述描述信息中提取与所述缺失属性对应的属性数据,包括:
提取单元,从所述至少一张图像中提取至少一个第一属性数据;
获取单元,获取至少一个对比对象关于所述缺失属性的第二属性数据;
确定单元,根据第二属性数据,从所述至少一个第一属性数据中确定所述目标对象的与所述缺失属性对应的属性数据。
8.根据权利要求6所述的系统,还包括:
输入模块,将所述目标对象的属性数据输入到至少一个训练好的模型中,得到至少一个预测结果;
第二确定模块,根据所述至少一个预测结果确定所述目标对象的与所述缺失属性对应的属性数据。
9.根据权利要求8所述的系统,其中,在所述描述信息中不包含与所述缺失属性对应的属性数据时,利用所述至少一个训练好的模型确定所述目标对象的与所述缺失属性对应的属性数据。
10.根据权利要求6所述的方法,其中,所述描述信息还包括所述目标对象的标题数据,所述标题数据包括所述目标对象的至少一个属性数据。
11.一种数据处理系统,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~5中任一项所述的方法。
12.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~5中任一项所述的方法。
CN201711498802.XA 2017-12-29 2017-12-29 数据处理方法 Active CN109993619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711498802.XA CN109993619B (zh) 2017-12-29 2017-12-29 数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711498802.XA CN109993619B (zh) 2017-12-29 2017-12-29 数据处理方法

Publications (2)

Publication Number Publication Date
CN109993619A true CN109993619A (zh) 2019-07-09
CN109993619B CN109993619B (zh) 2022-09-30

Family

ID=67111737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711498802.XA Active CN109993619B (zh) 2017-12-29 2017-12-29 数据处理方法

Country Status (1)

Country Link
CN (1) CN109993619B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659316A (zh) * 2019-08-13 2020-01-07 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112258259A (zh) * 2019-08-14 2021-01-22 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN113393289A (zh) * 2021-05-27 2021-09-14 阿里巴巴新加坡控股有限公司 商品对象信息处理、标题修改的方法及装置
CN113837820A (zh) * 2020-06-23 2021-12-24 阿里巴巴集团控股有限公司 数据处理方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060039045A1 (en) * 2004-08-19 2006-02-23 Fuji Xerox Co., Ltd. Document processing device, document processing method, and storage medium recording program therefor
CN102402576A (zh) * 2010-09-14 2012-04-04 株式会社理光 信息处理设备、信息处理方法及计算机程序产品
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN106096609A (zh) * 2016-06-16 2016-11-09 武汉大学 一种基于ocr的商品查询关键字自动生成方法
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN107169425A (zh) * 2017-04-26 2017-09-15 深圳美云智数科技有限公司 一种商品属性的识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060039045A1 (en) * 2004-08-19 2006-02-23 Fuji Xerox Co., Ltd. Document processing device, document processing method, and storage medium recording program therefor
CN102402576A (zh) * 2010-09-14 2012-04-04 株式会社理光 信息处理设备、信息处理方法及计算机程序产品
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN106096609A (zh) * 2016-06-16 2016-11-09 武汉大学 一种基于ocr的商品查询关键字自动生成方法
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN107169425A (zh) * 2017-04-26 2017-09-15 深圳美云智数科技有限公司 一种商品属性的识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659316A (zh) * 2019-08-13 2020-01-07 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN112258259A (zh) * 2019-08-14 2021-01-22 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN113837820A (zh) * 2020-06-23 2021-12-24 阿里巴巴集团控股有限公司 数据处理方法、装置及设备
CN113393289A (zh) * 2021-05-27 2021-09-14 阿里巴巴新加坡控股有限公司 商品对象信息处理、标题修改的方法及装置

Also Published As

Publication number Publication date
CN109993619B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN107908789A (zh) 用于生成信息的方法和装置
CN109145280A (zh) 信息推送的方法和装置
CN107330752B (zh) 识别品牌词的方法和装置
CN109993619A (zh) 数据处理方法
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
US11315070B2 (en) Method and apparatus for storing information
CN105677931B (zh) 信息搜索方法和装置
CN108153856A (zh) 用于输出信息的方法和装置
US20130212103A1 (en) Record linkage based on a trained blocking scheme
CN107133221A (zh) 信息审核方法、装置、计算机可读介质和电子设备
CN104428805A (zh) 强化搜索的连接目标锁定
CN107578052A (zh) 货品处理方法及系统
CN108984554A (zh) 用于确定关键词的方法和装置
CN110059223A (zh) 机内循环、图像到视频计算机视觉引导
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107832338A (zh) 一种识别核心产品词的方法和系统
CN109933514A (zh) 一种数据测试方法和装置
CN110276065A (zh) 一种处理物品评论的方法和装置
CN109389660A (zh) 图像生成方法和装置
CN107193932B (zh) 信息推送方法和装置
CN109325197A (zh) 用于提取信息的方法和装置
CN110223095A (zh) 确定商品属性的方法、装置、设备和存储介质
US10235711B1 (en) Determining a package quantity
CN109697452A (zh) 数据对象的处理方法、处理装置及处理系统
CN113468330A (zh) 信息获取方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant