CN106096042A - 数据信息分类方法及系统 - Google Patents

数据信息分类方法及系统 Download PDF

Info

Publication number
CN106096042A
CN106096042A CN201610487619.9A CN201610487619A CN106096042A CN 106096042 A CN106096042 A CN 106096042A CN 201610487619 A CN201610487619 A CN 201610487619A CN 106096042 A CN106096042 A CN 106096042A
Authority
CN
China
Prior art keywords
data message
classification
information
similarity
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610487619.9A
Other languages
English (en)
Inventor
范兴杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV eCommerce Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV eCommerce Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV eCommerce Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610487619.9A priority Critical patent/CN106096042A/zh
Publication of CN106096042A publication Critical patent/CN106096042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例公开一种数据信息分类方法,属于信息处理技术领域,包括:获取待分类数据信息的特征信息;根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别;另一方面,本发明的实施例还提供一种数据信息分类系统;本发明实施例的数据信息分类方法及系统通过预先存储针对所有类别数据信息的样本特征信息以及样本特征信息所对应的数据信息所属的类别,以用于自动获取待分类数据信息的特征信息后确定待分类数据信息的类别,保证了数据信息分类的准确性,提升了数据信息分类的效率。

Description

数据信息分类方法及系统
技术领域
本发明涉及信息处理技术领域,特别涉及一种数据信息分类方法及系统。
背景技术
随着电子商务的发展,越来越多的品类的商品在线上进行出售,为了能够让消费者从品类众多的商品中迅速的找到自己的目标商品,就需要电商平台将线上的产品进行归类管理,并对数据信息进行分类管理。
然而,发明人在实践中发现,目前线上销售服务在建立商品的数据库时,需要人员手动设置、指定商品的分类并修改系统中关于商品分类的数据信息,这就需要人员对商品分类的规则十分熟悉,否则可能导致商品分类错误,并且人工进行商品分类,工作量大且效率低下。
发明内容
本发明的实施例提供一种数据信息分类方法及系统,以用于至少解决上述技术问题之一。
一方面,本发明的实施例提供一种数据信息分类方法,包括:获取待分类数据信息的特征信息;
根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
另一方面,本发明的实施例还提供一种数据信息分类系统,其包括:
特征信息获取模块,用于获取待分类数据信息的特征信息;
目标类别确定模块,用于根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
本发明实施例的数据信息分类方法及系统通过预先存储针对所有类别数据信息的样本特征信息以及样本特征信息所对应的数据信息所属的类别,以用于自动获取待分类数据信息的特征信息后确定待分类数据信息的类别,保证了数据信息分类的准确性,提升了数据信息分类的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的数据信息分类方法一实施例的流程图;
图2为本发明的数据信息分类方法另一实施例的流程图;
图3为本发明的数据信息分类方法再一实施例的流程图;
图4为本发明的数据信息分类系统一实施例的原理框图;
图5为本发明的数据信息分类系统中的目标类别确定模块一实施例的原理框图;
图6为本发明的数据信息分类系统中的相似度计算单元的一实施例的原理框图;
图7为本发明的服务器的一实施例的结构示意图。
具体实施例
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“组件”、“装置”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,组件可以、但不限于是运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是组件。一个或多个组件可在执行的过程和/或线程中,并且组件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。组件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一组件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的一实施例的数据信息分类方法,包括:
S11、获取待分类数据信息的特征信息;
S12、根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
本实施例的数据信息分类方法由处理器自动执行,当工作人员将待分类数据信息的特征信息输入至处理器后,处理器将根据预设的数据信息分类样本中存储的相应于每一类数据信息的样本特征信息与待分类数据信息的特征信息进行比较,从而确定出待分类数据信息所属的目标类别。
待分类数据信息的特征信息至少包括数据信息名称、数据信息图片、数据信息文本信息;样本特征信息至少包括样本数据信息名称、样本数据信息图片、样本数据信息文本信息。
本发明实施例的数据信息分类方法通过预先存储针对所有类别数据信息的样本特征信息以及样本特征信息所对应的数据信息所属的类别,以用于自动获取待分类数据信息的特征信息后确定待分类数据信息的类别,保证了数据信息分类的准确性,提升了数据信息分类的效率。
在一些实施例中,数据信息分类方法,包括:
获取待分类数据信息的特征信息;
根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
如图2所示,在本实施例中,根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别包括:
S21、计算所述特征信息与所述数据信息分类样本中存储的样本特征信息的相似度;
S22、确定最大相似度所对应的数据信息特征信息所属的类别为所述特征信息所对应的待分类数据信息的目标类别。
上述实施例的数据信息分类方法可以用于实现商品的分类,此时,本实施例数据信息分类方法即为:商品分类方法。商品分类方法由处理器自动执行,当工作人员将待分类商品的特征信息输入至处理器后,处理器将根据预设的商品分类样本中存储的相应于每一类商品的样本特征信息与待分类商品的特征信息进行比较,从而确定出待分类商品所属的目标类别。
待分类商品的特征信息至少包括商品名称、商品图片、商品文本信息;样本特征信息至少包括样本商品名称、样本商品图片、样本商品文本信息。
本发明实施例的商品分类方法通过预先存储针对所有类别商品的样本特征信息以及样本特征信息所对应的商品所属的类别,以用于自动获取待分类商品的特征信息后确定待分类商品的类别,保证了商品分类的准确性,提升了商品分类的效率。
在上述实施例中计算待分类商品的特征信息与预设商品分类样本中存储的所有类别的商品的样本特征信息的相似度,从计算得到的多个相似度值中选出相似度最大的一个,并且将这个最大的相似度值所对应的样本特征信息的商品所述的类别确定为待分类商品的目标类别。本实施例中计算相似度的方法为首先对待分类商品的特征信息进行量化,生成相应的一个向量,同样将商品分类样本中存储的所有类别的商品的样本特征信息进行量化,生成相应的多个样本向量,然后将根据待分类商品的特征信息生成的向量分别与商品分类样本中存储的所有类别的商品的样本特征信息进行量化生成相应的多个样本向量逐个计算出多个相似度值。
本实施例中通过分别将待分类商品的特征信息和商品分类样本中存储的所有类别的商品的样本特征信息进行量化,然后再计算根据待分类商品的特征信息确定的向量与根据已知分类的样本特征信息确定的向量的相似度的方法将对商品的分类实现了量化的考量,从而更加保证了对商品分类的准确性与高效性。
在一些实施例中,数据信息分类方法包括:
获取待分类商品的特征信息;
计算所述特征信息与所述商品分类样本中存储的样本特征信息的相似度;
确定最大相似度所对应的商品特征信息所属的类别为所述特征信息所对应的待分类商品的目标类别,所述商品分类样本中至少存储有各类商品的样本特征信息以及相应于每一类商品的样本特征信息所属的类别。
如图3所示,其中,计算所述特征信息与所述商品分类样本中存储的商品特征信息的相似度包括:
S31、根据所述商品名称和所述样本商品名称确定第一相似度;本步骤中可以采用文本相似度计算方法来计算第一相似度;
S32、根据所述商品图片和所述样品商品图片确定第二相似度;本步骤中可以采用图像相似度计算方法来计算第二相似度;
S33、根据所述商品文本信息和所述样本商品文本信息确定第三相似度;本步骤中可以采用文本相似度计算方法来计算第一相似度;
S34、对所述第一相似度、第二相似度和第三相似度进行加权求和以确定所述相似度。
本实施例中在确定待分类商品与商品分类样本中存储的已知分类的商品中的哪一种更相似时同时考虑了三个不同的维度:商品名称、商品图片、商品文本信息,然后通过加权求和的方式综合考虑三个维度得出的三个相似度值来度量待分类商品与已知类别的商品的相似度,从而用于确定出与待分类商品的相似度最高的已知分类的商品,以完成对待分类商品的分类。本实施例避免了单一比较一个维度无法确定待分类商品类别的情况的发生,例如,当商品分类样本中存储的已知分类的商品中有两类“电影”和“玩具”,并且商品名称都是“钢铁侠”,这时如果待分类商品也是“钢铁侠”,则只通过商品名称进行相似度的计算,最后确定的结果必然是,待是被商品可能属于“电影”也可能属于“玩具”,这时候就不能确定了。
本实施例中在计算三个维度的相似度值时,还可以:首先分别将商品名称、商品图片和商品文本信息量化为向量,然后将样本商品名称、样本商品图片和样本商品文本信息量化为向量,最后采用余弦相似度算法再分别计算出三个相似度值。
本实施例中对三个相似度值进行加权求和的时分别为三个相似度值分配一个加权系数,三个加权系数的取值可以根据三个相似度值在确定待分类商品的分类中所起的作用的大小来具体确定,例如:三个加权系数可以分别为1,这时考虑的情况是三个相似度值在确定待分类商品的类别时所起的作用大小相同;也可以是三个加权系数之和为1,并且为对确定待分类商品的类别起决定性作用个相似度值分配较大的加权系数。
本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图4所示,本发明的实施例还提供一种数据信息分类系统,包括:
特征信息获取模块,用于获取待分类数据信息的特征信息;
目标类别确定模块,用于根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
本发明实施例的数据信息分类系统中,通过预先存储针对所有类别数据信息的样本特征信息以及样本特征信息所对应的数据信息所属的类别,以用于特征信息获取模块自动获取待分类数据信息的特征信息后,目标类别确定模块确定待分类数据信息的类别,保证了数据信息分类的准确性,提升了数据信息分类的效率。
如图5所示,在一些实施例中,目标类别确定模块包括:
相似度计算单元,用于计算所述特征信息与所述数据信息分类样本中存储的样本特征信息的相似度;
目标类别确定单元,用于确定最大相似度所对应的数据信息特征信息所属的类别为所述特征信息所对应的待分类商品的目标类别。
此时,上述实施例的数据信息分类系统包括:特征信息获取模块和目标类别确定模块,而目标类别确定模块又进一步包括相似度计算单元和目标类别确定单元。
在本实施例中,数据信息为与商品的类别相关的信息,这时上述实施例中的数据信息分类系统就是商品类别分类系统,本实施例的商品分类系统通过预先存储针对所有类别商品的样本特征信息以及样本特征信息所对应的商品所属的类别,以用于特征信息获取模块自动获取待分类数据信息的特征信息后,相似度计算单元和目标类别确定单元共同确定待分类商品的类别,保证了商品分类的准确性,提升了商品分类的效率。
在一些实施例中,特征信息至少包括数据信息名称、数据信息图片、数据信息文本信息;所述样本特征信息至少包括样本数据信息名称、样本数据信息图片、样本数据信息文本信息。当本实施例的数据信息分类系统用于商品分类时,特征信息至少包括商品名称、商品图片、商品文本信息;所述样本特征信息至少包括样本商品名称、样本商品图片、样本商品文本信息。
如图6所示,在一些实施例中,相似度计算单元包括:
第一相似度计算组件,用于根据所述商品名称和所述样本商品名称确定第一相似度;
第二相似度计算组件,用于根据所述商品图片和所述样品商品图片确定第二相似度;
第三相似度计算组件,用于根据所述商品文本信息和所述样本商品文本信息确定第三相似度;
加权求和组件,用于对所述第一相似度、第二相似度和第三相似度进行加权求和以确定所述相似度。
此时,上述商品分类系统包括:特征信息获取模块和目标类别确定模块,而目标类别确定模块又进一步包括相似度计算单元和目标类别确定单元,相似度计算单元进一步包括第一相似度计算组件、第二相似度计算组件、第三相似度计算组件和加权求和组件。
上述本发明实施例的商品分类系统可用于执行本发明实施例的商品分类方法,并相应的达到上述本发明实施例的商品分类方法所达到的技术效果,这里不再赘述。
另一方面,本发明的实施例还公开一种服务器,本发明的服务器布设了本发明上述任一实施例所述的商品分类系统,并相应的执行本发明上述实施例所述的商品分类方法。
另一方面,本发明的实施例还公开一种机房,本发明的机房中包括了多个服务器,本实施例中的多个服务器中的至少一个布设了本发明上述任一实施例所述的商品分类系统,并相应的执行本发明上述实施例所述的商品分类方法。
在一些实施例中,上述公开的服务器包括:
存储器,用于存放计算机操作指令;
处理器,用于执行所述存储器存储的计算机操作指令,以执行:
获取待分类商品的特征信息;
根据所述特征信息和预设的商品分类样本确定所述待分类商品的目标类别,所述商品分类样本中至少存储有各类商品的样本特征信息以及相应于每一类商品的样本特征信息所属的类别。
如图7所示,为本发明上述实施例中服务器一实施例的结构示意图,本申请具体实施例并不对服务器700的具体实现做限定,其包括:
处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730、以及通信总线740。其中:
处理器710、通信接口720、以及存储器730通过通信总线740完成相互间的通信。
通信接口720,用于与比如第三方访问端等的网元通信。
处理器710,用于执行程序732,具体可以执行上述方法实施例中的相关步骤。
具体地,程序732可以包括程序代码,所述程序代码包括计算机操作指令。
处理器710可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种数据信息分类方法,包括:
获取待分类数据信息的特征信息;
根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
2.根据权利要求1所述的方法,其中,所述根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别包括:
计算所述特征信息与所述数据信息分类样本中存储的样本特征信息的相似度;
确定最大相似度所对应的样本特征信息所属的类别为所述特征信息所对应的待分类数据信息的目标类别。
3.根据权利要求2所述的方法,其中,所述特征信息至少包括数据信息名称、数据信息图片、数据信息文本信息;所述样本特征信息至少包括样本数据信息名称、样本数据信息图片、样本数据信息文本信息。
4.根据权利要求3所述的方法,其中,所述计算所述特征信息与所述数据信息分类样本中存储的样本特征信息的相似度包括:
根据所述数据信息名称和所述样本数据信息名称确定第一相似度;
根据所述数据信息图片和所述样品数据信息图片确定第二相似度;
根据所述数据信息文本信息和所述样本数据信息文本信息确定第三相似度;
对所述第一相似度、第二相似度和第三相似度进行加权求和以确定所述相似度。
5.一种商品分类系统,包括:
特征信息获取模块,用于获取待分类数据信息的特征信息;
目标类别确定模块,用于根据所述特征信息和预设的数据信息分类样本确定所述待分类数据信息的目标类别,所述数据信息分类样本中至少存储有各类数据信息的样本特征信息以及相应于每一类数据信息的样本特征信息所属的类别。
6.根据权利要求5所述的系统,其中,所述目标类别确定模块包括:
相似度计算单元,用于计算所述特征信息与所述数据信息分类样本中存储的样本特征信息的相似度;
目标类别确定单元,用于确定最大相似度所对应的样本特征信息所属的类别为所述特征信息所对应的待分类数据信息的目标类别。
7.根据权利要求6所述的系统,其中,所述特征信息至少包括数据信息名称、数据信息图片、数据信息文本信息;所述样本特征信息至少包括样本数据信息名称、样本数据信息图片、样本数据信息文本信息。
8.根据权利要求7所述的系统,其中,所述相似度计算单元包括:
第一相似度计算组件,用于根据所述数据信息名称和所述样本数据信息名称确定第一相似度;
第二相似度计算组件,用于根据所述数据信息图片和所述样品数据信息图片确定第二相似度;
第三相似度计算组件,用于根据所述数据信息文本信息和所述样本数据信息文本信息确定第三相似度;
加权求和组件,用于对所述第一相似度、第二相似度和第三相似度进行加权求和以确定所述相似度。
CN201610487619.9A 2016-06-28 2016-06-28 数据信息分类方法及系统 Pending CN106096042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610487619.9A CN106096042A (zh) 2016-06-28 2016-06-28 数据信息分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610487619.9A CN106096042A (zh) 2016-06-28 2016-06-28 数据信息分类方法及系统

Publications (1)

Publication Number Publication Date
CN106096042A true CN106096042A (zh) 2016-11-09

Family

ID=57214987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610487619.9A Pending CN106096042A (zh) 2016-06-28 2016-06-28 数据信息分类方法及系统

Country Status (1)

Country Link
CN (1) CN106096042A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319626A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN108491873A (zh) * 2018-03-19 2018-09-04 广州建翎电子技术有限公司 一种基于数据分析的商品分类方法
CN109272367A (zh) * 2017-07-17 2019-01-25 北京京东尚科信息技术有限公司 信息处理方法和装置
CN110727816A (zh) * 2018-06-29 2020-01-24 百度在线网络技术(北京)有限公司 兴趣点类别确定方法和装置
CN112948370A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 数据分类方法、装置以及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319626A (zh) * 2017-01-18 2018-07-24 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN108319626B (zh) * 2017-01-18 2022-06-03 阿里巴巴集团控股有限公司 一种基于名称信息的对象分类方法与设备
CN109272367A (zh) * 2017-07-17 2019-01-25 北京京东尚科信息技术有限公司 信息处理方法和装置
CN108491873A (zh) * 2018-03-19 2018-09-04 广州建翎电子技术有限公司 一种基于数据分析的商品分类方法
CN108491873B (zh) * 2018-03-19 2019-05-14 广州蓝深科技有限公司 一种基于数据分析的商品分类方法
CN110727816A (zh) * 2018-06-29 2020-01-24 百度在线网络技术(北京)有限公司 兴趣点类别确定方法和装置
CN112948370A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 数据分类方法、装置以及计算机设备

Similar Documents

Publication Publication Date Title
CN106096042A (zh) 数据信息分类方法及系统
Ashish et al. Parallel bat algorithm-based clustering using mapreduce
CN109564575A (zh) 使用机器学习模型来对图像进行分类
Xu et al. An efficient load balancing algorithm for virtual machine allocation based on ant colony optimization
CN107133221A (zh) 信息审核方法、装置、计算机可读介质和电子设备
CN110322300B (zh) 数据处理方法及装置、电子设备、存储介质
Kaur et al. A multi-objective optimization scheme for job scheduling in sustainable cloud data centers
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
US10678821B2 (en) Evaluating theses using tree structures
CN112231570A (zh) 推荐系统托攻击检测方法、装置、设备及存储介质
Azadi et al. Efficiency measurement of cloud service providers using network data envelopment analysis
CN110866625A (zh) 促销指标信息生成方法和装置
US11979309B2 (en) System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation
CN112749323A (zh) 一种构建用户画像的方法和装置
CN110084255A (zh) 异常数据的检测方法和装置
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
Meng et al. The classification of traditional Chinese painting based on CNN
CN114742645B (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
Kustikova et al. DLI: deep learning inference benchmark
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
CN109949090A (zh) 客户推荐方法、装置、电子设备及介质
Sbih et al. Towards Efficient Ensemble Method for Bug Triaging.
CN114780847A (zh) 一种对象信息处理、信息推送方法、装置和系统
Xiang et al. Feature propagation on graph: A new perspective to graph representation learning
Zhang et al. Complex background modeling based on texture pattern flow with adaptive threshold propagation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161109