CN113128211A - 一种物品分类方法及装置 - Google Patents

一种物品分类方法及装置 Download PDF

Info

Publication number
CN113128211A
CN113128211A CN202010037908.5A CN202010037908A CN113128211A CN 113128211 A CN113128211 A CN 113128211A CN 202010037908 A CN202010037908 A CN 202010037908A CN 113128211 A CN113128211 A CN 113128211A
Authority
CN
China
Prior art keywords
item
word
name
article
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010037908.5A
Other languages
English (en)
Inventor
李伟伟
陈士亮
姜婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN202010037908.5A priority Critical patent/CN113128211A/zh
Publication of CN113128211A publication Critical patent/CN113128211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种物品分类方法及装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待分类物品的第一物品名称;根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库分别对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;将所述待分类物品分类至最大的第一分类参数所对应的品类。该实施方式提高了物品分类的准确性和效率。

Description

一种物品分类方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种物品分类方法及装置。
背景技术
在电商平台或仓储物流等场景下,一般根据物品所属的品类对物品进行管理,因此,对物品进行准确的分类,对物品的高效管理具有重要意义。
现有技术对物品进行分类时,一般是根据管理人员的经验,对物品进行分类。而电商平台或仓储物流等场景中,物品数量和种类均较多,管理人员难以准确的对大量物品进行准确分类,从而容易导致物品的错误分类,进而降低物品的管理效率。
发明内容
有鉴于此,本发明实施例提供一种物品分类方法及装置,能够根据待分类物品的第一名称分别对应于不同品类的分类参数对待分类物品进行分类,提高了物品分类的准确性,进而提高了物品的管理效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种物品分类的方法。
本发明实施例的一种物品分类的方法包括:
获取待分类物品的第一物品名称;
根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;
根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库分别对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;
将所述待分类物品分类至最大的第一分类参数所对应的品类。
可选地,所述第一权重值为所述第二分词对应于所述多个品类词库中的词频-逆向文件频率。
可选地,
所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;
删除所述品类词库中所述第二分类参数小于阈值的第二物品名称,并递减所述第二分类参数小于阈值的第二物品名称对应的第二分词在所述品类词库出现的次数,以对所述品类词库进行更新。
可选地,
根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
可选地,
根据无用词词典和专名识别词典,对所述第一物品名称和/或第二物品名称进行分词。
为实现上述目的,根据本发明实施例的又一方面,提供了一种物品分类的装置。
本发明实施例的一种物品分类的装置包括:分词模块、计算模块和分类模块;其中,
所述分词模块,用于获取待分类物品的第一物品名称,根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;
所述计算模块,用于根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;
所述分类模块,用于将所述待分类物品分类至最大的第一分类参数所对应的品类。
可选地,
所述第一权重值为所述第二分词对应于所述多个品类词库中的词频-逆向文件频率。
可选地,
所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;
所述分类模块,还用于从所述品类词库中删除所述第二分类参数小于阈值的第二物品名称,并递减所述第二分类参数小于阈值的第二物品名称对应的第二分词在所述品类词库出现的次数,以对所述品类词库进行更新。
可选地,
所述计算模块,还用于根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
可选地,
所述分词模块,用于根据无用词词典和专名识别词典,对所述第一物品名称和/或所述第二物品名称进行分词。
为实现上述目的,根据本发明实施例的又一方面,提供了一种物品分类的电子设备。
本发明实施例的一种物品分类的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种物品分类的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读存储介质。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种物品分类的方法。
上述发明中的一个实施例具有如下优点或有益效果:结合对待分类物品的第一物品名称的分词得到的第一分词、以及不同品类分别对应的品类词库中与第一分词相同的第二分词的权重值,计算第一物品名称对应的分类参数,然后将待分类物品最大的分类参数所对应的品类。由此,根据待分类物品的第一名称分别对应于不同品类的分类参数对待分类物品进行分类,提高了物品分类的准确性,进而提高了物品的管理效率。并且,分类过程采用无监督学习的方法,有利于提高分类效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的物品分类的方法的主要步骤的示意图;
图2是根据本发明实施例的品类词库的生成方法的主要步骤的示意图;
图3是根据本发明实施例的物品分类的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例的物品分类方法的主要步骤的示意图。
如图1所示,本发明实施例的物品分类方法主要包括以下步骤:
步骤S101:获取待分类物品的第一物品名称。
在电商平台或仓储物流等场景下,物品名称一般包括有关于物品的品牌、品类、材质、大小和规格等属性的描述,因此可以根据物品名称对物品进行分类。
步骤S102:根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词。
在分词时,可以根据预先生成的无用词词典和专名识别词典,对所述第一物品名称进行分词。在采用分词器(如jieba分词器)分词的过程中,同时使用无用词词典和专名识别词典,以提高分词结果的准确性。
预先生成无用词词典时,可根据物品名称中对物品识别没有帮助的词来生成,例如物品名称中的标点符合(逗号、括号和冒号等)和物品名称中的无用词(新款、配送和品牌等)均属于对物品识别没有帮助的词,将这些无用词和符号的集合作为无用词词典。
另外,随着商品的不断迭代更新,一些新词将不断出现,如UPS电源和4K高清等,这些新词可以代表这个物品属于哪个品类,例如当物品名称中包含“UPS电源”时,即可认为该物品名称对应的物品为电脑服务类,当物品名称中包含“4K高清”时,即可认为该物品名称对应的物品为电视类。由于这些词可直接代表物品所属品类,因此为了保证分类准确性,在分词时不能对这些词进行分词,因此,可根据在分词时不能被切分的词构建专名识别词典,在分词过程中,结合专名识别词典分词,即可将这些词看作命名实体,采用命名实体识别方式识别出物品名称中的命名实体,避免对命名实体进行分词,从而提高分词结果的准确性。
例如,采用jieba分词器对第一物品名称“大头人datouren创意小夜灯充电遥控感应调光定时床头婴儿宝宝喂奶灯卧室睡眠夜光灯”分词时,根据无用词词典和专名识别词典,得到的第一分词是:大头人/创意/小/夜灯/充电/感应/调光/定时/床头/婴儿/宝宝/喂奶/灯卧/室/睡眠/夜光/灯。可以理解的是,此处两个第一分词之间的“/”仅为了表示两个第一分词之间的切分,其本身并不属于第一分词。
步骤S103:根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库分别对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的。
其中,所述第一权重值为所述第二分词对应于所述多个品类词库中的TF-IDF值(term frequency–inverse document frequency,词频-逆向文件频率)。可在构建品类词库时,预先计算多个品类词库中第二分词的TF-IDF值,以在接收到待分类物品的第一物品名称之后,直接根据品类词库中第二分词的TF-IDF值,计算第一物品名称对应于不同品类的分类参数,从而提高分类效率。也就是说,品类词库中不仅存储有第二分词,还存储有每个第二分词所对应的TF-IDF值。
在本发明一个实施方式中,可采取如图2所示的方法分别生成不同品类分别对应的品类词库,其中,图2所示的方法为生成品类A的品类词库的方法。
步骤S201:确定属于品类A的物品的多个第二物品名称。
此步骤可根据现有的物品的分类结果来确定,也就是说,可根据管理人员人为的分类结果来确定。例如,确定出的第二物品名称为“品牌A电视4X 55英寸L55M5-AD 2GB+8GBHDR 4K超高清蓝牙语音遥控人工智能语音网络液晶平板电视”和“品牌B H55E3A 55英寸超高清4K HDR金属背板人工智能电视丰富影视教育资源”
步骤S202:将确定出的多个第二物品名称进行拼接,生成品类A对应的短文本。
在拼接时,可采用特定连接符连接不同的第二物品名称,例如,采用“/”连接不同的第二物品名称,则在此例中,形成的品类A对应的短文本为“品牌A电视4X 55英寸L55M5-AD 2GB+8GB HDR 4K超高清蓝牙语音遥控人工智能语音网络液晶平板电视/品牌B H55E3A55英寸超高清4K HDR金属背板人工智能电视丰富影视教育资源”。
值得一提的是,此步骤主要为了便于后续对多个第二物品名称进行分词,在具体实施过程中,也可以省略该步骤,即无需拼接而直接对多个第二物品名称进行分词。
步骤S203:按照预先生成的无用词词典和专名识别词典,利用分词器对短文本进行分词,以形成品类A对应的多个第二分词,将多个第二分词的集合作为品类A对应的品类词库A。
在这里,利用与第一物品名称相同的分词规则和方法,对短文本进行分词,例如采用jieba分词器,并同时使用无用词词典和专名识别词典,对短文本进行分词,以形成品类A对应的多个第二分词,形成的第二分词的集合即为品类A对应的品类词库。
在形成品类词库后,可计算品类词库中每个第二分词的TF-IDF值,计算时,可先计算品类词库中每个第二分词对应的词频TF1,再计算每个第二分词对应的逆向文件频率IDF1,最后将同一个第二分词对应的TF1与TDF1的乘积作为该第二分词对应于多个品类词库的第一权重值TF-IDF1。
下面以计算品类词库A中的第二分词的TF-IDF1为例,对TF-IDF1的计算过程进行详细说明。
首先,可计算品类词库A中每个第二分词对应的TF1,TF1可采用如下公式(1)进行计算:
Figure BDA0002366688040000091
其中,TF1i表征品类词库A中第二分词i的词频,C1i表征第二分词i在品类词库中出现的次数,C1N表征品类词库A中第二分词的总数量。
例如,品类词库A中第二分词1出现的次数为5次,品类词库A中的第二分词的总数量为50个,则第二分词1的TF1为1/10。
然后,计算品类词库A中每个第二分词对应的ID1F,IDF1可采用如下公式(2)进行计算:
Figure BDA0002366688040000092
其中,IDF1i表征品类词库A中第二分词i的逆向文件频率,K1表征多个品类词库的总数量,k1i表征包含第二分词i的品类词库的数量。
例如,多个品类词库的总数量为10,其中包含第二分词1的品类词库的数量有3个,则第二分词1对应于多个品类词库的IDF1为
Figure BDA0002366688040000093
在计算出品类词库中每个第二分词对应的TF1和IDF1之后,即可将TF1与IDF1的乘积作为该第二分词的第一权重值TF-IDF1,在此例中,品类词库A中的第二分词1的TF-IDF1为
Figure BDA0002366688040000094
可以理解的是,在品类词库的生成过程中,不同的第二物品名称可能切分出相同的第二分词,使得同一个第二分词出现多次,为了节省存储空间,以及便于后续对第二分词的查找,在存储品类词库时,对不同第二物品名称分词得到的相同第二分词仅存储一次即可,在计算出每个第二分词的第一权重值TF-IDF1之后,还可对应存储每个第二分词的TF-IDF,品类词库的一种存储方式可如下表1所示:
表1
第二分词 第一权重值
第二分词1 TF-IDF-1
第二分词2 TF-IDF-2
…… ……
第二分词n TF-IDF-n
可以理解的是,表1所示的方式仅为本发明实施例提供的一种可行的品类词库的存储方式,品类词库也可以在存储第二分词的同时,还存储第二物品名称。
在本发明一个实施例中,所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;为了对物品进行更精准的分类,删除所述品类词库中所述第二分类参数小于阈值的第二物品名称,以及所述第二分类参数小于阈值的第二物品名称对应的第二分词,以对所述品类词库进行更新,然后可进一步根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
其中,第二权重值可为第二分词在其所属品类词库中的词频-逆向文件频率TF-IDF2,与第一权重值的计算过程相似,在计算第二权重值时,可先计算第二分词对应于其所属第二物品名称的词频TF2,再计算第二分词对应于其所属品类词库的逆向文件频率IDF2,然后将第二分词的TF2与IDF2作为该第二分词的第二权重值TF-IDF2。
以计算品类词库B中第二分词的第二权重值为例,对第二权重值的计算过程进行详细说明,首先,可根据以下公式(3)计算第二分词的TF2:
Figure BDA0002366688040000111
其中,TF2i表征品类词库B中第二分词i在第二物品名称j的词频,C1i表征第二分词i在第二物品名称j出现的次数,C1Nj表征品类词库B中的第二物品名称j对应的第二分词的总数量。
然后,可利用下述公式(4)计算第二分词的IDF2:
Figure BDA0002366688040000112
其中,IDF1i表征品类词库B中第二分词i的逆向文件频率,K2表征品类词库B中第二物品名称的总数量,ki表征品类词库B中包含第二分词i的第二物品名称的数量。
然后,可根据计算得到的每个第二分词的TF2与IDF2,将TF2与IDF2的乘积作为该第二分词的第二权重值。
例如,品类词库B包括四个第二物品名称,这四个第二物品名称分别为:“品牌1/物品1”“品牌2/物品1”“品牌3/物品1”和“品牌2/物品2”,则品类词库B中包括的第二分词为“品牌1”“品牌2”“品牌3”“物品1”和“物品2”,根据上述计算公式(3)和计算公式(4),品类词库B中各个第二分词对应的TF值和IDF值可如表2所示,表1中的第二物品名称1即为“品牌1/物品1”,第二物品名称2即为“品牌2/物品1”,第二物品名称3即为“品牌3/物品1”,第二物品名称4即为“品牌2/物品2”。
表2
Figure BDA0002366688040000113
Figure BDA0002366688040000121
在计算得到品类词库中每个第二分词对应的第二权重值TF-IDF2之后,可根据同一第二物品名称分词得到的多个第二分词的TF-IDF2,计算该第二物品名称的第二分类参数,在本发明一个实施方式中,可利用下述计算公式5计算所述第二分类参数:
Figure BDA0002366688040000122
其中,Vj表征所述第二物品名称j对应的第二分类参数,TF-IDF2ij表征第二物品名称j分词得到的第二分词i的第二权重值,C2Nj表征第二物品名称j分词得到的第二分词的总数量。
由于TF-IDF可用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,因此,当基于第二权重值TF-IDF2得到的第二分类参数越小时,对应的第二物品名称的分类越异常,甚至该第二物品名称根本不属于该品类词库,这很可能是现有分类结果中由于管理人员的错误分类导致的,为了保证分类的准确性,将第二分类参数小于阈值的第二物品名称及其对应的第二分词从品类词库中删除。
可以理解的是,从品类词库中删除第二分类参数小于阈值的第二物品名称对应的第二分词时,并非删除第二分词本身,而是递减该第二分词在品类词库中出现的次数,由此对品类词库进行更新。品类词库更新后,相应第二分词出现的次数会发生变化,则计算第一权重值时,与这些第二分词的次数相关的数值也随之变化,为了提高分类准确性,可根据更新后的品类词库,重新确定各个第二分词对应的第一权重值。
当然,也可在建立某个品类对应的品类词库时,利用上述公式(3)至公式(5)先计算各个第二物品名称对应于品类词库的第二分类参数,然后删除第二分类参数小于阈值的第二物品名称,然后根据删除第二分类参数小于阈值的第二物品名称之后的品类词库,进一步计算各个第二分词的第一权重值,以提高第一权重值的准确性,从而提高物品分类的准确性。
在根据与第一分词相同的第二分词的第一权重值计算第一物品名称对应于多个品类的第一分类参数时,可将与多个第一分词相同的多个第二分词的第一权重值TF-IDF1之和作为第一分类参数。例如,第一物品名称对应的第一分词为第一分词1和第二分词2,且具有两个品类词库(品类词库A和品类词库B)时,先确定第一物品名称分别对应于两个品类词库的第一分类参数。比如,在品类词库A中,与第一分词1和第二分词2分别相同的第二分词为第二分词A1和第二分词A2,第二分词A1的TF-IDF1为a1,第二分词A2的TF-IDF1为a2,则第一物品名称对应于品类A的第一分类参数为a1+a2。另外,在品类词库B中,与第一分词1和第二分词2分别相同的第二分词为第二分词B1和第二分词B2,第二分词B1的TF-IDF1为b1,第二分词B2的TF-IDF1为b2,则第一物品名称对应于品类B的第一分类参数为b1+b2。
步骤S104:将所述待分类物品分类至最大的分类参数所对应的品类。
例如,当第一物品名称对应于品类A的第一分类参数为a1+a2,第一物品名称对应于品类B的第一分类参数为b1+b2,且(a1+a2)>(b1+b2)时,将第一物品名称对应的待分类物品分类至品类A中。
综上所述,在本发明实施例提供的物品分类方法中,采用无监督学习的方法,相较于现有技术中常使用的textCNN方式(有监督学习),无需多轮迭代,计算和分类速度快,提高了物品分类的效率。
根据本发明实施例的物品分类方法可以看出,结合对待分类物品的第一物品名称的分词得到的第一分词、以及不同品类分别对应的品类词库中与第一分词相同的第二分词的权重值,计算第一物品名称对应的分类参数,然后将待分类物品最大的分类参数所对应的品类。由此,根据待分类物品的第一名称分别对应于不同品类的分类参数对待分类物品进行分类,提高了物品分类的准确性,进而提高了物品的管理效率。并且,分类过程采用无监督学习的方法,有利于提高分类效率。
图3是根据本发明实施例的物品分类的装置的主要模块的示意图。
如图3所示,本发明实施例的物品分类的装置300包括:分词模块301、计算模块302和分类模块303;其中,
所述分词模块301,用于获取待分类物品的第一物品名称,根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;
所述计算模块302,用于根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;
所述分类模块303,用于将所述待分类物品分类至最大的第一分类参数所对应的品类。
在本发明一个实施例中,所述第一权重值为所述第二分词对应于所述多个品类词库中的词频-逆向文件频率。
在本发明一个实施例中,所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;
所述分类模块303,还用于从所述品类词库中删除所述第二分类参数小于阈值的第二物品名称,并递减所述第二分类参数小于阈值的第二物品名称对应的第二分词在所述品类词库出现的次数,以对所述品类词库进行更新。
在本发明一个实施例中,所述计算模块302,还用于根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
在本发明一个实施例中,所述分词模块,用于根据无用词词典和专名识别词典,对所述第一物品名称和/或所述第二物品名称进行分词。
根据本发明实施例的物品分类的装置可以看出,结合对待分类物品的第一物品名称的分词得到的第一分词、以及不同品类分别对应的品类词库中与第一分词相同的第二分词的权重值,计算第一物品名称对应的分类参数,然后将待分类物品最大的分类参数所对应的品类。由此,根据待分类物品的第一名称分别对应于不同品类的分类参数对待分类物品进行分类,提高了物品分类的准确性,进而提高了物品的管理效率。并且,分类过程采用无监督学习的方法,有利于提高分类效率。
图4示出了可以应用本发明实施例的物品分类的方法或物品分类的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的物品分类的方法一般由服务器405执行,相应地,物品分类的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词模块、计算模块和分类模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分词模块还可以被描述为“根据分词规则对所述第一物品名称进行分词的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取待分类物品的第一物品名称;根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库分别对应于不同的多个品类,所述品类词库包括:通过所述分词规则对属于所述品类的物品的第二物品名称分词所得到的第二分词;将所述待分类物品分类至最大的第一分类参数所对应的品类。
根据本发明实施例的技术方案,结合对待分类物品的第一物品名称的分词得到的第一分词、以及不同品类分别对应的品类词库中与第一分词相同的第二分词的权重值,计算第一物品名称对应的分类参数,然后将待分类物品最大的分类参数所对应的品类。由此,根据待分类物品的第一名称分别对应于不同品类的分类参数对待分类物品进行分类,提高了物品分类的准确性,进而提高了物品的管理效率。并且,分类过程采用无监督学习的方法,有利于提高分类效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种物品分类的方法,其特征在于,包括:
获取待分类物品的第一物品名称;
根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;
根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库分别对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;
将所述待分类物品分类至最大的第一分类参数所对应的品类。
2.根据权利要求1所述的方法,其特征在于,
所述第一权重值为所述第二分词对应于所述多个品类词库中的词频-逆向文件频率。
3.根据权利要求1所述的方法,其特征在于,
所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;
删除所述品类词库中所述第二分类参数小于阈值的第二物品名称,并递减所述第二分类参数小于阈值的第二物品名称对应的第二分词在所述品类词库出现的次数,以对所述品类词库进行更新。
4.根据权利要求3所述的方法,其特征在于,还包括:
根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
5.根据权利要求1所述的方法,其特征在于,
根据无用词词典和专名识别词典,对所述第一物品名称和/或第二物品名称进行分词。
6.一种物品分类的装置,其特征在于,包括:分词模块、计算模块和分类模块;其中,
所述分词模块,用于获取待分类物品的第一物品名称,根据分词规则对所述第一物品名称进行分词,以获得所述第一物品名称对应的第一分词;
所述计算模块,用于根据多个品类词库中与所述第一分词相同的第二分词的第一权重值,计算所述第一物品名称分别对应于多个品类的第一分类参数;所述多个品类词库对应于不同的品类,每一个所述品类词库包括:多个第二分词,所述第二分词是根据所述分词规则对属于所述品类词库所对应的品类的第二物品名称进行分词而得到的;
所述分类模块,用于将所述待分类物品分类至最大的第一分类参数所对应的品类。
7.根据权利要求6所述的装置,其特征在于,
所述第一权重值为所述第二分词对应于所述多个品类词库中的词频-逆向文件频率。
8.根据权利要求6所述的装置,其特征在于,
所述品类词库还包括:属于所述品类词库所对应的品类的第二物品名称、以及所述第二物品名称对应于所述品类词库的第二分类参数;所述第二分类参数是根据所述第二物品名称分词得到的第二分词对应于所述品类词库的第二权重值所得到的;
所述分类模块,还用于从所述品类词库中删除所述第二分类参数小于阈值的第二物品名称,并递减所述第二分类参数小于阈值的第二物品名称对应的第二分词在所述品类词库出现的次数,以对所述品类词库进行更新。
9.根据权利要求8所述的装置,其特征在于,
所述计算模块,还用于根据更新后的品类词库,确定所述品类词库中所述第二分词对应的第一权重值。
10.根据权利要求1所述的方法,其特征在于,
所述分词模块,用于根据无用词词典和专名识别词典,对所述第一物品名称和/或所述第二物品名称进行分词。
11.一种物品分类的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202010037908.5A 2020-01-14 2020-01-14 一种物品分类方法及装置 Pending CN113128211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037908.5A CN113128211A (zh) 2020-01-14 2020-01-14 一种物品分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037908.5A CN113128211A (zh) 2020-01-14 2020-01-14 一种物品分类方法及装置

Publications (1)

Publication Number Publication Date
CN113128211A true CN113128211A (zh) 2021-07-16

Family

ID=76771122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037908.5A Pending CN113128211A (zh) 2020-01-14 2020-01-14 一种物品分类方法及装置

Country Status (1)

Country Link
CN (1) CN113128211A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182218A (ja) * 2003-12-17 2005-07-07 Ishikawa Pref Gov 辞書編集装置、文書分類装置及びそのプログラム
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
WO2013122205A1 (ja) * 2012-02-15 2013-08-22 楽天株式会社 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
WO2019034087A1 (zh) * 2017-08-16 2019-02-21 北京京东尚科信息技术有限公司 用户偏好确定方法、装置、设备及存储介质
CN110209811A (zh) * 2019-04-30 2019-09-06 上海艾瑞市场咨询股份有限公司 一种商品自动分类方法及系统
CN110442708A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于粒度计算的信息分类方法
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182218A (ja) * 2003-12-17 2005-07-07 Ishikawa Pref Gov 辞書編集装置、文書分類装置及びそのプログラム
WO2013122205A1 (ja) * 2012-02-15 2013-08-22 楽天株式会社 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN104915356A (zh) * 2014-03-13 2015-09-16 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
WO2019034087A1 (zh) * 2017-08-16 2019-02-21 北京京东尚科信息技术有限公司 用户偏好确定方法、装置、设备及存储介质
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
CN110209811A (zh) * 2019-04-30 2019-09-06 上海艾瑞市场咨询股份有限公司 一种商品自动分类方法及系统
CN110442708A (zh) * 2019-06-24 2019-11-12 厦门美域中央信息科技有限公司 一种基于粒度计算的信息分类方法
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN108153901B (zh) 基于知识图谱的信息推送方法和装置
US10977311B2 (en) Dynamically modifying elements of user interface based on knowledge graph
CN107436875B (zh) 文本分类方法及装置
US10102191B2 (en) Propagation of changes in master content to variant content
US10579655B2 (en) Method and apparatus for compressing topic model
WO2014107801A1 (en) Methods and apparatus for identifying concepts corresponding to input information
US20180107733A1 (en) Optimizing faceted classification through facet range identification
US10248696B2 (en) Methods and systems for searching enterprise data
CN110275962B (zh) 用于输出信息的方法和装置
CN112668320A (zh) 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
US20140379723A1 (en) Automatic method for profile database aggregation, deduplication, and analysis
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US10699078B2 (en) Comment-centered news reader
CN116340617A (zh) 一种搜索推荐方法和装置
CN114201622B (zh) 获取事件信息的方法、装置、电子设备和存储介质
CN113128211A (zh) 一种物品分类方法及装置
CN111368036B (zh) 用于搜索信息的方法和装置
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN111783808A (zh) 用于生成信息的方法和装置
CN112926295A (zh) 模型推荐方法和装置
CN111274383B (zh) 一种应用于报价的分类对象方法和装置
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
CN109978645B (zh) 一种数据推荐方法和装置
CN113742321A (zh) 一种数据更新的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination