CN112380349A - 商品性别分类方法、装置及电子设备 - Google Patents

商品性别分类方法、装置及电子设备 Download PDF

Info

Publication number
CN112380349A
CN112380349A CN202011414577.9A CN202011414577A CN112380349A CN 112380349 A CN112380349 A CN 112380349A CN 202011414577 A CN202011414577 A CN 202011414577A CN 112380349 A CN112380349 A CN 112380349A
Authority
CN
China
Prior art keywords
commodity
information
classification
target
gender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011414577.9A
Other languages
English (en)
Inventor
黄于晏
李百川
钟媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202011414577.9A priority Critical patent/CN112380349A/zh
Publication of CN112380349A publication Critical patent/CN112380349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Abstract

本发明公开了一种商品性别分类方法、装置及电子设备,提取目标商品的商品信息,商品信息包括商品详情信息和商品参数信息;利用文本分类模型对商品详情信息进行处理,获得目标商品的性别分类的第一预测结果;利用决策树预测模型对商品参数信息进行处理,获得目标商品的性别分类的第二预测结果;基于第一预测结果和第二预测结果,计算得到目标商品的性别分类结果。本发明利用模型对商品性别分类进行预测,无需通过人工分析,提升了商品性别分类的处理效率,并且针对商品信息的不同属性利用不同的预测模型进行性别分类结果预测,最终根据不同模型的预测结果综合得到了目标商品的分类结果,提升了预测的准确性。

Description

商品性别分类方法、装置及电子设备
技术领域
本发明涉及信息处理技术领域,特别是涉及一种商品性别分类方法、装置及电子设备。
背景技术
随着互联网技术的发展,越来越多的用户通过网络进行购物。因此,用户更为关注的是如何从大量信息中找到与自己匹配的商品,目前电商平台的处理器会根据用户特征、商品属性等信息为用户推荐相应的商品。
以根据性别信息获取目标商品为例,在处理器对产品信息进行分析时,通常需要对商品相关信息进行挖掘,如通过提取关键词的方式来确定商品对应的性别标签,但是这种方式需要依赖人工业务经验对关键词进行分析,在商品数量越来越多、涉及范围越来越广的应用场景下,该处理方式使得商品性别分类效率低以及准确性较差。
发明内容
针对于上述问题,本发明一种商品性别分类方法,提升了商品性别分类效率和准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种商品性别分类方法,包括:
提取目标商品的商品信息,所述商品信息包括商品详情信息和商品参数信息;
利用文本分类模型对所述商品详情信息进行处理,获得所述目标商品的性别分类的第一预测结果;
利用决策树预测模型对所述商品参数信息进行处理,获得所述目标商品的性别分类的第二预测结果;
基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果。
可选地,所述方法还包括:
基于样本数据,创建文本分类模型,包括:
提取样本数据的商品详情信息中的文本信息;
在所述文本信息中,获取包括性别分类特征的目标文本;
对所述目标文本进行拼接,得到文本数据;
确定所述文本数据的分类标签,将具有分类标签的文本数据确定为训练样本;
生成所述训练样本的词向量,并将所述词向量在初始模型中进行训练;
依据训练结果对所述初始模型进行参数调整,获得文本分类模型。
可选地,所述方法还包括:
基于商品参数信息的样本集,创建决策树预测模型,包括:
获取商品参数信息的样本集;
至少提取所述样本集中的第一属性参数和第二属性参数;
分别创建所述第一属性参数第一决策树的和所述第二属性参数的第二决策树;
获取所述样本集在所述第一决策树中的性别分类的第一得分,以及获取所述样本集在所述第二决策树中的性别分类的第二得分;
基于所述第一得分和所述第二得分,在所述第一决策树和所述第二决策树中确定目标决策树;
生成所述目标决策树对应的决策树预测模型。
可选地,所述提取目标商品的商品信息,包括:
获取目标商品的展示界面;
依据所述展示界面的区域特征,分别提取商品详情信息和商品参数信息。
可选地,所述基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果,包括:
获取所述文本分类模型和所述决策树分类模型对应的权重值;
基于所述权重值、所述第一预测结果和所述第二预测结果进行计算,得到目标商品的性别分类结果。
可选地,所述方法还包括:
确定中性关键词;
利用所述中性关键词在所述商品信息中进行关键词检索,将检索到满足中性关键词的目标商品的性别分类确定为中性。
可选地,所述生成训练样本的词向量,包括:
获取所述训练样本的单词向量;
对所述单词向量进行叠加,得到叠加向量,使得通过所述叠加向量表征所述训练样本的词向量。
一种商品性别分类装置,包括:
提取单元,用于提取目标商品的商品信息,所述商品信息包括商品详情信息和商品参数信息;
第一处理单元,用于利用文本分类模型对所述商品详情信息进行处理,获得所述目标商品的性别分类的第一预测结果;
第二处理单元,用于利用决策树预测模型对所述商品参数信息进行处理,获得所述目标商品的性别分类的第二预测结果;
计算单元,用于基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果。
一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上任意一项所述的商品性别分类方法。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上任意一项所述的商品性别分类方法。
相较于现有技术,本发明提供了一种商品性别分类方法、装置及电子设备,提取目标商品的商品信息,商品信息包括商品详情信息和商品参数信息;利用文本分类模型对商品详情信息进行处理,获得目标商品的性别分类的第一预测结果;利用决策树预测模型对商品参数信息进行处理,获得目标商品的性别分类的第二预测结果;基于第一预测结果和第二预测结果,计算得到目标商品的性别分类结果。本发明利用模型对商品性别分类进行预测,无需通过人工分析,提升了商品性别分类的处理效率,并且针对商品信息的不同属性利用不同的预测模型进行性别分类结果预测,最终根据不同模型的预测结果综合得到了目标商品的分类结果,提升了预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种商品性别分类方法的流程示意图;
图2为本发明实施例提供的一种创建文本分类模型方法的流程示意图;
图3为本发明实施例提供的一种决策树预测模型的创建方法的流程示意图;
图4为本发明实施例提供的一种商品性别分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种商品性别分类方法,参见图1,该方法可以包括以下步骤:
S101、提取目标商品的商品信息。
执行本发明提供的商品性别分类方法的处理器可以直接接收与目标商品对应的商品信息,该商品信息包括商品详情信息和商品参数信息。也可以直接根据目标商品提供的商品所在页面通过信息识别的方式,对该页面的信息进行提取,以便来获得目标商品的商品信息,其中商品所在页面是指商品在电商平台的展示界面,如商品介绍界面。具体的,商品详情信息包括商品标题、商品推荐语、店铺名字、商品图像的OCR(光学字符识别,即将图片中的文字信息转换为文本信息)识别结果。商品参数信息包括商品的尺码、款式、价格、产地、品牌信息、商品所在店铺联系方式和地址信息。在本发明实施例中区别商品详情信息和商品参数信息的目的是能够利用与信息更加匹配的方式对所有信息进行识别和处理,以便能获得更准确的性别分类结果。
在本发明的一种实施方式中,可以通过关键字对商品详情信息和商品参数信息进行区分。另一种实施方式可以是基于商品所在页面的区域对这两部分信息进行区分和提取,具体的,可以获取目标商品的展示界面,依据展示界面的区域特征,分别提取商品详情信息和商品参数信息。这种提取方式针对这两部分信息有固定的展示区域的应用场景。本发明并不对商品信息的提取方式进行限制,也不对商品详情信息具体包括的内容进行限制,但是商品参数信息必须包括该种商品需要区别于其它商品的一些信息,以及能够与用户特征相对应的信息,如尺码,款式等信息。
目标商品是指需要进行预测性别类型的商品,通常是指服饰、鞋等商品。
S102、利用文本分类模型对商品详情信息进行处理,获得目标商品的性别分类的第一预测结果。
S103、利用决策树预测模型对商品参数信息进行处理,获得目标商品的性别分类的第二预测结果。
本发明实施例中文本分类模型是基于fastText算法的文本分类模型对商品详情信息进行性别特征挖掘,并作出预测。通过决策树预测模型针对商品参数进行性别预测。其中,fastText是一个快速文本分类算法,其在保持高精度的情况下加快了训练速度和测试速度,并且不需要基于预训练好的词向量,会自己训练词向量。其优势在于使用浅层的神经网络可以逼近深层网络的效果,节约算力的同时提高训练速度,方便模型的调整也为后续的优化提供便利条件。决策树模型是一种对输入数据进行分类的模型,具有计算速度较快,结果容易解释,而且稳健性强的特点。在本发明后续的实施例中会结合模型的生成和应用过程对上述步骤进行详细说明。
S104、基于第一预测结果和第二预测结果,计算得到目标商品的性别分类结果。
该性别分类结果是一个最终的分类结果,可以为两个模型分配对应的权重并采用投票机制得到最终的性别分类结果,性别分类结果可以通过性别分类标签的形式体现。也可以是直接为基于获取到的商品信息获取所述文本分类模型和所述决策树分类模型对应的权重值;基于所述权重值、所述第一预测结果和所述第二预测结果进行计算,得到目标商品的性别分类结果。
本发明提供了一种商品性别分类方法,提取目标商品的商品信息,商品信息包括商品详情信息和商品参数信息;利用文本分类模型对商品详情信息进行处理,获得目标商品的性别分类的第一预测结果;利用决策树预测模型对商品参数信息进行处理,获得目标商品的性别分类的第二预测结果;基于第一预测结果和第二预测结果,计算得到目标商品的性别分类结果。本发明利用模型对商品性别分类进行预测,无需通过人工分析,提升了性别分类的处理效率,并且针对商品信息的不同属性利用不同的预测模型进行性别分类结果预测,最终根据不同模型的预测结果综合得到了目标商品的分类结果,提升了预测的准确性。
参加图2,其示出了本发明实施例提供的一种创建文本分类模型方法的流程示意图,该方法包括:
S201、提取样本数据的商品详情信息中的文本信息;
S202、在所述文本信息中,获取包括性别分类特征的目标文本;
S203、对所述目标文本进行拼接,得到文本数据;
S204、确定所述文本数据的分类标签,将具有分类标签的文本数据确定为训练样本;
S205、生成所述训练样本的词向量,并将所述词向量在初始模型中进行训练;
S206、依据训练结果对所述初始模型进行参数调整,获得文本分类模型。
首选提取商品详情中的中文文本,然后把商品标题、商品推荐语,店铺名字,商品图的OCR识别结果和中文文本信息这些有可能出现性别分类特征的文本拼接起来,当成一个整体作为训练文本分类模型的文本数据,以避免某个字段的数据缺失造成的影响。
例如,每行的数据形式为标签(label)类别名和文本数据,每行数据用导入电商领域词典的中文分词器(如jieba分词器,但是本发明对分词器的种类并不限制)进行分词,再用停用词表进行清洗转换为fastText的训练样本格式。训练数据可以来自数据库中大量已经标注好类别的商品数据,如20万行。随机打乱后按照比例划分成训练集、测试集和验证集,例如以比例18:1:1对训练数据进行划分,每个训练数据(如每行代表一个训练数据)的标签一共包含四种:男性,女性,中性,无法分辨,这样就可以得到训练样本。
然后需要对训练样本进行处理,以使得该训练样本能够被模型进行训练,因此生成训练样本的词向量。该过程可以是将训练样本中的训练数据的数字特征提取,即把商品信息中的文本特征转换为数字特征,把文本中的每个词用一个固定维度的向量表示。可以基于统计机器学习的词袋模型、TF-IDF模型、语言模型、LDA主题模型等,为了能够得到更好的处理效果,本发明实施例对文本转换为向量的词模型不进行限制,只要能够实现该功能即可,可以根据具体的词模型依据场景需求进行调整,使得获得词向量满足深度学习需求。
在本发明实施例中生成训练样本的词向量可以是向量叠加的结果,具体的,该过程可以包括获取所述训练样本的单词向量;对所述单词向量进行叠加,得到叠加向量,使得通过所述叠加向量表征所述训练样本的词向量。
模型的训练过程如下:在具有通用型的开源词向量的基础上,fastText使用单词的向量叠加平均获得句子的向量表征,而向量之间的距离可以用于衡量单词间的语义相似度。例如,一个五个词组成的句子向量表示为:
H=1/5(W1+W2+W3+W4+W5)
其中,H表示句子向量,Wi(i∈[1,5])表示词向量。
调整fastText的模型参数(如n-grams参数),可以使用不同粒度的字符级别n-grams向量叠加来表征单词向量,额外考虑单词内部的形态特征也能保留局部词的顺序信息。例如:“复古连衣裙,A字版型设计”和“百褶a字半身短裙”很大概率会归为同一类女性标签,这样处理的本质就是相近句子就不会因为个别词语表达的差异导致两句话的差距非常大。
综上,该模型的训练过程包括:导入预处理后的训练文本和精简后的开源词向量到fastText模型中训练。对fastText中的各个参数进行调整,循环多次训练根据每个商品的男女性别偏向得分来选取最佳的模型。通过验证集来调整fastText类别的概率阈值,从而控制fastText输出的类别标签,以满足业务对分类准确率和召回率的要求。
在本发明实施例中还提供了一种决策树预测模型的创建方法,参见图3,该方法可以包括以下步骤:
S301、获取商品参数信息的样本集;
S302、至少提取所述样本集中的第一属性参数和第二属性参数;
S303、分别创建所述第一属性参数第一决策树的和所述第二属性参数的第二决策树;
S304、获取所述样本集在所述第一决策树中的性别分类的第一得分,以及获取所述样本集在所述第二决策树中的性别分类的第二得分;
S305、基于所述第一得分和所述第二得分,在所述第一决策树和所述第二决策树中确定目标决策树;
S306、生成所述目标决策树对应的决策树预测模型。
在决策树预测模型的样本集是根据先验编写规则对20万行男女服饰数据的身高体重信息进行提取,并只保留身高和体重的最大和最小值,丢弃缺失的数据并去重。需要说明的是,这里的身高是指第一属性参数、体重是指第二属性参数,同样可以获得其他的属性参数来代替身高和体重,如胸围、腰围等参数。
对身高和体重分别创建决策树模型,,用网格搜索和k折交叉验证来选择最优参数。在不同的树深下,将训练集的所有数据平均划分为K份,取第K份作为验证集,余下的K-1份作为交叉验证的训练集,然后训练得到k个分数,计算其平均分数,作为第一个深度的验证分数,通过网络搜索算法对不同深度的验证分数进行比较,以选出最优的决策树参数。其中,k折交叉验证指用到的数据是训练集中的所有数据。将训练集的所有数据平均划分为K份,取第K份作为验证集,余下的K-1份作为交叉验证的训练集。网格搜索算法指通过遍历给定的参数组合来优化模型表现的方法。
在一个实施例中,决策树模型可以包括多个树的模型,每棵决策树的输入数据都对应一个商品参数的特征,后面的一棵树的输出会根据前面树的输出结果进行调整修正,直到最后一棵树输出分类结果。可以将最后一颗树输出的分类结果作为目标商品的性别分类结果。
大部分中性商品有明确的特征,可以先用关键词过滤,因此,本发明实施例中还提供了一种获取中性类别标签的方法,包括:
确定中性关键词;
利用所述中性关键词在所述商品信息中进行关键词检索,将检索到满足中性关键词的目标商品的性别分类确定为中性。
商品的标题和商品推荐信息和商品的关系最为密切,是用户点击详情页中优先看到的文本。若该出的文本素材命中根据先验知识构建好的中性词词典中的目标关键词,直接判定该商品为中性。对应的,若无命中中性关键词且文本中无带有强烈性别偏向的词语,则搜索商品参数的文本信息中是否符合男女同款商品中常见款式、尺码的描述模板,如符合则直接判定为中性。
对应的通过关键词进行识别也可以应用在具有明显特征的商品下,下面以通过关键词对鞋类商品的性别识别为例进行说明。
在分词器中导入构建好的包含电商商品品类和常用词的词典,并用通过停用词表进行清洗和筛选,去除和性别分类无关的词,对已经过人工标注的商品详情和商品参数中的文本信息进行统一分词,对词频进行统计排序,人工对排序前n的重点词进行人工筛选,保留男鞋和女鞋中有强烈性别偏向的词语,用于构建对应性别的其关键词词典。其中,停用词表是包含一些不常用汉字(有时候乱码会出现大量奇怪汉字,要去除)以及或者一些连词、介词、特殊符号等等,可以根据应用场景进行调整,如针对该实施例停用词表可以进保留一些尺码信息里面常用的字符和汉字。
由于鞋类的尺码信息为必须信息,所以缺失较少,编写规则分别提取男女鞋鞋码的上下限信息,并编写脚本计算男女鞋的鞋码最值的分布范围,确定男女鞋码的上下限区分阈值。
每个商品初始化时会得到男性和和女性两个得分,每个商品有两项得分,男性偏向分和女性偏向分,且初始得分均为零。对商品文本素材进行对应目标性别关键词匹配,忽略关键词出现的频次,按照命中不重复目标词的次数计算得分。然后对商品提取出的鞋码的上下限与男、女鞋码的上下限阈值分别进行比较并计算得分,总得分为男性偏向分和女性偏向分的得分之差,以此得出商品属于男性、女性、中性、无法分辨四个类别的判断。例如,针对鞋码范围,男性、女性、中性都有对应的尺码范围,命中中性尺码范围就是男性偏向分和女性偏向分同时加分,命中男性或女性尺码范围,则对应的男性或女性偏向分加分。在关键词匹配时男性、女性、中性都有对应的关键词词库,命中中性关键词就是男性偏向分和女性偏向分同时加分,命中男性关键词或女性关键词,则对应类别加分。最后总得分=男得分性偏向分-女得分性偏向分,总得分大于0则判断商品所属性别为男性,总得分小于0则判断为女性,如果男性偏性分和男女性偏向分两个的得分都是0则为无法分辨,男性偏性分和女性偏向分男女得分相等且都不为0则判断该商品属于中性。
本发明提供了的商品性别分类方法,提取目标商品的商品信息,商品信息包括商品详情信息和商品参数信息;利用文本分类模型对商品详情信息进行处理,获得目标商品的性别分类的第一预测结果;利用决策树预测模型对商品参数信息进行处理,获得目标商品的性别分类的第二预测结果;基于第一预测结果和第二预测结果,计算得到目标商品的性别分类结果。本发明利用模型对商品性别分类进行预测,无需通过人工分析,提升了商品性别分类的处理效率,并且针对商品信息的不同属性利用不同的预测模型进行性别分类结果预测,最终根据不同模型的预测结果综合得到了目标商品的分类结果,提升了预测的准确性。
参见图4,其示出了本发明实施例提供的一种商品性别分类装置的结构示意图,该装置包括:
提取单元10,用于提取目标商品的商品信息,所述商品信息包括商品详情信息和商品参数信息;
第一处理单元20,用于利用文本分类模型对所述商品详情信息进行处理,获得所述目标商品的性别分类的第一预测结果;
第二处理单元30,用于利用决策树预测模型对所述商品参数信息进行处理,获得所述目标商品的性别分类的第二预测结果;
计算单元40,用于基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果。
进一步,所述装置还包括:
文本分类模型创建单元,用于基于样本数据,创建文本分类模型;其中,所述文本分类创建模型包括:
提取子单元,用于提取样本数据的商品详情信息中的文本信息;
第一获取子单元,用于在所述文本信息中,获取包括性别分类特征的目标文本;
拼接子单元,用于对所述目标文本进行拼接,得到文本数据;
第一确定子单元,用于确定所述文本数据的分类标签,将具有分类标签的文本数据确定为训练样本;
第一生成子单元,用于生成所述训练样本的词向量,并将所述词向量在初始模型中进行训练;
调整子单元,用于依据训练结果对所述初始模型进行参数调整,获得文本分类模型。
进一步,所述装置还包括:
决策树模型创建单元,用于基于商品参数信息的样本集,创建决策树预测模型,所述决策树模型创建单元包括:
第二获取单元,用于获取商品参数信息的样本集;
第二提取单元,用于至少提取所述样本集中的第一属性参数和第二属性参数;
创建子单元,用于分别创建所述第一属性参数第一决策树的和所述第二属性参数的第二决策树;
第二获取子单元,用于获取所述样本集在所述第一决策树中的性别分类的第一得分,以及获取所述样本集在所述第二决策树中的性别分类的第二得分;
第二确定子单元,用于基于所述第一得分和所述第二得分,在所述第一决策树和所述第二决策树中确定目标决策树;
第二生成子单元,用于生成所述目标决策树对应的决策树预测模型。
可选地,所述提取单元具体用于:
获取目标商品的展示界面;
依据所述展示界面的区域特征,分别提取商品详情信息和商品参数信息。
可选地,所述计算单元具体用于:
获取所述文本分类模型和所述决策树分类模型对应的权重值;
基于所述权重值、所述第一预测结果和所述第二预测结果进行计算,得到目标商品的性别分类结果。
可选地,所述装置还包括:中性预测单元,所述中性预测单元具体用于:
确定中性关键词;
利用所述中性关键词在所述商品信息中进行关键词检索,将检索到满足中性关键词的目标商品的性别分类确定为中性。
可选地,所述第一生成子单元具体用于:
获取所述训练样本的单词向量;
对所述单词向量进行叠加,得到叠加向量,使得通过所述叠加向量表征所述训练样本的词向量。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一项的商品性别分类方法的步骤。
本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现的商品性别分类方法的步骤。
需要说明的是,上述处理器或CPU可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
需要说明的是,上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种商品性别分类方法,其特征在于,包括:
提取目标商品的商品信息,所述商品信息包括商品详情信息和商品参数信息;
利用文本分类模型对所述商品详情信息进行处理,获得所述目标商品的性别分类的第一预测结果;
利用决策树预测模型对所述商品参数信息进行处理,获得所述目标商品的性别分类的第二预测结果;
基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于样本数据,创建文本分类模型,包括:
提取样本数据的商品详情信息中的文本信息;
在所述文本信息中,获取包括性别分类特征的目标文本;
对所述目标文本进行拼接,得到文本数据;
确定所述文本数据的分类标签,将具有分类标签的文本数据确定为训练样本;
生成所述训练样本的词向量,并将所述词向量在初始模型中进行训练;
依据训练结果对所述初始模型进行参数调整,获得文本分类模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于商品参数信息的样本集,创建决策树预测模型,包括:
获取商品参数信息的样本集;
至少提取所述样本集中的第一属性参数和第二属性参数;
分别创建所述第一属性参数第一决策树的和所述第二属性参数的第二决策树;
获取所述样本集在所述第一决策树中的性别分类的第一得分,以及获取所述样本集在所述第二决策树中的性别分类的第二得分;
基于所述第一得分和所述第二得分,在所述第一决策树和所述第二决策树中确定目标决策树;
生成所述目标决策树对应的决策树预测模型。
4.根据权利要求1所述的方法,其特征在于,所述提取目标商品的商品信息,包括:
获取目标商品的展示界面;
依据所述展示界面的区域特征,分别提取商品详情信息和商品参数信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果,包括:
获取所述文本分类模型和所述决策树分类模型对应的权重值;
基于所述权重值、所述第一预测结果和所述第二预测结果进行计算,得到目标商品的性别分类结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定中性关键词;
利用所述中性关键词在所述商品信息中进行关键词检索,将检索到满足中性关键词的目标商品的性别分类确定为中性。
7.根据权利要求2所述的方法,其特征在于,所述生成训练样本的词向量,包括:
获取所述训练样本的单词向量;
对所述单词向量进行叠加,得到叠加向量,使得通过所述叠加向量表征所述训练样本的词向量。
8.一种商品性别分类装置,其特征在于,包括:
提取单元,用于提取目标商品的商品信息,所述商品信息包括商品详情信息和商品参数信息;
第一处理单元,用于利用文本分类模型对所述商品详情信息进行处理,获得所述目标商品的性别分类的第一预测结果;
第二处理单元,用于利用决策树预测模型对所述商品参数信息进行处理,获得所述目标商品的性别分类的第二预测结果;
计算单元,用于基于所述第一预测结果和所述第二预测结果,计算得到所述目标商品的性别分类结果。
9.一种存储介质,其特征在于,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如权利要求1-7中任意一项所述的商品性别分类方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如权利要求1-7中任意一项所述的商品性别分类方法。
CN202011414577.9A 2020-12-04 2020-12-04 商品性别分类方法、装置及电子设备 Pending CN112380349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011414577.9A CN112380349A (zh) 2020-12-04 2020-12-04 商品性别分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011414577.9A CN112380349A (zh) 2020-12-04 2020-12-04 商品性别分类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112380349A true CN112380349A (zh) 2021-02-19

Family

ID=74590561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011414577.9A Pending CN112380349A (zh) 2020-12-04 2020-12-04 商品性别分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112380349A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN112966681A (zh) * 2021-04-12 2021-06-15 深圳市秦丝科技有限公司 商品拍照智能识别建档检索的方法、设备及存储介质
CN113486943A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于多模态数据的服装商品性别识别方法及装置
CN113486946A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于图像数据的服装商品性别分类方法及装置
CN113486947A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于尺寸数据的服装商品性别分类方法及装置
CN113886670A (zh) * 2021-12-06 2022-01-04 中国电子科技集团公司第三十研究所 一种基于标注体系的暗网站点用户画像方法
CN114049505A (zh) * 2021-10-11 2022-02-15 数采小博科技发展有限公司 一种商品的匹配与识别方法、装置、设备和介质
CN116738343A (zh) * 2023-08-08 2023-09-12 云筑信息科技(成都)有限公司 建筑行业物料数据识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN109933686A (zh) * 2019-03-18 2019-06-25 阿里巴巴集团控股有限公司 歌曲标签预测方法、装置、服务器及存储介质
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
CN108090099A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN109933686A (zh) * 2019-03-18 2019-06-25 阿里巴巴集团控股有限公司 歌曲标签预测方法、装置、服务器及存储介质
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN112966681A (zh) * 2021-04-12 2021-06-15 深圳市秦丝科技有限公司 商品拍照智能识别建档检索的方法、设备及存储介质
CN113486943A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于多模态数据的服装商品性别识别方法及装置
CN113486946A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于图像数据的服装商品性别分类方法及装置
CN113486947A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于尺寸数据的服装商品性别分类方法及装置
CN114049505A (zh) * 2021-10-11 2022-02-15 数采小博科技发展有限公司 一种商品的匹配与识别方法、装置、设备和介质
CN114049505B (zh) * 2021-10-11 2022-08-23 数采小博科技发展有限公司 一种商品的匹配与识别方法、装置、设备和介质
CN113886670A (zh) * 2021-12-06 2022-01-04 中国电子科技集团公司第三十研究所 一种基于标注体系的暗网站点用户画像方法
CN116738343A (zh) * 2023-08-08 2023-09-12 云筑信息科技(成都)有限公司 建筑行业物料数据识别方法、装置及电子设备
CN116738343B (zh) * 2023-08-08 2023-10-20 云筑信息科技(成都)有限公司 建筑行业物料数据识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112380349A (zh) 商品性别分类方法、装置及电子设备
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN108090216B (zh) 一种标签预测方法、装置及存储介质
CN111783518A (zh) 训练样本生成方法、装置、电子设备及可读存储介质
CN111858843B (zh) 一种文本分类方法及装置
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN111260428A (zh) 一种商品推荐方法和装置
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN106886934B (zh) 用于确定商家品类的方法、系统和装置
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN115547514A (zh) 一种致病基因排序方法、装置、电子设备和介质
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination