CN111949763B - 基于文本素材的单品类别确定方法及装置 - Google Patents
基于文本素材的单品类别确定方法及装置 Download PDFInfo
- Publication number
- CN111949763B CN111949763B CN202010679881.XA CN202010679881A CN111949763B CN 111949763 B CN111949763 B CN 111949763B CN 202010679881 A CN202010679881 A CN 202010679881A CN 111949763 B CN111949763 B CN 111949763B
- Authority
- CN
- China
- Prior art keywords
- category
- text
- key
- item
- single item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 312
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 124
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 74
- 238000013145 classification model Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 16
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000000047 product Substances 0.000 description 68
- 230000000694 effects Effects 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 9
- 230000001960 triggered effect Effects 0.000 description 7
- 241000287127 Passeridae Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000000843 powder Substances 0.000 description 4
- 244000046052 Phaseolus vulgaris Species 0.000 description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 210000004251 human milk Anatomy 0.000 description 3
- 235000020256 human milk Nutrition 0.000 description 3
- 239000002537 cosmetic Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 101100322920 Danio rerio gpt2l gene Proteins 0.000 description 1
- 101150079757 GPT2 gene Proteins 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000008476 powdered milk Nutrition 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于文本素材的单品类别确定方法及装置,包括:每个单品类别对应的文本素材执行预处理操作,得到文本重点词集合;从每个单品类别对应的文本重点词集合中确定出现频数大于等于频数阈值的文本重点词,作为该单品类别对应的重点关键词集合;判断待识别单品类别的文本素材是否包括训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的重点关键词,若包括,确定某一单品类别为待识别单品类别的文本素材对应的单品类别。可见,实施本发明能够准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于文本素材的单品类别确定方法及装置。
背景技术
随着互联网的快速发展,商品的销售方式不再单纯是传统的实体店销售,还包括电商销售,并且随着互联网用户越来越多,为了扩大商品的受众范围以及影响力,商品的营销方式除了传统的广告营销(例如:电视广告营销、广告牌营销)之外,还引入了基于互联网的流量营销,例如:商家可以选择多个流量博主发布与所需销售的商品相关的文本素材(例如:博文、视频)来介绍并展示商品,进而吸引更多的人群购买商品。
在实际应用中,为了了解某一流量博主的营销属性,即了解该流量博主所推广的商品所属单品类别,往往需要打开该流量博主的主页查看与其推广的商品相关的文本素材,并且人工对这些文本素材进行整理、分类,才能知晓。然而,实践发现,同一流量博主经常推广同一商家不同类别的商品,甚至是不同商家的商品,也即同一流量博主所推广的品牌、商品种类、单品种类众多,而基本每个商品均会存在对应的文本素材,因此,通过现有的单品类别确定方式无法准确地确定流量博主所推广的商品的所属类别,也即现有的单品类别确定方式无法准确地确定每个商品文本素材所属的单品类别。
发明内容
本发明所要解决的技术问题在于,提供一种基于文本素材的单品类别确定方法及装置,能够准确地确定商品文本素材所属的单品类别。
为了解决上述技术问题,本发明第一方面公开了一种基于文本素材的单品类别确定方法,所述方法包括:
对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个所述单品类别对应的文本重点词集合,每个所述单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,所述训练样本至少包括一个所述单品类别与该单品类别对应的文本素材;
从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个所述单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词;
判断待识别单品类别的第一文本素材是否包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词,当判断结果为是时,确定所述某一单品类别为所述第一文本素材对应的单品类别。
作为一种可选的实施方式,在本发明第一方面中,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,所述方法还包括:
将所述训练样本中每个所述单品类别对应的重点关键词集合中每个所述重点关键词匹配包含该重点关键词且不为该单品类别的其他单品类别对应的文本素材,并获取每个所述其他单品类别对应的文本重点词集合;
从每个所述其他单品类别对应的文本重点词集合中确定在该其他单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为与该其他单品类别匹配的重点关键词对应的规避词集合,每个所述重点关键词对应的规避词集合包括至少一个与该重点关键词对应的规避词。
作为一种可选的实施方式,在本发明第一方面中,在判断出所述第一文本素材包括所述某一单品类别对应的重点关键词集合中至少一个重点关键词之后,以及所述确定所述某一单品类别为所述第一文本素材对应的单品类别之前,所述方法还包括:
基于所述某一单品类别对应的重点关键词集合确定所述第一文本素材包括的所有目标重点关键词,并判断所述第一文本素材的文本重点词是否存在至少一个所述目标重点关键词对应的规避词集合中的至少一个规避词;
当判断出所述待识别单品类别对应的文本素材的文本重点词不存在所有所述目标重点关键词中每个所述目标重点关键词对应的规避词集合中所有所述规避词时,触发执行所述的确定所述某一单品类别为所述第一文本素材对应的单品类别的操作。
作为一种可选的实施方式,在本发明第一方面中,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,包括:
统计所述训练样本中每个所述单品类别对应的文本重点词集合中每个所述文本重点词出现在该单品类别对应的文本素材的出现频数,并对每个所述单品类别对应的文本重点词集合中每个所述文本重点词对应的出现频数进行排序,以及从每个所述单品类别对应的文本重点词集合中确定出现频数大于等于预先确定出的频数阈值的文本重点词为该单品类别对应的重点关键词集合。
作为一种可选的实施方式,在本发明第一方面中,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,所述方法还包括:
判断每个所述单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词;
当判断结果为是时,将每个所述单品类别对应的目标文本重点词补充到该单品类别对应的重点关键词集合中。
作为一种可选的实施方式,在本发明第一方面中,所述对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合,包括:
将训练样本中每个单品类别对应的文本素材输入预先确定出的文本分词处理模型中进行处理,并获取所述文本分词处理模型的处理结果,作为该单品类别对应的文本重点词集合。
作为一种可选的实施方式,在本发明第一方面中,所述获取所述文本分词处理模型的处理结果,作为该单品类别对应的文本重点词集合之后,所述方法还包括:
对每个所述单品类别对应的文本重点词集合中每个所述文本重点词进行词性标注,得到标注后的文本重点词,并将该所有标注后的文本重点词更新为该单品类别对应的文本重点词集合。
作为一种可选的实施方式,在本发明第一方面中,所述对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合之后,所述方法还包括:
基于所述训练样本中每个所述单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个所述单品类别对应的数据集包括该单品类别对应的文本重点词集合;
将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型;
确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量,并将所述目标固定长度向量分别输入每个所述单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率;
从所有所述类别概率中选择最大类别概率所对应的单品类别确定为所述第二文本素材对应的单品类别。
作为一种可选的实施方式,在本发明第一方面中,所述类别识别模型包括词向量分析模型以及类别分类模型;
以及,所述将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型,包括:
将每个所述单品类别对应的数据集输入所述词向量分析模型中进行分析,并获取所述词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个所述文本重点词的词向量;
对每个所述单品类别对应的文本重点词集合中每个所述文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量;
将每个所述单品类别对应的固定长度向量输入所述类别分类模型进行训练,得到该单品类别对应的识别模型。
作为一种可选的实施方式,在本发明第一方面中,所述将每个所述单品类别对应的固定长度向量输入所述类别分类模型中进行训练,得到该单品类别对应的识别模型,包括:
将每个所述单品类别对应的固定长度向量输入LR类别分类模型中进行训练,并获取所述LR类别分类模型的最优解模型参数对应的模型,作为该单品类别对应的识别模型;
其中,所述LR类别分类模型对应的计算公式为:
其中,yi为第i个所述单品类别对应的识别模型,xi为第i个所述单品类别对应的固定长度向量,wi为所述LR类别分类模型在第i个所述单品类别下的所述最优解模型参数,i为正整数。
本发明第二方面公开了一种基于文本素材的单品类别确定装置,所述装置包括:
预处理模块,用于对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个所述单品类别对应的文本重点词集合,每个所述单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,所述训练样本至少包括一个所述单品类别与该单品类别对应的文本素材;
确定模块,用于从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个所述单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词;
判断模块,用于判断待识别单品类别的第一文本素材是否包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词;
所述确定模块,还用于当所述判断模块判断出待识别单品类别的第一文本素材包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词时,确定所述某一单品类别为所述第一文本素材对应的单品类别。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
匹配模块,用于在所述确定模块从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,将所述训练样本中每个所述单品类别对应的重点关键词集合中每个所述重点关键词匹配包含该重点关键词且不为该单品类别的其他单品类别对应的文本素材;
获取模块,用于获取每个所述其他单品类别对应的文本重点词集合;
所述确定模块,还用于从每个所述其他单品类别对应的文本重点词集合中确定在该其他单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为与该其他单品类别匹配的重点关键词对应的规避词集合,每个所述重点关键词对应的规避词集合包括至少一个与该重点关键词对应的规避词。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块,还用于在所述判断模块判断出所述第一文本素材包括所述某一单品类别对应的重点关键词集合中至少一个重点关键词之后,以及在确定所述某一单品类别为所述第一文本素材对应的单品类别之前,基于所述某一单品类别对应的重点关键词集合确定所述第一文本素材包括的所有目标重点关键词;
所述判断模块,还用于判断所述第一文本素材的文本重点词是否存在至少一个所述目标重点关键词对应的规避词集合中的至少一个规避词,当判断出所述待识别单品类别对应的文本素材的文本重点词不存在所有所述目标重点关键词中每个所述目标重点关键词对应的规避词集合中所有所述规避词时,触发所述确定模块执行所述的确定所述某一单品类别为所述第一文本素材对应的单品类别的操作。
作为一种可选的实施方式,在本发明第二方面中,所述确定模块从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合的方式具体为:
统计所述训练样本中每个所述单品类别对应的文本重点词集合中每个所述文本重点词出现在该单品类别对应的文本素材的频数,并对每个所述单品类别对应的文本重点词集合中每个所述文本重点词对应的出现频数进行排序,以及从每个所述单品类别对应的文本重点词集合中确定出现频数大于等于预先确定出的频数阈值的文本重点词为该单品类别对应的重点关键词集合。
作为一种可选的实施方式,在本发明第二方面中,所述判断模块,还用于在所述确定模块从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,判断每个所述单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词;
以及,所述装置还包括:
补充模块,用于当所述判断模块判断出每个所述单品类别对应的文本重点词集合中存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词时,将每个所述单品类别对应的目标文本重点词补充到该单品类别对应的重点关键词集合中。
作为一种可选的实施方式,在本发明第二方面中,所述预处理模块包括:
处理子模块,用于将训练样本中每个单品类别对应的文本素材输入预先确定出的文本分词处理模型中进行处理;
获取子模块,用于获取所述文本分词处理模型的处理结果,作为对应单品类别对应的文本重点词集合。
作为一种可选的实施方式,在本发明第二方面中,所述预处理模块还包括:
标注子模块,用于在所述获取子模块获取所述文本分词处理模型的处理结果,作为对应单品类别对应的文本重点词集合之后,对每个所述单品类别对应的文本重点词集合中每个所述文本重点词进行词性标注,得到标注后的文本重点词;
更新子模块,用于将所有所述标注后的文本重点词更新为该单品类别对应的文本重点词集合。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
构建模块,用于在所述预处理模块对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合之后,基于所述训练样本中每个所述单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个所述单品类别对应的数据集包括该单品类别对应的文本重点词集合;
训练模块,用于将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型;
所述确定模块,还用于确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量;
分析模块,用于将所述目标固定长度向量分别输入每个所述单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率;
所述确定模块,还用于从所有所述类别概率中选择最大类别概率所对应的单品类别确定为所述第二文本素材对应的单品类别。
作为一种可选的实施方式,在本发明第二方面中,所述类别识别模型包括词向量分析模型以及类别分类模型;
以及,所述训练模块将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型的方式具体为:
将每个所述单品类别对应的数据集输入所述词向量分析模型中进行分析,并获取所述词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个所述文本重点词的词向量;
对每个所述单品类别对应的文本重点词集合中每个所述文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量;
将每个所述单品类别对应的固定长度向量输入所述类别分类模型进行训练,得到该单品类别对应的识别模型。
作为一种可选的实施方式,在本发明第二方面中,所述训练模块将每个所述单品类别对应的固定长度向量输入所述类别分类模型中进行训练,得到该单品类别对应的识别模型的方式具体为:
将每个所述单品类别对应的固定长度向量输入LR类别分类模型中进行训练,并获取所述LR类别分类模型的最优解模型参数对应的模型,作为该单品类别对应的识别模型;
其中,所述LR类别分类模型对应的计算公式为:
其中,yi为第i个所述单品类别对应的识别模型,xi为第i个所述单品类别对应的固定长度向量,wi为所述LR类别分类模型在第i个所述单品类别下的所述最优解模型参数,i为正整数。
本发明第三方面公开了另一种基于文本素材的单品类别确定装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于文本素材的单品类别确定方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于文本素材的单品类别确定方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个单品类别对应的文本重点词集合,每个单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,该训练样本至少包括一个单品类别与该单品类别对应的文本素材;从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词;判断待识别单品类别的第一文本素材是否包括训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词,当判断结果为是时,确定某一单品类别为第一文本素材对应的单品类别。可见,实施本发明能够在获取到每个单品类别对应的文本重点词之后,准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策,例如:为所需销售的商品选择合适的带货视频博主进行视频展示和销售商品提供准确的数据基础辅助决策。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于文本素材的单品类别确定方法的流程示意图;
图2是本发明实施例公开的另一种基于文本素材的单品类别确定方法的流程示意图;
图3是本发明实施例公开的又一种基于文本素材的单品类别确定方法的流程示意图;
图4是本发明实施例公开的一种基于文本素材的单品类别确定装置的结构示意图;
图5是本发明实施例公开的另一种基于文本素材的单品类别确定装置的结构示意图;
图6是本发明实施例公开的又一种基于文本素材的单品类别确定装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于文本素材的单品类别确定方法及装置,能够在获取到每个单品类别对应的文本重点词之后,准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于文本素材的单品类别确定方法的流程示意图。其中,图1所描述的方法可以应用于单品类别确定装置中,如服务器等,本发明实施例不做限定。如图1所示,该基于文本素材的单品类别确定方法可以包括以下操作:
101、单品类别确定装置对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个单品类别对应的文本重点词集合。
本发明实施例中,每个单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,该训练样本至少包括一个单品类别与该单品类别对应的文本素材。进一步可选的,文本素材可以包括来自文章中的文字素材、音频中的播音素材、视频中的播音素材/标题素材中的至少一种。又进一步可选的,该文本素材的素材类型包括中文素材类型和/或外国语言素材类型,例如:英文素材类型。其中,当文本素材包括外国语言素材类型时,可以将其翻译成中文素材类型的文本素材。这样文本素材对应的类型的越多,越有利于丰富单品类别对应的文本素材,从而提高单品类别对应的文本重点词的确定准确性以及效率。
本发明实施例中,单品类别可以为大类别,例如:美妆单品类别,进一步的,单品类别可以分为多个子类别,且每个子单品类别均有对应的文本素材,也即每个子类别均有对应的文中重点词以及重点关键词,例如:美妆单品类别可以包括口红类别、粉底类别、隔离类别等。
作为一种可选的实施方式,单品类别确定装置对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合,可以包括:
单品类别确定装置将训练样本中每个单品类别对应的文本素材输入预先确定出的文本分词处理模型(例如:TFIDF处理模型等)中进行处理,并获取文本分词处理模型的处理结果,作为该单品类别对应的文本重点词集合。
可见,该可选的实施方式通过将单品类别对应的文本素材输入文本分词处理模型中进行处理,有利于提高文本素材的处理效率以及准确性,从而有利于准确且快速获取到单品类别对应的文本重点词。
在该可选的实施方式中,进一步可选的,单品类别确定装置获取文本分词处理模型的处理结果,作为该单品类别对应的文本重点词集合之后,单品类别确定装置还可以执行以下操作:
单品类别确定装置对每个单品类别对应的文本重点词集合中每个文本重点词进行词性标注,得到标注后的文本重点词,并将该所有标注后的文本重点词更新为该单品类别对应的文本重点词集合。
可见,该可选的实施方式在获取到单品类别对应的文本重点词集合之后,进一步自动对单品类别对应的文本重点词集合中的文本重点词进行词性标注,能够将文本重点词的频数与词性结合起来,确定对应单品类别对应的重点关键词,能够提高重点关键词的确定效率以及准确性。
102、单品类别确定装置从上述训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合。
本发明实施例中,每个单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词。
作为一种可选的实施方式,单品类别确定装置从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,可以包括:
单品类别确定装置统计训练样本中每个单品类别对应的文本重点词集合中每个文本重点词出现在该单品类别对应的文本素材的出现频数,并对每个单品类别对应的文本重点词集合中每个文本重点词对应的出现频数进行排序,以及从每个单品类别对应的文本重点词集合中确定出现频数大于等于预先确定出的频数阈值的文本重点词为该单品类别对应的重点关键词集合。
在该可选的实施方式中,预先确定出的频数阈值可以是预设频数阈值,例如:2100次等,也可以是根据每个单品类别所需的重点关键词的数量确定的,本发明实施例不做限定。单品类别确定装置可以按照由高到低的顺序或者由低到高的顺序对每个单品类别对应的文本重点词集合中每个文本重点词对应的出现频数进行排序,本发明实施例不做限定。进一步的,若是按照由高到低的方式进行排序,在对每个单品类别对应的文本重点词集合中每个文本重点词进行排序的同时,为该单品类别确定对应的重点关键词。又进一步的,当单品类别对应的重点关键词集合确定完毕之后,可以不再对该单品类别的后续的文本重点词进行排序,这样能够提高每个单品类别对应的重点关键词的获取效率,有利于提高待识别单品类别的文本素材所属的单品类别的确定效率。
在该可选的实施方式中,过滤每个单品类别对应的文本重点词中的停用词,例如:“的”、“是”、“在”、“the”、“an”等。需要说明的是,停用词的过滤可以发生在文本重点词的频数统计之前,例如:在对单品类别的文本素材执行预处理操作的过程中,也可以发生在文本重点词的频数统计之后。其中,当发生在文本重点词的频数统计之后时,文中重点词的频数排序为将停用词对应的频数排序去除后的排序。
在该可选的实施方式中,举例来说,母婴类的文本重点词集合包括:奶粉、母乳、亲子、服装、游戏,且统计出奶粉、母乳、亲子、服装、游戏出现的频数分别为2341、2013、1920、1820、872,假设将排序在前2名的文本重点词作为重点关键词,则母婴类的本文重点词:奶粉和母乳,为该母婴类的重点关键词。
可见,该可选的实施方式通过计算单品类别对应的每个文本重点词出现的频数,并自动将频数进行排序,能够提高单品类别对应的重点关键词的确定准确性以及效率,从而有利于提高待识别单品类别的文本素材的单品类别的确定准确性以及效率。
在该可选的实施方式中,进一步可选的,单品类别确定装置从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,单品类别确定装置还可以执行以下操作:
单品类别确定装置判断每个单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词;
当判断结果为是时,将每个单品类别对应的目标文本重点词补充到该单品类别对应的重点关键词集合中。
在该可选的实施方式中,进一步可选的,当判断出每个单品类别对应的文本重点词集合中不存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的任意一个目标文本重点词时,可以结束本次流程,也可以触发执行步骤103。
该可选的实施方式中,进一步可选的,单品类别确定装置判断每个单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词,可以包括:
单品类别确定装置根据每个单品类别对应的剩余文本重点词集合遍历确定出的数据库中该单品类别对应的文本重点词,并判断每个单品类别对应的剩余文本重点词集合中的所有剩余文本重点词是否存在至少一个与该数据库中该单品类别匹配的文本重点词的剩余文本重点词,当判断结果为是时,确定每个单品类别对应的文本重点词集合中存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词,且该目标文中重点词为与数据库中对应单品类别匹配的文本重点词的剩余文本重点词。其中,该数据库存储有每个单品类别匹配的且出现频数较少的重点关键词,例如:“飞雀”为母婴类的一个重点关键词“本豆”为豆乳类的重点关键词。或者,
单品类别确定装置向相关人员输出每个单品类别对应的剩余文本重点词集合,以使相关人员查看每个单品类别对应的剩余文本重点词集合中是否包括与该单品类别匹配的文本重点词,其中,每个单品类别对应的剩余文本重点词集合为该单品类别对应的所有文本重点词中除去所有重点关键词之后剩余的所有文本重点词;
当检测到相关人员通过用户终端触发的每个单品类别对应的剩余文本重点词集合中至少一个剩余文本重点关键词为与该单品类别匹配的重点关键词时,单品类别确定装置确定每个单品类别对应的文本重点词集合中存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词,且该目标文本重点词为相关人员从对应单品类别对应的剩余文本重点词集合中触发的剩余文本重点词。
该可选的实施方式中,举例来说,当母婴类的文本重点词包括“飞雀”,且“飞雀”的频数排序在最后,但“飞雀”是一种奶粉的牌子,则将“飞雀”确定为与母婴类匹配的重点关键词。
可见,该可选的实施方式在将频数排序在前若干名的文中重点词确定为对应单品类别的重点关键词之后,进一步判断频数排序在后的文本重点词是否与对应单品类别匹配,若匹配,则将该匹配的文本重点词确定为对应单品类别对应的重点关键词,能够减少将频数排序较低的文本重点词却与对应单品类别匹配的文中重点词错判为非重点关键词的情况发生,有利于丰富单品类别的重点关键词集合,从而有利于提高待识别单品类别的文本素材对应的单品类别的确定准确性;以及通过自动确定每个单品类别对应的文本重点词集合中存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词或者通过向相关人员输入每个单品类别的剩余文本重点词集合的方式确定每个单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词,能够提高每个单品类别对应的重点关键词的确定可能性。
103、单品类别确定装置判断待识别单品类别的第一文本素材是否包括上述训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词,当判断结果为是时,触发执行步骤104;当判断结果为否时,可以结束本次流程。
本发明实施例中,待识别单品类别的第一文本素材包括的重点关键词的获取方式请参阅针对单品类别对应的重点关键词获取的详细描述,在此不再赘述。
104、单品类别确定装置确定上述某一单品类别为上述第一文本素材对应的单品类别。
本发明实施例中,进一步可选的,当确定上述某一单品类别为上述第一文本素材对应的单品类别之后,单品类别确定装置还可以将第一文本素材添加至某一单品类别,若该某一单品类别包括至少两个子单品类别时,则将第一文本素材添加至对应的子单品类别中,这样能够丰富单品类别的文本素材,有利于为营销活动提供更准确的数据基础辅助决策以及后续遇到待识别单品类别的文本素材所属单品类别的确定。
可见,实施本发明实施例所描述的方法能够在获取到每个单品类别对应的文本重点词之后,准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策。
在一个可选的实施例中,该方法还可以包括以下操作:
单品类别确定装置获取多个样本商品中每个样本商品的文本素材,并根据获取到的每个样本商品的文本素材构建该样本商品的单品类别与该样本商品的文本素材的对应关系,作为训练样本,其中,该样本商品为已确定出单品类别的商品。
该可选的实施例中,单品类别确定装置通过网络爬虫工具采集(电商)样本商品的文本素材,也可以通过授权的API接口采集样本商品的文本素材,也可以通过上述两种方式获取样本商品的文本素材,本发明实施例不做限定。这样通过提供多种方式获取样本商品的文本素材,不仅能够获取到数据量较大的样本商品的文本素材,有利于提高样本商品的单品类别与该单品类别对应的文本素材的建立准确性,还能够提高样本商品的文本素材的获取效率,从而提高样本商品的单品类别与该单品类别对应的文本素材的建立效率。进一步可选的,在获取样本商品的文本素材的过程中,当出现异常的文本素材结果时,判断该异常的文本素材是否与样本商品相关的文本素材,若相关,则将该异常的文本素材的商品标题修改为样本商品,若不相关,则删除该异常的文本素材,或者修改该异常的文本素材的商品标题。举例来说,当用“口红”去搜索与“口红”相关的文本素材时,搜索到了与“粉底”有关的文本素材,则判断与“粉底”有关的文本素材是否为与“口红”相关的文本素材,若判断结果为是,则将“粉底”修改为“口红”,若判断结果为否,则将与“粉底”对应的文本素材删除,或者将与“粉底”对应的文本素材的商品类别修改为“粉底”。这样在获取样本商品的文本素材的过程中,若获取到异常的文本素材,若该异常本文素材与样本商品相关,则将异常本文素材的商品标题修改与样本商品,若不相关,则删除异常的文本素材或者修改异常的文本素材的商品标题,能够提高样本商品的文本素材的获取准确性,从而有利于提高单品类别的确定准确性,进而有利于提高待识别单品类别的文本素材所属的单品类别的确定准确性。
可见,该可选的实施例通过建立每个已经确定出单品类别的样本商品的文本素材与该样本商品的单品类别的对应关系,便于后续直接将待识别单品类别的文本素材与样本商品的文本素材进行比较,从而根据单品类别-文本素材之间的对应关系实现待识别单品类别的文本素材的单品类别的确定;以及通过提供多种方式获取样本商品的文本素材,不仅能够获取到数据量较大的样本商品的文本素材,有利于提高样本商品的单品类别与该单品类别对应的文本素材的建立准确性,还能够提高样本商品的文本素材的获取效率,从而提高样本商品的单品类别与该单品类别对应的文本素材的建立效率。
在另一个可选的实施例中,在判断出待识别单品类别的第一文本素材包括上述训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词之后,该方法还可以包括以下操作:
单品类别确定装置判断上述某一单品类别是否包括至少两个子单品类别,当判断出某一单品类别包括一个子单品类别时,触发执行步骤104;当判断结果为是时,确定第一本文素材中包括的重点关键词对应的子单品类别作为第一文本素材所属的单品类别,该子单品类别为某一单品类别中的子单品类别。
在该可选的实施例中,进一步可选的,当第一文本素材包括多个重点关键词时,单品类别确定装置确定每个重点关键词出现的频数,并将最大频数对应的子单品类别作为第一文本素材所属的单品类别。
在该可选的实施例中,举例来说,若上述某一单品类别包括口红子单品类别、眉笔子单品类别、粉丝子单品类别以及眼线子单品类别,且当待识别单品类别的文本素材包括的重点关键词仅为“口红”时,则将口红单品类别作为待识别单品类别的文本素材所属的单品类别,当待识别单品类别的文本素材包括的重点关键词为“口红”、“眼线”以及“眉笔”时,且“眉笔”出现的频次最高,则将眉笔单品类别作为待识别单品类别的文本素材所属的单品类别。
可见,该可选的实施例在判断出待识别单品类别的文本素材包括某一单品类别对应的重点关键词集合中的至少一个重点关键词之后,进一步自动判断某一单品类别是否包括多个子单品类别,若不包括,则直接将该某一单品类别作为待识别单品类别的文本素材所属的单品类别,若包括多个子单品类别时,则将待识别单品类别的文本素材包括的重点关键词对应的子单品类别作为待识别单品类别的文本素材所属的单品类别,当将待识别单品类别的文本素材包括的重点关键词为多个时,将最大频数对应的子单品类别作为待识别单品类别的文本素材所属的单品类别,能够进一步提高待识别单品类别的文本素材所属的单品类别的确定精准性,从而进一步有利于为营销活动提供准确的数据基础辅助决策。
在又一个可选的实施例中,该方法还可以包括以下操作:
当判断出待识别单品类别的第一文本素材不包括上述训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词时,单品类别确定装置统计第一文本素材中出现频数排序在目标前若干名(例如:前3名)的重点关键词,并根据该所有重点关键词确定第一文本素材对应的单品类别。
在该可选的实施例中,进一步可选的,在根据频数排序在目标前若干名的所有重点关键词确定第一文本素材对应的单品类别之后,单品类别确定装置建立第一文本素材与其单品类别的对应关系,并将该对应关系补充当前训练样本集合中。
在该可选的实施例中,当待识别单品类别的文本素材出现频数较大的重点关键词为艺术照、照片、拍摄时,则确定该待识别单品类别的文本素材所属的单品类别为艺术摄影单品类别。
可见,该可选的实施例在判断出待识别单品类别的文本素材不包括某一单品类别对应的重点关键词集合中的至少一个重点关键词之后,进一步自动统计并根据待识别单品类别的文本素材中出现频数较大的重点关键词确定该文本素材所属的单品类别,提高待识别单品类别的文本素材所属的单品类别的确定可能性;以及建立待识别单品类别的文本素材与其单品类别的对应关系,并将该对应关系补充当前训练样本集合中,能够丰富训练样本以及便于后续遇到与本次待识别单品类别的文本素材匹配的文本素材时,能够快速且准确地确定所属单品类别。
实施例二
请参阅图2,图2是本发明实施例公开的另一种基于文本素材的单品类别确定方法的流程示意图。其中,图2所描述的方法可以应用于单品类别确定装置中,如服务器等,本发明实施例不做限定。如图2所示,该基于文本素材的单品类别确定方法可以包括以下操作:
201、单品类别确定装置对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个单品类别对应的文本重点词集合。
202、单品类别确定装置从上述训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合。
203、单品类别确定装置将上述训练样本中每个单品类别对应的重点关键词集合中每个重点关键词匹配包含该重点关键词且不为该单品类别的其他单品类别对应的文本素材,并获取每个其他单品类别对应的文本重点词集合。
本发明实施例中,针对每个其他单品类别对应的文本重点词集合中文本重点词的获取方式的相关描述请参阅实施例一中单品类别对应的文本重点词集合获取的详细描述,在此不再赘述。
204、单品类别确定装置从每个其他单品类别对应的文本重点词集合中确定在该其他单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为与该其他单品类别匹配的重点关键词对应的规避词集合。
本发明实施例中,每个重点关键词对应的规避词集合包括至少一个与该重点关键词对应的规避词。
本发明实施例中,步骤204中的预先确定出的频数阈值可以是预设频数阈值,例如:2510次等,也可以是根据与其他单品类别匹配的重点关键词所需的规避词的数量确定的,本发明实施例不做限定。以及需要说明的是,步骤204中预先确定出的频数阈值与步骤202中预先确定出的频数阈值可以相同,也可以不相同,本发明实施例不做限定。
本发明实施例中,需要说明的是,步骤203与步骤205的发生顺序没有先后关系,即步骤203或步骤204可以和步骤205同时发生,步骤205也可以发生在步骤203之前。
可见,本发明实施例在获取到单品类别对应的重点关键词集合之后,进一步自动将单品类别的重点关键词去匹配包含该重点关键词且不为该单品类别的其他单品类别,并自动获取其他单品类别对应的文本重点词集合,以及自动将其他单品类别中频数排序较前的文本重点词作为与其匹配的重点关键词的规避词,能够提高单品类别对应的重点关键词的规避词的获取效率以及准确性。
205、单品类别确定装置判断待识别单品类别的第一文本素材是否包括上述训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词,当判断结果为是时,触发执行步骤206;当判断结果为否时,可以结束本次流程。
206、单品类别确定装置基于上述某一单品类别对应的重点关键词集合确定上述第一文本素材包括的所有目标重点关键词。
207、单品类别确定装置判断上述第一文本素材的文本重点词是否存在至少一个目标重点关键词对应的规避词集合中的至少一个规避词,当判断出待识别单品类别的第一文本素材的文本重点词不存在所有目标重点关键词中每个目标重点关键词对应的规避词集合中所有规避词时,触发执行步骤208;当判断出待识别单品类别的第一文本素材的文本重点词存在至少一个目标重点关键词对应的规避词集合中至少一个规避词时,可以结束本次流程。
在一个可选的实施例中,单品类别确定装置还可以执行以下操作:
当判断出待识别单品类别的第一文本素材的文本重点词存在至少一个目标重点关键词对应的规避词集合中至少一个规避词时,单品类别确定装置判断目标重点关键词的数量,当判断出目标重点关键词的数量大于等于2时,判断上述某一单品类别是否包括至少两个子单品类别,当判断结果为是时,判断所有目标重点关键词中除上述目标重点关键词之后是否存在某一目标重点关键词不存在对应的规避词集合,当判断结果为是时,确定不存在对应的规避词集合的某一目标重点关键词对应的子单品类别为上述第一文本素材对应的单品类别。
在该可选的实施例中,进一步可选的,当该可选的实施例中上述所有判断结果中任一判断结果为否时,可以结束本次流程;也可以根据第一文本素材的重点关键词确定第一文本素材所属的单品类别。其中,针对根据第一文本素材的重点关键词确定第一文本素材所属的单品类别的相关描述,请参阅实施例一中相关内容的详细描述,在此不再赘述。
可见,该可选的实施例在判断出待识别单品类别的文本素材的文本重点词存在至少一个目标重点关键词对应的规避词集合中至少一个规避词时,且在判断出该目标重点关键词数量大于等于2且上述某一单品类别包括至少两个子单品类别时,进一步自动判断是否存在某一目标重点关键词不存在对应的规避词,若判断结果为是,则确定某一目标重点关键词对应的子单品类别为待识别单品类别的文本素材所属的单品类别,能够提高待识别单品类别的文本素材所属的单品类别的确定精准性以及可能性。
208、单品类别确定装置确定上述某一单品类别为上述第一文本素材对应的单品类别。
本发明实施例中,需要说明的是,针对步骤201、步骤202、步骤205以及步骤208的相关描述,请参阅实施例一中针对步骤101-步骤104的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例所描述的方法能够在获取到每个单品类别对应的文本重点词之后,准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策;以及能够自动判断待识别单品类别的文本素材是否包括该重点关键词对应的规避词,若不包括,则确定该重点关键词对应的单品类别为待识别单品类别的文本素材对应的单品类别,能够进一步提高待识别单品类别的文本素所属的单品类别的确定准确性,从而为营销活动提供更加准确的数据基础辅助决策,进而有利于进一步提高商品的销售率。
实施例三
请参阅图3,图3是本发明实施例公开的又一种基于文本素材的单品类别确定方法的流程示意图。其中,图3所描述的方法可以应用于单品类别确定装置中,如服务器等,本发明实施例不做限定。如图3所示,该基于文本素材的单品类别确定方法可以包括以下操作:
301、单品类别确定装置对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个单品类别对应的文本重点词集合。
302、单品类别确定装置基于上述训练样本中每个单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个单品类别对应的数据集包括该单品类别对应的文本重点词集合。
303、单品类别确定装置将上述每个单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型。
本发明实施例中,进一步可选的,上述类别识别模型可以包括词向量分析模型以及类别分类模型。其中,该词向量分析模型可以包括Bert模型、gpt2模型、Word2vec模型、Fasttex模型以及Onehot模型中的一种或者两种及以上模型的组合。类别分类模型可以包括LR模型、SVM模型以及LightGBM模型中的一种或者两种及以上模型的组合。
以及,作为一种可选的实施方式,单品类别确定装置将每个单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型,可以包括:
单品类别确定装置将每个单品类别对应的数据集输入词向量分析模型中进行分析,并获取词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个文本重点词的词向量;
单品类别确定装置对每个单品类别对应的文本重点词集合中每个文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量;
单品类别确定装置将每个单品类别对应的固定长度向量输入类别分类模型进行训练,得到该单品类别对应的识别模型。
可见,该可选的实施方式通过将单品类别对应的数据集与词向量分析模型以及类别分类模型进行结合处理,获取该单品类别对应的识别模型,能够提高单品类别对应的识别模型的获取准确性与效率。
在该可选的实施方式中,进一步可选的,单品类别确定装置将每个单品类别对应的固定长度向量输入类别分类模型中进行训练,得到该单品类别对应的识别模型,可以包括:
单品类别确定装置将每个单品类别对应的固定长度向量输入LR类别分类模型中进行训练,并获取LR类别分类模型的最优解模型参数对应的模型,作为该单品类别对应的识别模型;
其中,上述LR类别分类模型对应的计算公式为:
其中,yi为第i个单品类别对应的识别模型,xi为第i个单品类别对应的固定长度向量,wi为LR类别分类模型在第i个单品类别下的最优解模型参数,i为正整数。
可见,该可选的实施方式通过将单品类别对应的固定长度向量输入LR类别分类模型进行训练,能够提高单品类别对应的识别模型的获取效率,以及将LR类别分类模型的最优解模型参数对应的模型作为单品类别对应的识别模型,能够获取到精准的单品类别对应的识别模型,从而有利于提高待识别单品类别的文本素材所属单品类别的确定精准性,从而为营销活动提供更准确的数据基础辅助决策。
304、单品类别确定装置确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量,并将该目标固定长度向量分别输入上述每个单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率。
305、单品类别确定装置从上述所有类别概率中选择最大类别概率所对应的单品类别确定为上述第二文本素材对应的单品类别。
本发明实施例中,进一步可选的,当确定最大类别概率对应的单品类别为上述第二文本素材对应的单品类别之后,单品类别确定装置还可以将第二文本素材添加至最大类别概率对应的单品类别,若该最大类别概率对应的单品类别包括至少两个子单品类别时,则将第二文本素材添加至对应的子单品类别中,这样能够丰富单品类别的文本素材,有利于为营销活动提供更准确的数据基础辅助决策以及后续遇到待识别单品类别的文本素材所属单品类别的确定。
本发明实施例中,需要说明的是,针对步骤301的相关描述,请参阅实施例一中针对步骤101的详细描述,本发明实施例不再赘述。
本发明实施例中,在得到每个单品类别对应的识别模型的类别概率之后,进一步对所有类别概率执行softmax处理,得到最终所有类别概率,并从最终所有类别概率中最大类别概率所对应的单品类别作为第二文本素材对应的单品类别,这样通过做softmax处理,能够使得每个单品类别对应的类别概率之和为1,从而有利于获取到准确地最大类别概率,进而有利于进一步提高待识别单品类别的文本素所属的单品类别确定精准性以及效率。
可见,实施本发明实施例所描述的方法能够在获取到每个单品类别对应的文本重点词之后,准确构建每个单品类别对应的数据集,并自动将每个单品类别对应的数据集输入类别识别模型中进行训练,得到精准的单品类别对应的识别模型,再自动将待识别单品类别的文本素材输入单品类别对应的识别模型进行分析,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策。
实施例四
请参阅图4,图4是本发明实施例公开的一种基于文本素材的单品类别确定装置的结构示意图。如图4所示,该基于文本素材的单品类别确定装置可以包括:
预处理模块401,用于对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个单品类别对应的文本重点词集合,每个单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,该训练样本至少包括一个单品类别与该单品类别对应的文本素材。
确定模块402,用于从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词。
判断模块403,用于判断待识别单品类别的第一文本素材是否包括训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词。
确定模块402,还用于当判断模块403判断出待识别单品类别的第一文本素材包括训练样本中所有单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词时,确定某一单品类别为第一文本素材对应的单品类别。
本发明实施例中,作为一种可选的实施方式,确定模块402从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合的方式具体为:
统计训练样本中每个单品类别对应的文本重点词集合中每个文本重点词出现在该单品类别对应的文本素材的频数,并对每个单品类别对应的文本重点词集合中每个文本重点词对应的出现频数进行排序,以及从每个单品类别对应的文本重点词集合中确定出现频数大于等于预先确定出的频数阈值的文本重点词为该单品类别对应的重点关键词集合。
可见,实施图4所描述的单品类别确定装置能够在获取到每个单品类别对应的文本重点词之后,准确获取每个单品类别对应的重点关键词,并将每个单品类别对应的重点关键词与待识别单品类别的文本素材进行比较,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策。以及通过计算单品类别对应的每个文本重点词出现的频数,并自动将频数进行排序,能够提高单品类别对应的重点关键词的确定准确性以及效率,从而有利于提高待识别单品类别的文本素材的单品类别的确定准确性以及效率。
在一个可选的实施例中,如图5所示,基于文本素材的单品类别确定装置还可以包括:
匹配模块404,用于在确定模块402从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,将训练样本中每个单品类别对应的重点关键词集合中每个重点关键词匹配包含该重点关键词且不为该单品类别的其他单品类别对应的文本素材。
获取模块405,用于获取每个其他单品类别对应的文本重点词集合。
确定模块402,还用于从每个其他单品类别对应的文本重点词集合中确定在该其他单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为与该其他单品类别匹配的重点关键词对应的规避词集合,每个重点关键词对应的规避词集合包括至少一个与该重点关键词对应的规避词。
可见,实施图5所描述的单品类别确定装置在获取到单品类别对应的重点关键词集合之后,进一步自动将单品类别的重点关键词去匹配包含该重点关键词且不为该单品类别的其他单品类别,并自动获取其他单品类别对应的文本重点词集合,以及自动将其他单品类别中频数排序较前的文本重点词作为与其匹配的重点关键词的规避词,能够提高单品类别对应的重点关键词的规避词的获取效率以及准确性。
在另一个可选的实施例中,如图5所示,确定模块402,还用于在判断模块403判断出第一文本素材包括某一单品类别对应的重点关键词集合中至少一个重点关键词之后,以及在确定某一单品类别为第一文本素材对应的单品类别之前,基于某一单品类别对应的重点关键词集合确定第一文本素材包括的所有目标重点关键词。
判断模块403,还用于判断第一文本素材的文本重点词是否存在至少一个目标重点关键词对应的规避词集合中的至少一个规避词,当判断出待识别单品类别对应的文本素材的文本重点词不存在所有目标重点关键词中每个目标重点关键词对应的规避词集合中所有规避词时,触发确定模块402执行上述的确定某一单品类别为第一文本素材对应的单品类别的操作。
可见,实施图5所描述的单品类别确定装置还能够在判断出待识别单品类别的文本素材包括已知单品类别对应的重点关键词集合中的至少一个重点关键词之后,进一步自动判断待识别单品类别的文本素材是否包括该重点关键词对应的规避词,若不包括,则确定该重点关键词对应的单品类别为待识别单品类别的文本素材对应的单品类别,能够进一步提高待识别单品类别的文本素所属的单品类别的确定准确性,从而为营销活动提供更加准确的数据基础辅助决策,进而有利于进一步提高商品的销售率。
在又一个可选的实施例中,如图5所示,判断模块403,还用于在确定模块402从训练样本中每个单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,判断每个单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值名的文本重点词之外且与该单品类别匹配的目标文本重点词。
以及,如图5所示,上述单品类别确定装置还包括:
补充模块406,用于当判断模块403判断出每个单品类别对应的文本重点词集合中存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词时,将每个单品类别对应的目标文本重点词补充到该单品类别对应的重点关键词集合中。
可见,实施图5所描述的单品类别确定装置在将频数排序在前若干名的文中重点词确定为对应单品类别的重点关键词之后,进一步判断频数排序在后的文本重点词是否与对应单品类别匹配,若匹配,则将该匹配的文本重点词确定为对应单品类别对应的重点关键词,能够减少将频数排序较低的文本重点词却与对应单品类别匹配的文中重点词错判为非重点关键词的情况发生,有利于丰富单品类别的重点关键词集合,从而有利于提高待识别单品类别的文本素材对应的单品类别的确定准确性。
在又一个可选的实施例中,如图5所示,预处理模块401包括:
处理子模块4011,用于将训练样本中每个单品类别对应的文本素材输入预先确定出的文本分词处理模型中进行处理。
获取子模块4012,用于获取文本分词处理模型的处理结果,作为对应单品类别对应的文本重点词集合。
可见,实施图5所描述的单品类别确定装置通过将单品类别对应的文本素材输入文本分词处理模型中进行处理,有利于提高文本素材的处理效率以及准确性,从而有利于准确且快速获取到单品类别对应的文本重点词。
在又一个可选的实施例中,如图5所示,预处理模块401还包括:
标注子模块4013,用于在获取子模块4012获取文本分词处理模型的处理结果,作为对应单品类别对应的文本重点词集合之后,对每个单品类别对应的文本重点词集合中每个文本重点词进行词性标注,得到标注后的文本重点词。
更新子模块4014,用于将所有标注后的文本重点词更新为该单品类别对应的文本重点词集合。
可见,实施图5所描述的单品类别确定装置在获取到单品类别对应的文本重点词集合之后,进一步自动对单品类别对应的文本重点词集合中的文本重点词进行词性标注,能够将文本重点词的频数与词性结合起来,确定对应单品类别对应的重点关键词,能够提高重点关键词的确定效率以及准确性。
在又一个可选的实施例中,如图5所示,上述单品类别确定装置还包括:
构建模块407,用于在预处理模块401对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合之后,基于训练样本中每个单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个单品类别对应的数据集包括该单品类别对应的文本重点词集合。
训练模块408,用于将每个单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型。
确定模块402,还用于确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量。
分析模块409,用于将目标固定长度向量分别输入每个单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率。
确定模块402,还用于从所有类别概率中选择最大类别概率所对应的单品类别确定为第二文本素材对应的单品类别。
可见,实施图5所描述的单品类别确定装置在获取到每个单品类别对应的文本重点词之后,准确构建每个单品类别对应的数据集,并自动将每个单品类别对应的数据集输入类别识别模型中进行训练,得到精准的单品类别对应的识别模型,再自动将待识别单品类别的文本素材输入单品类别对应的识别模型进行分析,能够精确且快速地确定待识别单品类别的文本素所属的单品类别,从而有利于为营销活动提供准确的数据基础辅助决策。
在又一个可选的实施例中,上述类别识别模型包括词向量分析模型以及类别分类模型,以及,如图5所示,训练模块408将每个单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型的方式具体为:
将每个单品类别对应的数据集输入词向量分析模型中进行分析,并获取词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个文本重点词的词向量。
对每个单品类别对应的文本重点词集合中每个文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量。
将每个单品类别对应的固定长度向量输入分类模型进行训练,得到该单品类别对应的识别模型。
该可选的实施例中,作为一种可选的实施方式,训练模块408将每个单品类别对应的固定长度向量输入分类模型中进行训练,得到该单品类别对应的识别模型的方式具体为:
将每个单品类别对应的固定长度向量输入LR类别分类模型中进行训练,并获取LR类别分类模型的最优解模型参数对应的模型,作为该单品类别对应的识别模型;
其中,该LR类别分类模型对应的计算公式为:
其中,yi为第i个单品类别对应的识别模型,xi为第i个单品类别对应的固定长度向量,wi为LR类别分类模型在第i个单品类别下的最优解模型参数,i为正整数。
可见,实施图5所描述的单品类别确定装置通过将单品类别对应的数据集与词向量分析模型以及类别分类模型进行结合处理,获取该单品类别对应的识别模型,能够提高单品类别对应的识别模型的获取准确性与效率;以及通过将单品类别对应的固定长度向量输入LR类别分类模型进行训练,能够提高单品类别对应的识别模型的获取效率,以及将LR类别分类模型的最优解模型参数对应的模型作为单品类别对应的识别模型,能够获取到精准的单品类别对应的识别模型,从而有利于提高待识别单品类别的文本素材所属单品类别的确定精准性,从而为营销活动提供更准确的数据基础辅助决策。
实施例五
请参阅图6,图6是本发明实施例公开的又一种基于文本素材的单品类别确定装置的结构示意图。如图6所示,该装置可以包括:
存储有可执行程序代码的存储器601;
与存储器601耦合的处理器602;
处理器602调用存储器601中存储的可执行程序代码,执行本发明实施例一~实施例三任意一个实施例所公开的基于文本素材的单品类别确定方法中的步骤。
实施例六
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一~实施例三任意一个实施例所公开的基于文本素材的单品类别确定方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于文本素材的单品类别确定方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于文本素材的单品类别确定方法,其特征在于,所述方法包括:
对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个所述单品类别对应的文本重点词集合,每个所述单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,所述训练样本至少包括一个所述单品类别与该单品类别对应的文本素材;
从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个所述单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词;
判断待识别单品类别的第一文本素材是否包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词,当判断结果为是时,确定所述某一单品类别为所述第一文本素材对应的单品类别;
以及,所述对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合之后,所述方法还包括:
基于所述训练样本中每个所述单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个所述单品类别对应的数据集包括该单品类别对应的文本重点词集合;
将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型;
确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量,并将所述目标固定长度向量分别输入每个所述单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率;
从所有所述类别概率中选择最大类别概率所对应的单品类别确定为所述第二文本素材对应的单品类别;
以及,所述类别识别模型包括词向量分析模型以及类别分类模型;
以及,所述将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型,包括:
将每个所述单品类别对应的数据集输入所述词向量分析模型中进行分析,并获取所述词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个所述文本重点词的词向量;
对每个所述单品类别对应的文本重点词集合中每个所述文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量;
将每个所述单品类别对应的固定长度向量输入所述类别分类模型进行训练,得到该单品类别对应的识别模型。
2.根据权利要求1所述的基于文本素材的单品类别确定方法,其特征在于,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,所述方法还包括:
将所述训练样本中每个所述单品类别对应的重点关键词集合中每个所述重点关键词匹配包含该重点关键词且不为该单品类别的其他单品类别对应的文本素材,并获取每个所述其他单品类别对应的文本重点词集合;
从每个所述其他单品类别对应的文本重点词集合中确定在该其他单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为与该其他单品类别匹配的重点关键词对应的规避词集合,每个所述重点关键词对应的规避词集合包括至少一个与该重点关键词对应的规避词。
3.根据权利要求2所述的基于文本素材的单品类别确定方法,其特征在于,在判断出所述第一文本素材包括所述某一单品类别对应的重点关键词集合中至少一个重点关键词之后,以及所述确定所述某一单品类别为所述第一文本素材对应的单品类别之前,所述方法还包括:
基于所述某一单品类别对应的重点关键词集合确定所述第一文本素材包括的所有目标重点关键词,并判断所述第一文本素材的文本重点词是否存在至少一个所述目标重点关键词对应的规避词集合中的至少一个规避词;
当判断出所述待识别单品类别对应的文本素材的文本重点词不存在所有所述目标重点关键词中每个所述目标重点关键词对应的规避词集合中所有所述规避词时,触发执行所述的确定所述某一单品类别为所述第一文本素材对应的单品类别的操作。
4.根据权利要求1-3任一项所述的基于文本素材的单品类别确定方法,其特征在于,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,包括:
统计所述训练样本中每个所述单品类别对应的文本重点词集合中每个所述文本重点词在该单品类别对应的文本素材的出现频数,并对每个所述单品类别对应的文本重点词集合中每个所述文本重点词对应的出现频数进行排序,以及从每个所述单品类别对应的文本重点词集合中确定出现频数大于等于预先确定出的频数阈值的文本重点词为该单品类别对应的重点关键词集合。
5.根据权利要求4所述的基于文本素材的单品类别确定方法,其特征在于,所述从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合之后,所述方法还包括:
判断每个所述单品类别对应的文本重点词集合中是否存在除出现频数大于等于预先确定出的频数阈值的文本重点词之外且与该单品类别匹配的目标文本重点词;
当判断结果为是时,将每个所述单品类别对应的目标文本重点词补充到该单品类别对应的重点关键词集合中。
6.根据权利要求1-5任一项所述的基于文本素材的单品类别确定方法,其特征在于,所述对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合,包括:
将训练样本中每个单品类别对应的文本素材输入预先确定出的文本分词处理模型中进行处理,并获取所述文本分词处理模型的处理结果,作为该单品类别对应的文本重点词集合。
7.根据权利要求1所述的基于文本素材的单品类别确定方法,其特征在于,所述将每个所述单品类别对应的固定长度向量输入所述类别分类模型中进行训练,得到该单品类别对应的识别模型,包括:
将每个所述单品类别对应的固定长度向量输入LR类别分类模型中进行训练,并获取所述LR类别分类模型的最优解模型参数对应的模型,作为该单品类别对应的识别模型;
其中,所述LR类别分类模型对应的计算公式为:
其中,yi为第i个所述单品类别对应的识别模型,xi为第i个所述单品类别对应的固定长度向量,wi为所述LR类别分类模型在第i个所述单品类别下的所述最优解模型参数,i为正整数。
8.一种基于文本素材的单品类别确定装置,其特征在于,所述装置包括:
预处理模块,用于对训练样本中每个单品类别对应的文本素材执行预处理操作,得到每个所述单品类别对应的文本重点词集合,每个所述单品类别对应的文本重点词集合包括至少一个该单品类别对应的文本素材中的文本词,所述训练样本至少包括一个所述单品类别与该单品类别对应的文本素材;
确定模块,用于从所述训练样本中每个所述单品类别对应的文本重点词集合中确定在该单品类别对应的文本素材的出现频数大于等于预先确定出的频数阈值的文本重点词,作为该单品类别对应的重点关键词集合,每个所述单品类别对应的重点关键词集合包括至少一个该单品类别对应的文本重点词集合中的文本重点词;
判断模块,用于判断待识别单品类别的第一文本素材是否包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词;
所述确定模块,还用于当所述判断模块判断出待识别单品类别的第一文本素材包括所述训练样本中所有所述单品类别中某一单品类别对应的重点关键词集合中的至少一个重点关键词时,确定所述某一单品类别为所述第一文本素材对应的单品类别;
以及,所述装置还包括:
构建模块,用于在所述预处理模块对训练样本中每个单品类别对应的文本素材执行预处理操作,得到该单品类别对应的文本重点词集合之后,基于所述训练样本中每个所述单品类别对应的文本重点词集合构建该单品类别对应的数据集,每个所述单品类别对应的数据集包括该单品类别对应的文本重点词集合;
训练模块,用于将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型;
所述确定模块,还用于确定待识别单品类别的第二文本素材中所有文本重点词对应的目标固定长度向量;
分析模块,用于将所述目标固定长度向量分别输入每个所述单品类别对应的识别模型中进行分析,得到该单品类别对应的识别模型的类别概率;
所述确定模块,还用于从所有所述类别概率中选择最大类别概率所对应的单品类别确定为所述第二文本素材对应的单品类别;
以及,所述类别识别模型包括词向量分析模型以及类别分类模型;
以及,所述训练模块将每个所述单品类别对应的数据集输入预先确定出的类别识别模型中进行训练,得到该单品类别对应的识别模型的方式具体为:
将每个所述单品类别对应的数据集输入所述词向量分析模型中进行分析,并获取所述词向量分析模型的分析结果,作为该单品类别对应的文本重点词集合中每个所述文本重点词的词向量;
对每个所述单品类别对应的文本重点词集合中每个所述文本重点词的词向量执行求和操作,得到该单品类别对应的固定长度向量;
将每个所述单品类别对应的固定长度向量输入所述类别分类模型进行训练,得到该单品类别对应的识别模型。
9.一种基于文本素材的单品类别确定装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于文本素材的单品类别确定方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于文本素材的单品类别确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010679881.XA CN111949763B (zh) | 2020-07-15 | 2020-07-15 | 基于文本素材的单品类别确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010679881.XA CN111949763B (zh) | 2020-07-15 | 2020-07-15 | 基于文本素材的单品类别确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949763A CN111949763A (zh) | 2020-11-17 |
CN111949763B true CN111949763B (zh) | 2024-03-22 |
Family
ID=73341793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010679881.XA Active CN111949763B (zh) | 2020-07-15 | 2020-07-15 | 基于文本素材的单品类别确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949763B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769759B1 (en) * | 2003-08-28 | 2010-08-03 | Biz360, Inc. | Data classification based on point-of-view dependency |
CN110335114A (zh) * | 2019-06-28 | 2019-10-15 | 香港乐蜜有限公司 | 产品的分类方法、装置及设备 |
CN110347908A (zh) * | 2019-05-23 | 2019-10-18 | 平安科技(深圳)有限公司 | 语音购物方法、装置、介质及电子设备 |
CN110377733A (zh) * | 2019-06-28 | 2019-10-25 | 平安科技(深圳)有限公司 | 一种基于文本的情绪识别方法、终端设备及介质 |
-
2020
- 2020-07-15 CN CN202010679881.XA patent/CN111949763B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769759B1 (en) * | 2003-08-28 | 2010-08-03 | Biz360, Inc. | Data classification based on point-of-view dependency |
CN110347908A (zh) * | 2019-05-23 | 2019-10-18 | 平安科技(深圳)有限公司 | 语音购物方法、装置、介质及电子设备 |
CN110335114A (zh) * | 2019-06-28 | 2019-10-15 | 香港乐蜜有限公司 | 产品的分类方法、装置及设备 |
CN110377733A (zh) * | 2019-06-28 | 2019-10-25 | 平安科技(深圳)有限公司 | 一种基于文本的情绪识别方法、终端设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111949763A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861972B (zh) | 一种用户录入商品信息后显示商品全结果的方法及设备 | |
CN107735782B (zh) | 图像和文本数据层级分类器 | |
CN106909663B (zh) | 基于标签用户品牌偏好行为预测方法及其装置 | |
CN110059271B (zh) | 运用标签知识网络的搜索方法及装置 | |
CN111260437B (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
CN109766491A (zh) | 商品搜索方法、装置、计算机设备和存储介质 | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
CN108230085A (zh) | 一种基于用户评论的商品评价系统及方法 | |
CN104978356B (zh) | 一种同义词的识别方法及装置 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN113570413B (zh) | 广告关键词的生成方法、装置、存储介质及电子设备 | |
CN107122980A (zh) | 识别商品所属类目的方法和装置 | |
CN111667337A (zh) | 一种商品评价的排序方法和系统 | |
CN112000776B (zh) | 基于语音语义的话题匹配方法、装置、设备及存储介质 | |
CN111986007A (zh) | 一种商品聚合并计算相似度的方法 | |
CN105931082A (zh) | 一种商品类目关键词提取方法和装置 | |
CN106649276A (zh) | 标题中核心产品词的识别方法以及装置 | |
CN107092621A (zh) | 信息搜索方法及装置 | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 | |
CN108717436B (zh) | 一种基于显著性检测的商品目标快速检索方法 | |
CN107944946B (zh) | 商品标签生成方法及装置 | |
CN116579351B (zh) | 一种用户评价信息的分析方法及装置 | |
CN112417210A (zh) | 健身视频的查询方法、装置、终端和存储介质 | |
CN111949763B (zh) | 基于文本素材的单品类别确定方法及装置 | |
CN113495987A (zh) | 数据搜索方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |