CN111897963A - 一种基于文本信息和机器学习的商品分类方法 - Google Patents

一种基于文本信息和机器学习的商品分类方法 Download PDF

Info

Publication number
CN111897963A
CN111897963A CN202010784532.4A CN202010784532A CN111897963A CN 111897963 A CN111897963 A CN 111897963A CN 202010784532 A CN202010784532 A CN 202010784532A CN 111897963 A CN111897963 A CN 111897963A
Authority
CN
China
Prior art keywords
commodity
data
model
comments
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010784532.4A
Other languages
English (en)
Other versions
CN111897963B (zh
Inventor
沈鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010784532.4A priority Critical patent/CN111897963B/zh
Publication of CN111897963A publication Critical patent/CN111897963A/zh
Application granted granted Critical
Publication of CN111897963B publication Critical patent/CN111897963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种基于文本信息和机器学习的商品分类方法,包括以下步骤:S1:收集系统中的历史商品文本数据及实时收集到的文本流数据;S2:对商品文本数据经过机器学习算法解析,结合用户交易行为数据,形成完整的结构化的遍历所有商品的商品粒度的数据集;S3:对数据集进行数据清洗,剔除共线性特征;S4:进行归一化的数据正态分布变化,形成用于商品聚类、分类的特征群,进一步得到分层画像数据;S5:商品分层画像数据在外化展示服务中形成基于现有模型结果的用户浏览、交易使用反馈回流数据;S6:新的商品数据沉淀到现有商品分层数据中形成新的商品分层迭代。该方法提升了商品分层、分类的准确性。

Description

一种基于文本信息和机器学习的商品分类方法
技术领域
本发明涉及一种基于文本信息和机器学习的商品分类方法,属于机器学习商品分层方法。
背景技术
在某些特定的网络平台应用系统中,例如电子商务、社交网站、即时通讯等,需要对所有商品,尤其是活跃商品进行分级分层,针对不同层级的商品,在后台标记不同标签,针对不同标签的商品提供区别化的面向用户的内容和服务。对于电商平台而言,在目前商品基数普遍很大的情况下,需要考虑三个方面的问题:首先,各层级的商品数量均匀,一方面不会形成大量的“金字塔”底端商品,在业务上无法给予对应用户提供服务,另一方面,形成不同层级商品的合理流动需要不同群体的商品量不应该有太大差别;其次,同一层级内的商品特性要相近,不同层级之间的特征要有明显的差别,这样可以更好的提供个性化的内容和服务;最后,针对不同分级提供不同的技术保障方案,这要求分级尽可能要均匀且稳定,稳定具体是指一来分级数量不能经常增加,二来同一分级内的商品数目要稳定,不能失衡。考虑到这三个方面的问题,必须寻找一种方法使商品能够依据用户消费行为数据产生的特征有差别的划分在不同分级中,并保证商品在各个层级之间较均匀的分布。
目前市场上的商品画像或者商品分层分级方法主要针对商品的属性及访问购买情况建立特征库,对特征归一化后利用评分卡模型对商品做初始值打分,按照阶梯成长方式划定不同用户的层级。如:第一级是0~100分以内,第二级上限则需要会员提高成长值到两倍为100~200,第三级上限又是第二级的两倍为200~400,如此类推。商品在不同层级间的流动按照区间结合扣减机制的分级方法,当商品某些特征的值下降,会扣减对应权重的得分,这样商品等级就有可能下降。另外对于商品特征的捕捉上,主要集中在对商品在平台内完整使用链路动作的捕捉,分析和特征化。
但是以上方案从商品特征的整理到商品层级的划分都存在一些局限,对于商品量极大的电子商务网站来说,商品基础大,从产品使用链路上来说,商品的浏览购买情况整体呈现“金字塔”型分布,大部分商品的活跃度不高,甚至不活跃,少部分极度活跃,这样就造成其层级划分不均匀,大部分不活跃商品被划分到同一层级内,活跃层级内的商品占比又很低。同时,由于商品购买有一定的周期性、季节性,也会受到突发事件的影响,其层级变化很快,这样就造成单个商品在不同层级间频繁跳跃,造成层级不稳定。
在商品浏览、购买链路上收集数据,由于是购买单向链路,只能收集到用户对商品的购买动作,缺少了用户的商品需求服务(例如商品购买意愿、潜在购买需求情况)以及售后评价数据,这样如果用户对商品的数据在意愿上强烈,但是没有任何购买记录,商品就会被误认为是不活跃商品,同时对活跃商品来说,缺少了部分商品潜在购买的刻画,整体商品画像就是不完整不全面的。没有商品的购买意愿、购买评价数据,商品画像更多的只是基于历史结构化的购买行为数据,无法通过用户和商品的非结构文本数据挖掘出潜在信息的交互,发现商品的购买意图、售后的数据,对商品的分层形成数据补充。同时这些商品画像数据更多的是商品表征数据的呈现,缺少了商品“性格”的发现,对商品的内在发掘不够理想。
发明内容
为克服现有技术的不足,本发明提出一种基于文本信息和机器学习的商品分类方法,其基于商品文本信息,通过机器学习算法展现商品文本多维度特征数据,将传统的商品分层从纯结构化数据转变为文本数据+结构化数据的综合特征,形成量化指标,提升了商品分层、分类的准确性。
为实现上述目的,本发明的一种基于文本信息和机器学习的商品分类方法,包括以下步骤:
S1:收集系统中的历史商品文本数据及实时收集到的文本流数据,历史商品文本数据和实时收集到的文本流数据包括:用户评价数据、商品标题数据、商品核心参数及经解析的用户情绪数据;
用户评价数据包括用户收到商品后的售后评论文本信息,从中得到的用户评论的语料、评论的时间、频次信息及商家反馈信息;
商品标题数据包括核心搜索触达的关键词、标题关键词的数量、商品的核心要素、主要的商品类别及网红词汇;
商品核心参数包括商品的产地、重量、厂商信息的分词和提炼组合;
经解析的用户情绪数据是用户体现在商品评论中的情绪,以及用户在评论时通过语言表漏出的当前情感,包括语气是否舒缓,语调是否平缓,是否有辱骂语言;
S2:对商品文本数据经过机器学习算法解析,结合用户交易行为数据,形成完整的结构化的遍历所有商品的商品粒度的属性、浏览、交易、售后、喜好、热度数据集;
S3:对数据集进行数据清洗,剔除共线性特征;
S4:进行归一化的数据正态分布变化,形成用于商品聚类、分类的特征群,以此为基础进行统一算法建模,经若干次算法和业务的商品分类验证迭代,得到包含基础属性、交易、浏览、喜好、热度方面的商品粒度的分层画像数据;
S5:商品分层画像数据在外化展示服务中形成基于现有模型结果的用户浏览、交易使用反馈回流数据;
S6:商品数据更新沉淀到现有商品分层数据中形成新的商品分层迭代。
进一步地,步骤S2的机器学习算法中包括无效语句过滤模型、句法分析模型、异常/热词分类识别模型、N-gram模型,CRF关键词预测模型和标题热度模型。
进一步地,无效语句过滤模型采用积累的日常/历史及过往大促的商品评论和标题进行标注作为非业务语句过滤模型的训练样本,通过卡方统计检验挖掘正负样本中的显著有效和无效词,选定若干顶部词组组合成判别评论或者标题是否有效的分类器词典,在无效语句过滤模型的训练阶段,评论和标题的分词结果分别被映射到分类器词典上而得到10000维的稀疏向量,将向量组合成kv格式的特征输入到逻辑回归二分类算法得到最终信息有效性判定,并将商品标题类未通过的有效词做GBDT的二次判定回收规则形成最终的有效信息过滤;
句法分析模型中定义一句话至少包含谓语或宾语的情况下具有信息量,对评论和标题分别使用词的词性标注做逻辑判断的方式解析产品的文本信息内容,并在句法分析后,针对评论和标题由于复杂性的不同将分别做不同的文本处理方案;
异常/热词分类识别模型包括需要冷启动的异常/热词词典,异常/热词词典通过初始收集整理得出,经过清洗的评论经过自定义的两个词典之后会判断为是否是热词评论或异常评论,在异常/热词词典内未判定为异常或热词的语句,再经过一次逻辑回归的二分类做二次判断,对于命中两个词典的评论,将分别基于负向和正向的额外加权以对商品的分层形成额外的影响。
进一步地,N-gram语言模型每天将近一个月的用户评论信息通过Bi-Gram和Tri-Gram获取多元词组的频次信息,构建动态的多元词组概率模型,对于每个评论,得到其所有的Bi-Gram和Tri-Gram组合,然后按照离线训练好的概率模型确定最终应该保留的多元词组,并保留相同多元词组的评论作为doc,每个评论的多元词组作为word,采用tfidf计算所有多元词组的得分,去掉低于最低阈值的多元词组,同时让业务对多元词组进行评估,加大业务意义重要的多元词组的权重;
CRF模型在给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,假设其输出变量构成在整个评论文本聚类流程中用于作seq-seq的关键词预测的马尔科夫随机场,分层抽样能精确匹配N-gram模型多元词组的评论进行人工校准和标注,取分词结果结合HanLP的词性标注训练CRF模型,以预测评论分词序列对应的关键词是否有效的0-1序列。
进一步地,标题热度模型将商品标题的关键词划分为网红词、品牌词、名词、形容词及敏锐词五个词库,通过分词和N-gram语言模型找到分词、多元词组组合在标题中的出现次数、销量和评论分别对词和词组加权,排序出热度,其中对历史标题的选取限于最近一个月的数据做滑动窗口日数据更新,当日新增实时标题的分词后和历史结果匹配后排序,如果出现某个分词结果未出现在历史标题中,如果该分词或者词组合统计数量日增幅超过日新增标题数50%,则归档入新增热词内,并给予特别权重,并在商品推荐中加入“新”字样,如果该分词或者词组合出现数量未达到归入新增热词内,该词进入新出现词挡内,并在接下来七天内继续累积排序,七日后取该排序的前20%且日平均新增超过日增加标题数量10%的词组,进入热词序列,否则该词定义为长尾词进入长尾词库,只做长期观察,不对商品本身的分层做更多标题方面的权重影响。
进一步地,步骤S3中还包括以下步骤:
S301:通过定时任务每天定时遍历所有商品的指标数据,得到一个指标序列Xn(n=1…n),Xn>0;
S302:对指标空值做处理,如果指标空值少于5%,去除空值所在的数据样本,如果指标空值在5%-10%之间,利用相似特征数据补齐空缺值,如果指标空值大于10%,舍弃指标;
S303:对所有指标做对数转换,对于某一个指标的Xn个样本,取其自然对数:En=ln(Xn),生成一个新序列En(n=1…n),以缩小指标值之间的差距;
S304:对指标做共线性筛选,业务上判断无明确可能成共线性的指标直接进入下一步,有共线性可能的指标计算其指标间的相互关联系数r,对于r>0.7的指标,选择其中数据空缺值最少,最有正态形态的指标。
进一步地,步骤S4还包括以下步骤:
S401对共线性筛选后留下对指标计算对数序列的平均值E:E=(E1+E2+…+En)/n;
S402计算指标对数序列的标准差S:S^2=[(E1-E)^2+(E2-E)^2+......(En-E)^2]/n;
S403:计算指标对数序列的正态分布值Yn:Yn=(En-μ(平均数E代替))/σ(标准差S代替),得到所有非共线性特征所有值Xn的对数正态分布转换后的新数值序列Yn(n=1…n),形成商品在全区间域内的正态分布序列。
进一步地,在步骤S4中,对步骤S403中得到的指标对数序列的正态分布值Yn进行模型商品聚类和商品分类验证,形成最终的服务商品画像在不同的市场层级下分别对不同商品聚类逐层合并筛选出重要显著的聚类变量及特征维度,并对信息缺失的情况以有标签的商品数据进行分类验证以及遗漏特征回找,采用随机森林算法,基于partial plot找回部分携带重要信息的丢失特征,将回找得到的特征次得到的特征和原有特征一起再次重新聚类,得到相对稳定的模型结果及可更丰富显示不同类别商品的特征,结合聚类标签及核心维度,将打标结果规则化,并抽象为更具体的业务含义,模型化商品的个性画像。
本发明的一种基于文本信息和机器学习的商品分类方法基于商品文本信息,通过机器学习算法展现商品文本多维度特征数据,将传统的商品分层从纯结构化数据转变为文本数据+结构化数据的综合特征,形成量化指标,提升了商品分层、分类的准确性。
附图说明
下面结合附图对本发明作进一步描写和阐述。
图1是本发明首选实施方式的一种基于文本信息和机器学习的商品分类方法的系统框图;
图2是本发明首选实施方式的一种基于文本信息和机器学习的商品分类方法中进行数据形成结构化数据的流程图;
图3是本发明首选实施方式的一种基于文本信息和机器学习的商品分类方法中数据清洗和正态分布转化的流程图;
图4是本发明首选实施方式的一种基于文本信息和机器学习的商品分类方法最终形成的商品画像。
具体实施方式
下面将结合附图、通过对本发明的优选实施方式的描述,更加清楚、完整地阐述本发明的技术方案。
本发明首选实施方式的一种基于文本信息和机器学习的商品分类方法,包括以下步骤:
S1:收集系统中的历史商品文本数据及实时收集到的文本流数据,历史商品文本数据和实时收集到的文本流数据包括:用户评价数据、商品标题数据、商品核心参数及经解析的用户情绪数据;
用户评价数据包括用户收到商品后的售后评论文本信息,从中得到的用户评论的语料、评论的时间、频次信息及商家反馈信息;
商品标题数据包括核心搜索触达的关键词、标题关键词的数量、商品的核心要素、主要的商品类别及网红词汇;
商品核心参数包括商品的产地、重量、厂商信息的分词和提炼组合;
经解析的用户情绪数据是用户体现在商品评论中的情绪,以及用户在评论时通过语言表漏出的当前情感,语气是否舒缓,语调是否平缓,是否有辱骂语言;
S2:对商品文本数据经过机器学习算法解析,结合用户交易行为数据,形成完整的结构化的遍历所有商品的商品粒度的属性、浏览、交易、售后、喜好、热度数据集,机器学习算法包括无效语句过滤模型、句法分析模型、异常/热词分类识别模型、N-gram模型,CRF关键词预测模型和标题热度模型;
S3:对数据集进行数据清洗,剔除共线性特征;
S301:通过定时任务每天定时遍历所有商品的指标数据,得到一个指标序列Xn(n=1…n),Xn>0;
S302:对指标空值做处理,如果指标空值少于5%,去除空值所在的数据样本,如果指标空值在5%-10%之间,利用相似特征数据补齐空缺值,如果指标空值大于10%,舍弃指标;
S303:对所有指标做对数转换,对于某一个指标的Xn个样本,取其自然对数:En=ln(Xn),生成一个新序列En(n=1…n),以缩小指标值之间的差距;
S304:对指标做共线性筛选,业务上判断无明确可能成共线性的指标直接进入下一步,有共线性可能的指标计算其指标间的相互关联系数r,对于r>0.7的指标,选择其中数据空缺值最少,最有正态形态的指标;
S4:进行归一化的数据正态分布变化,形成用于商品聚类、分类的特征群,以此为基础进行统一算法建模,经若干次算法和业务的商品分类验证迭代,得到包含基础属性、交易、浏览、热度方面的商品粒度的分层画像数据;
S401对共线性筛选后留下对指标计算对数序列的平均值E:E=(E1+E2+…+En)/n;
S402计算指标对数序列的标准差S:S^2=[(E1-E)^2+(E2-E)^2+......(En-E)^2]/n;
S403:计算指标对数序列的正态分布值Yn:Yn=(En-μ(平均数E代替))/σ(标准差S代替),得到所有非共线性特征所有值Xn的对数正态分布转换后的新数值序列Yn(n=1…n),形成商品在全区间域内的正态分布序列;
S5:商品分层画像数据在外化展示服务中形成基于现有模型结果的用户浏览、交易使用反馈回流数据;
S6:商品数据更新沉淀到现有商品分层数据中形成新的商品分层迭代。
具体地:
通过数据抽样调研,结果显示商品评论以及标题信息中包含有效信息(商品分类相关信息)的语句占比分别为40%-50%和70-80%。如果不过滤无效语句直接做商品信息做自然语言处理,无效话题往往很容易占据提取出信息的绝大部分并掩盖真实信息,造成商品分层的误判。因此在数据清洗阶段需要非业务语句的批量过滤。无效语句过滤模型采用积累的日常/历史及过往大促的数十万条商品评论和标题进行标注作为非业务语句过滤模型的训练样本,通过卡方统计检验挖掘正负样本中的显著有效和无效词,选定若干顶部词组组合成判别评论或者标题是否有效的分类器词典,在无效语句过滤模型的训练阶段,评论和标题的分词结果分别被映射到分类器词典上而得到10000维的稀疏向量,将向量组合成kv格式的特征输入到逻辑回归二分类算法得到最终信息有效性判定,并将商品标题类未通过的有效词做GBDT的二次判定回收规则形成最终的有效信息过滤。使用逻辑回归二分类算法的主要原因为与SVM、GBDT等二分类模型比较时整体准确度降低2%左右而算法时间下降50%,考虑成本和收益后选择,得到最终信息有效性判定。整体模型的准确率90%,召回率85%。
句法分析,用于判断一句话的整体结构是否完整。句法分析模型中定义一句话至少包含谓语或宾语的情况下具有一定的信息量,如评论中出现的“申请退货”,将“申请”与“退货”形成语法结构,这样的语句的信息量更大。对评论和标题分别使用词的词性标注做逻辑判断的方式解析产品的文本信息内容,并在句法分析后,针对评论和标题由于复杂性的不同将分别做不同的文本处理方案。
对于异常(负向,例如变质)/热词(正向,例如优质)需要快速挖掘和分类加权的手段,提升处理效率,因此对每个文本词条是异常或者热词的概率做了一个分类器分别做标注。异常/热词分类识别模型包括需要冷启动的异常/热词词典,异常/热词词典通过初始收集整理得出,经过清洗的评论经过自定义的两个词典之后会判断为是否是热词评论或异常评论,在异常/热词词典内未判定为异常或热词的语句,再经过一次逻辑回归的二分类做二次判断,对于命中两个词典的评论,将分别基于负向和正向的额外加权以对商品的分层形成额外的影响。
N-gram模型是对历史数据学习的语言模型,这对于商品标题和评论的文本信息挖掘和冷启动有重要的作用。如搜狗输入法也使用了N-gram语言模型。N-Gram是基于这样一种假设,第n个词的出现只与前面的n-1个词有关系,而与其它任何词都无关,整句话的概率是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。N-gram语言模型每天将近一个月的用户评论信息通过Bi-Gram和Tri-Gram获取多元词组的频次信息,构建动态的多元词组概率模型,对于每个评论,得到其所有的Bi-Gram和Tri-Gram组合,然后按照离线训练好的概率模型确定最终应该保留的多元词组,并保留相同多元词组的评论作为doc,每个评论的多元词组作为word,采用tfidf计算所有多元词组的得分,去掉低于最低阈值的多元词组,同时让业务对多元词组进行评估,针对业务认为比较重要的多元词组,会加大它的权重,确保我们得到的多元词组具有较好的实际业务意义。经试验由N-Gram构建的多元词组概率模型识别准确率达到85%,召回率达到93%。
由于N-Gram的实时计算成本较高,每天会对平路离线训练N-Gram,这就产生一个实时新评论有很多新的说法产生,造成新的多元搭配不在我们的多元概率模型中,为了防止漏掉新的问题,同时引入了CRF和textrank进行关键词提取。CRF(条件随机场)模型是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出变量构成马尔科夫随机场。条件随机场主要应用在各种标注问题中,在整个评论文本聚类流程中用它来作seq-seq的关键词预测。分层抽样一万条能精确匹配N-gram模型Top多元词组的评论进行人工校准和标注,共计9万条分词结果结合HanLP的词性标注训练CRF模型,以预测评论分词序列对应的关键词是否有效的0-1序列。CRF模型在新抽取的测试样本中准确率88%,召回率72%,且其主要优点在于能发现N-gram模型因高频词组而掩盖的真实业务信息(比如学习转折语意)以及挖掘预测新业务词。根据CRF模型的预测原理,关键词的预测结果序列仅依赖于输入词序列的位置信息和词性标注,因此训练样本中从未出现的新业务词能被挖掘出来。并且CRF模型很好的学习到人工标注的转折语意,在N-gram模型匹配高频多元组后为整个问题聚类提供了准确率和新问题挖掘的进一步保障。
标题热度模型将历史标题的关键词划分为网红词、品牌词、名词、形容词及敏锐词五个词库,通过分词和N-gram语言模型找到分词、多元词组组合在标题中的出现次数、销量和评论分别对词和词组加权,排序出热度,其中对历史标题的选取限于最近一个月的数据做滑动窗口日数据更新,当日新增实时标题的分词后和历史结果匹配后排序,如果出现某个分词结果未出现在历史标题中,如果该分词或者词组合统计数量日增幅超过日新增标题数50%,则归档入新增热词内,并给予特别权重,并在商品推荐中加入“新”字样,如果该分词或者词组合出现数量未达到归入新增热词内,该词进入新出现词挡内,并在接下来七天内继续累积排序,七日后取该排序的前20%且日平均新增超过日增加标题数量10%的词组,进入热词序列,否则该词定义为长尾词进入长尾词库,只做长期观察,不对商品本身的分层做更多标题方面的权重影响。
在步骤S4中,对步骤S403中得到的指标对数序列的正态分布值Yn进行模型商品聚类和商品分类验证,形成最终的服务商品画像。
由于部分活跃商品在平台的数据不足,如果直接在全部特征上聚类,会造成少数一两个类别的商品非常多,而且区分度不高,而另外大部分类中商品很少,整体聚类效果不好。因此,在红海市场(商品效率和流量效率都很低的商品)、未来市场(流量效率低,商品效率高)、饱和市场(流量效率中,商品效率中)和增长市场(流量效率高,商品效率高)四个层级下分别对不同商品聚类(k-means和dbscan),逐层合并筛选出重要显著的聚类变量(也即是只有红海市场的商品之间聚类,有饱和市场的商品之间聚类,以此类推)。通过聚类,共分出16类不同类别的商品。
初始聚类得到的每种类别的商品有13个特征维度,展现了商品从等6个方面的信息。由于前期特征筛选过程中会产生信息缺失,利用有标签的3000个商品数据进行分类验证以及遗漏特征回找。分类验证在有监督样本量较少,维度和自变量数量较多的情况下,选择随机森林算法,基于partial plot找回部分携带重要信息的丢失特征5个。
将回找得到的特征次得到的特征和原有特征一起再次重新聚类,得到相对稳定的模型结果及可更丰富显示不同类别商品的特征,结合聚类标签及核心维度,将打标结果规则化,并抽象为更具体的业务含义,模型化商品的个性画像。
本发明利用了电商平台商品自身文本相关数据的丰富性,通过发明的文本处理流程,通过算法创造性的全方面展现了一个商品个性的文本多维度特征数据,将传统的商品分层从只考虑结构化数据转变为文本数据+结构化数据的综合特征。同时从传统的商品的用户购买数据开始,发展出了能表现商品各项能力的商品标题数据、买家和卖家的语料数据,能展现用户对商品的情绪的结构化数据,能表现出商品在搜索数据不足的情况下与当前搜索热度智能化匹配的用户体验数据等几个方面的数据,并量化成指标。
本发明综合利用多维度数据从指标到特征中的清洗转换方法,利用了正态分布转换的特点,将商品数据打散成按正态分布的序列,这样就能更精确的将商品维度正态化分布,同时共线性变量的剔除,避免了其他类似商品分类方案中,大量商品聚集到同一个类别中的情况,同时由于每次分类前都会对商品现有数据重新正态化分层,所以无论商品在平台的数据更多或者更少,商品永远都会较均匀分布,不会出现类别内过多或者过少的情况。
另外本发明对电商平台的商品做在类别划分前先进行了分层,这样针对不同的商品使用特点不同的情况也能做好区分。而无监督模型+有监督模型补充的方式也让整体个性分类有效特征更全面,更丰富。
综上所述,本发明能解决目前依据商品消费数据划分人群方案中存在的问题,比较适合稳定分级的应用体系。也适合那些需要商品个性数据提升精致运营和产品设计的业务场景。
上述具体实施方式仅仅对本发明的优选实施方式进行描述,而并非对本发明的保护范围进行限定。在不脱离本发明设计构思和精神范畴的前提下,本领域的普通技术人员根据本发明所提供的文字描述、附图对本发明的技术方案所作出的各种变形、替代和改进,均应属于本发明的保护范畴。本发明的保护范围由权利要求确定。

Claims (8)

1.一种基于文本信息和机器学习的商品分类方法,其特征在于,包括以下步骤:
S1:收集系统中的历史商品文本数据及实时收集到的文本流数据,所述历史商品文本数据和实时收集到的文本流数据包括:用户评价数据、商品标题数据、商品核心参数及经解析的用户情绪数据;
所述用户评价数据包括用户收到商品后的售后评论文本信息,从中得到的用户评论的语料、评论的时间、频次信息及商家反馈信息;
所述商品标题数据包括核心搜索触达的关键词、标题关键词的数量、商品的核心要素、主要的商品类别及网红词汇;
所述商品核心参数包括商品的产地、重量、厂商信息的分词和提炼组合;
所述经解析的用户情绪数据是用户体现在商品评论中的情绪,以及用户在评论时通过语言表漏出的当前情感,包括语气是否舒缓,语调是否平缓,是否有辱骂语言;
S2:对商品文本数据经过机器学习算法解析,结合用户交易行为数据,形成完整的结构化的遍历所有商品的商品粒度的属性、浏览、交易、售后、喜好、热度数据集;
S3:对数据集进行数据清洗,剔除共线性特征;
S4:进行归一化的数据正态分布变化,形成用于商品聚类、分类的特征群,以此为基础进行统一算法建模,经若干次算法和业务的商品分类验证迭代,得到包含基础属性、交易、浏览、喜好、热度方面的商品粒度的分层画像数据;
S5:商品分层画像数据在外化展示服务中形成基于现有模型结果的用户浏览、交易使用反馈回流数据;
S6:商品数据更新沉淀到现有商品分层数据中形成新的商品分层迭代。
2.如权利要求1所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,步骤S2的机器学习算法中包括无效语句过滤模型、句法分析模型、异常/热词分类识别模型、N-gram模型,CRF关键词预测模型和标题热度模型。
3.如权利要求2所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,所述无效语句过滤模型采用积累的日常/历史及过往大促的商品评论和标题进行标注作为非业务语句过滤模型的训练样本,通过卡方统计检验挖掘正负样本中的显著有效和无效词,选定若干顶部词组组合成判别评论或标题是否有效的分类器词典,在所述无效语句过滤模型的训练阶段,所述评论和标题的分词结果分别被映射到分类器词典上而得到10000维的稀疏向量,将向量组合成kv格式的特征输入到逻辑回归二分类算法得到最终信息有效性判定,并将商品标题类未通过的有效词做GBDT的二次判定回收规则形成最终的有效信息过滤;
所述句法分析模型中定义一句话至少包含谓语或宾语的情况下具有信息量,对评论和标题分别使用词的词性标注做逻辑判断的方式解析产品的文本信息内容,并在句法分析后,针对评论和标题由于复杂性的不同将分别做不同的文本处理方案;
所述异常/热词分类识别模型包括需要冷启动的异常/热词词典,所述异常/热词词典通过初始收集整理得出,经过清洗的评论经过自定义的两个词典之后会判断为是否是热词评论或异常评论,在所述异常/热词词典内未判定为异常或热词的语句,再经过一次逻辑回归的二分类做二次判断,对于命中两个词典的评论,将分别基于负向和正向的额外加权以对商品的分层形成额外的影响。
4.如权利要求2所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,所述N-gram语言模型每天将近一个月的用户评论信息通过Bi-Gram和Tri-Gram获取多元词组的频次信息,构建动态的多元词组概率模型,对于每个评论,得到其所有的Bi-Gram和Tri-Gram组合,然后按照离线训练好的概率模型确定最终保留的多元词组,并保留相同多元词组的评论作为doc,每个评论的多元词组作为word,采用tfidf计算所有多元词组的得分,去掉低于最低阈值的多元词组,同时让业务对多元词组进行评估,加大业务意义重要的多元词组的权重;
所述CRF模型在给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,假设其输出变量构成在整个评论文本聚类流程中用于作seq-seq的关键词预测的马尔科夫随机场,分层抽样能精确匹配N-gram模型多元词组的评论进行人工校准和标注,取分词结果结合HanLP的词性标注训练CRF模型,以预测评论分词序列对应的关键词是否有效的0-1序列。
5.如权利要求2所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,所述标题热度模型将商品标题的关键词划分为网红词、品牌词、名词、形容词及敏锐词五个词库,通过分词和N-gram语言模型找到分词、多元词组组合在标题中的出现次数、销量和评论分别对词和词组加权,排序出热度,其中对历史标题的选取限于最近一个月的数据做滑动窗口日数据更新,当日新增实时标题的分词后和历史结果匹配后排序,如果出现某个分词结果未出现在历史标题中,如果该分词或词组合统计数量日增幅超过日新增标题数50%,则归档入新增热词内,并给予特别权重,并在商品推荐中加入“新”字样,如果该分词或词组合出现数量未达到归入新增热词内,该分词进入新出现词挡内,并在接下来七天内继续累积排序,七日后取该排序的前20%且日平均新增超过日增加标题数量10%的词组,进入热词序列,否则该分词定义为长尾词进入长尾词库,只做长期观察,不对商品本身的分层做更多标题方面的权重影响。
6.如权利要求1所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,步骤S3还包括以下步骤:
S301:通过定时任务每天定时遍历所有商品的指标数据,得到一个指标序列Xn(n=1…n),Xn>0;
S302:对指标空值做处理,如果指标空值少于5%,去除空值所在的数据样本,如果指标空值在5%-10%之间,利用相似特征数据补齐空缺值,如果指标空值大于10%,舍弃指标;
S303:对所有指标做对数转换,对于某一个指标的Xn个样本,取其自然对数:En=ln(Xn),生成一个新序列En(n=1…n),以缩小指标值之间的差距;
S304:对指标做共线性筛选,业务上判断无明确可能成共线性的指标直接进入下一步,有共线性可能的指标计算其指标间的相互关联系数r,对于r>0.7的指标,选择其中数据空缺值最少,最有正态形态的指标。
7.如权利要求6所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,步骤S4还包括以下步骤:
S401对共线性筛选后留下对指标计算对数序列的平均值E:E=(E1+E2+…+En)/n;
S402计算指标对数序列的标准差S:S^2=[(E1-E)^2+(E2-E)^2+......(En-E)^2]/n;
S403:计算指标对数序列的正态分布值Yn:Yn=(En-μ(平均数E代替))/σ(标准差S代替),得到所有非共线性特征所有值Xn的对数正态分布转换后的新数值序列Yn(n=1…n),形成商品在全区间域内的正态分布序列。
8.如权利要求7所述的一种基于文本信息和机器学习的商品分类方法,其特征在于,在步骤S4中,对步骤S403中得到的指标对数序列的正态分布值Yn进行模型商品聚类和商品分类验证,形成最终的服务商品画像,在不同的市场层级下分别对不同商品聚类逐层合并筛选出重要显著的聚类变量及特征维度,并对信息缺失的情况以有标签的商品数据进行分类验证以及遗漏特征回找,采用随机森林算法,基于partialplot找回部分携带重要信息的丢失特征,将回找得到的特征次得到的特征和原有特征一起再次重新聚类,得到相对稳定的模型结果及可更丰富显示不同类别商品的特征,结合聚类标签及核心维度,将打标结果规则化,并抽象为更具体的业务含义,模型化商品的个性画像。
CN202010784532.4A 2020-08-06 2020-08-06 一种基于文本信息和机器学习的商品分类方法 Active CN111897963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784532.4A CN111897963B (zh) 2020-08-06 2020-08-06 一种基于文本信息和机器学习的商品分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784532.4A CN111897963B (zh) 2020-08-06 2020-08-06 一种基于文本信息和机器学习的商品分类方法

Publications (2)

Publication Number Publication Date
CN111897963A true CN111897963A (zh) 2020-11-06
CN111897963B CN111897963B (zh) 2024-07-26

Family

ID=73245984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784532.4A Active CN111897963B (zh) 2020-08-06 2020-08-06 一种基于文本信息和机器学习的商品分类方法

Country Status (1)

Country Link
CN (1) CN111897963B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836031A (zh) * 2021-02-01 2021-05-25 杭州微洱网络科技有限公司 面向电商领域的问题判别方法
CN112988664A (zh) * 2021-03-11 2021-06-18 中国平安财产保险股份有限公司 数据归档方法、装置、设备及存储介质
CN113239188A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种一套金融交易对话信息分析技术方案
CN113807926A (zh) * 2021-09-26 2021-12-17 北京沃东天骏信息技术有限公司 推荐信息生成方法、装置、电子设备和计算机可读介质
CN114282955A (zh) * 2021-09-17 2022-04-05 时趣互动(北京)科技有限公司 社交媒体内容的行业品牌分类判别系统
CN114999575A (zh) * 2022-05-27 2022-09-02 爱科思(北京)生物科技有限公司 生物信息数据管理系统
CN116644339A (zh) * 2023-07-27 2023-08-25 山东唐和智能科技有限公司 一种信息归类方法及系统
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN107688580A (zh) * 2016-08-05 2018-02-13 北京京东尚科信息技术有限公司 基于分布式数据仓库的商品分级的方法、装置及系统
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN109523102A (zh) * 2017-09-18 2019-03-26 张丽蓉 一种配电网运行状态综合评价方法
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN111160992A (zh) * 2020-01-02 2020-05-15 焦点科技股份有限公司 一种基于用户画像体系的营销系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN107688580A (zh) * 2016-08-05 2018-02-13 北京京东尚科信息技术有限公司 基于分布式数据仓库的商品分级的方法、装置及系统
CN109523102A (zh) * 2017-09-18 2019-03-26 张丽蓉 一种配电网运行状态综合评价方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN111160992A (zh) * 2020-01-02 2020-05-15 焦点科技股份有限公司 一种基于用户画像体系的营销系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHYUELN: "电商平台商品标题短文本分类 - word2vec", Retrieved from the Internet <URL:https://blog.csdn.net/zhyueln/article/details/83479382> *
刘智鹏;何中市;何伟东;张航;: "基于深度学习的商品评价情感分析与研究", 计算机与数字工程, no. 05, 20 May 2018 (2018-05-20) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836031A (zh) * 2021-02-01 2021-05-25 杭州微洱网络科技有限公司 面向电商领域的问题判别方法
CN112988664A (zh) * 2021-03-11 2021-06-18 中国平安财产保险股份有限公司 数据归档方法、装置、设备及存储介质
CN112988664B (zh) * 2021-03-11 2023-05-30 中国平安财产保险股份有限公司 数据归档方法、装置、设备及存储介质
CN113239188A (zh) * 2021-04-21 2021-08-10 上海快确信息科技有限公司 一种一套金融交易对话信息分析技术方案
CN114282955A (zh) * 2021-09-17 2022-04-05 时趣互动(北京)科技有限公司 社交媒体内容的行业品牌分类判别系统
CN113807926A (zh) * 2021-09-26 2021-12-17 北京沃东天骏信息技术有限公司 推荐信息生成方法、装置、电子设备和计算机可读介质
CN114999575A (zh) * 2022-05-27 2022-09-02 爱科思(北京)生物科技有限公司 生物信息数据管理系统
CN114999575B (zh) * 2022-05-27 2024-07-16 爱科思(北京)生物科技有限公司 生物信息数据管理系统
CN116644339A (zh) * 2023-07-27 2023-08-25 山东唐和智能科技有限公司 一种信息归类方法及系统
CN116644339B (zh) * 2023-07-27 2023-10-10 山东唐和智能科技有限公司 一种信息归类方法及系统
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111897963B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN111897963B (zh) 一种基于文本信息和机器学习的商品分类方法
US10754883B1 (en) System and method for insight automation from social data
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN115018255A (zh) 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法
Shahade et al. Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
Shahbazi et al. Topic prediction and knowledge discovery based on integrated topic modeling and deep neural networks approaches
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN113538106A (zh) 基于评论整合挖掘的商品精细化推荐方法
Shah et al. Cyber-bullying detection in hinglish languages using machine learning
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Shanavas Graph-Theoretic Approaches to Text Classification
Kokatnoor et al. A Two-Stepped Feature Engineering Process for Topic Modeling Using Batchwise LDA with Stochastic Variational Inference Model.
Shekhar Text Mining and Sentiment Analysis
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Ahmed et al. Text and Sentimental Analysis on Big Data
Xu Evaluation & Analysis of Movie Aspects: Based on Sentiment Analysis
Ahuja et al. Machine Learning based Sentiment Analysis of YouTube Video Comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant