CN110287329A - 一种基于商品文本分类的电商类目属性挖掘方法 - Google Patents

一种基于商品文本分类的电商类目属性挖掘方法 Download PDF

Info

Publication number
CN110287329A
CN110287329A CN201910599049.6A CN201910599049A CN110287329A CN 110287329 A CN110287329 A CN 110287329A CN 201910599049 A CN201910599049 A CN 201910599049A CN 110287329 A CN110287329 A CN 110287329A
Authority
CN
China
Prior art keywords
classification
text
attribute
level
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910599049.6A
Other languages
English (en)
Other versions
CN110287329B (zh
Inventor
刘凡
张伟娟
刘森斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
刘凡
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 刘凡 filed Critical 刘凡
Priority to CN201910599049.6A priority Critical patent/CN110287329B/zh
Publication of CN110287329A publication Critical patent/CN110287329A/zh
Application granted granted Critical
Publication of CN110287329B publication Critical patent/CN110287329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于商品文本分类的电商类目属性挖掘方法,属于电商类目属性挖掘技术领域。该方法使用文本分类模型,根据商品文本信息对商品进行分类;基于一级类目商品分类模型与对应目标端一级类目数据建立映射;基于叶子类目商品分类模型与对应目标端叶子类目数据建立映射;基于源端类目体系和目标类目体系的映射,预测源端类目属性和目标端类目属性的相似度,建立类目属性映射,挖掘源端类目下未建立映射的属性作为目标类目的推荐属性;挖掘源端类目属性下未建立映射的属性作为目标类目的推荐属性。本发明在大规模数据集上展现出了优异的分类效果和良好的分类性能。

Description

一种基于商品文本分类的电商类目属性挖掘方法
技术领域
本发明一种基于商品文本分类的电商类目属性挖掘方法涉及电商类目属性挖掘方法,具体涉及每个电商平台的类目属性属性值挖掘方法,属于电商类目属性挖掘技术领域。
背景技术
类目体系建设方法目前总体来说共有三种方法,分别是运营人工构建,商家共建,基于大数据挖掘的方法,下面分别论述。
运营人工构建主要应用于电子商务平台发展初期,此时商品数目少,商品分类规模小,用户需求单一,市场覆盖范围小,运营人工构建不仅简单而且可以满足需求,淘宝,京东等电子商务平台初期均是应用此方法来建设类目体系。但是随着电子商务平台的发展进入大数据时期,电子商务平台的商品数以亿计,分类规模已达数万,用户需求多样,覆盖的市场范围极大,此时再用运营人工构建的方法去建设类目体系不仅要耗费大量的人力,而且往往建设往往无法再有效的跟随市场的发展,即运营无法及时的敏锐的感知到市场需求的变化。
在这种情况下,商家共建的方法被提出。作为电子商务平台上的卖家,商家对于市场需求的变化是最为及时的,商家对于电子商务平台的类目建设的完备性的需求也是最为迫切的,因此开放一个平台让商家参与到类目建设中来是一个有效的方案,然而此种方法依然没有解决大数据时代下依靠人工建设的巨大成本以及时效性问题。总之,完全基于人工构建类目体系的方法在大数据时代下已无法满足成熟的电子商务平台的需要。
在电子商务进入大数据时代后,电子商务平台积累了大量的商品数据,评价数据,类目数据等等。如何基于这些数据有效的挖掘出信息成为了一个研究方向,如蒋建洪等(蒋建洪, 罗玫. 在线商品的潜在语义信息提取及分类研究[J]. 计算机与数字工程, 2014(1):112-116.)利用电子商务平台的大量交易数据,商品数据,使用潜在语义分析方法,实现了一个商品类别分类算法,该算法可以应用于类目建设中以挖掘出新的类目。电子商务评价数据也大量的在大数据挖掘中被采用,陈江涛等(陈江涛, 张金隆, 张亚军. 在线商品评论有用性影响因素研究:基于文本语义视角[J]. 图书情报工作, 2012, 56(10).)利用亚马逊在线评论数据,挖掘类目下消费者感兴趣的关键信息,崔永生(崔永生. 在线评论文本挖掘对电商的影响研究[J]. 中国商论, 2018, 772(33):23-29.)基于对在线评论文本的挖掘,设计了一种基于语义词典的评论商品属性<特征词,观点词>对抽取方法,这些基于评论数据挖掘得到的信息可以作为属性,属性值等被应用到电子商务平台的类目体系建设中。
随着电子商务平台的蓬勃发展,基于大数据挖掘的类目体系建设方法以其快速,高效,自动化,成本低等优势将逐渐替代基于人工建设的方法。
发明内容
本发明所要解决的技术问题是:提供一种基于商品文本分类的电商类目属性挖掘方法,采用更加快速的、架构简单的、计算效率更高的编码方法解决电商类目属性挖掘问题。
本发明是采用以下技术方案实现的:
一种基于商品文本分类的电商类目属性挖掘方法,包括如下步骤:
步骤1,创建源端商品标题文本数据集为,其中表示源端第i个一级类目所包含的文本数据集合,其中 ,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
创建目标端商品标题文本数据集,其中表示目标端第j个一级类目所包含的文本数据集合,其中N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合,其中T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤2,对源端商品标题文本数据集和目标端商品标题文本数据集进行文本预处理,所述文本预处理包括文本清洗,文本分词和文本表示等步骤;
将经过文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合,其中 ,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
经过文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,其中N为目标端一级类目的个数, 表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,其中T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤3,使用数据集训练具有N个一级类目分类结果的fastText线性文本分类器,得到目标端基于fastText的一级类目商品文本分类模型M-root;对于一级类目j所有对应的数据集训练具有T个叶子类目分类结果的fastText线性文本分类器,得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf [j];
步骤4,使用步骤3训练好的模型M-root预测源端一级类目的文本数据集中的每一条数据,得到每一条数据在目标端对应的一级类目,然后选取出现次数最多的一级类目j作为映射结果;
步骤5,基于步骤4的一级类目映射结果,即源端一级类目与目标端一级类目形成映射,使用步骤3训练好的叶子类目分类模型M-leaf [j]预测源端类目i对应的文本数据集合中的每一条文本数据,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数,得到每条文本数据在目标端一级类目j下对应的叶子类目,然后选取出现次数最多的叶子类目q作为映射结果;
步骤6,基于步骤5的叶子类目映射结果,假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上,则源端一级类目i下的叶子类目p的属性集合与目标端一级类目j下的叶子类目q的属性集合形成映射,其中为源端叶子类目的第a个叶子类目属性,,K表示叶子类目p的属性总数,K的取值范围是正整数,为目标端叶子类目q的第b个叶子类目属性,L表示叶子类目q的属性总数,L是正整数,设属性映射的文本相似度阈值为Ta
使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性的文本相似度,若文本相似度均低于阈值Ta,说明叶子类目q没有此属性,则将放入集合Att-c,否则取中文本相似度最高的属性(若有多个,则随机取一个)建立映射;产生的集合Att-c即为从源端类目下挖掘的属性,集合Att-c中的属性即为目标端对应叶子类目下的推荐属性;
步骤7,基于步骤6的叶子类目属性映射结果,假设源端叶子类目属性与目标端叶子类目属性形成映射,其中的第u个属性值,其中,G表示叶子类目的属性的属性值总数,G的取值范围是正整数,的第w个叶子类目属性属性值,H表示叶子类目属性的属性值总数,H的取值范围是正整数,设属性值映射的文本相似度阈值为Tv;
使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性值的文本相似度,若文本相似度均低于阈值Tv,说明目标端类目属性没有此属性,则将放入集合Vul-c;产生的集合Vul-c即为从源端类目下挖掘的属性值,集合Vul-c中的属性即为目标端对应叶子类目属性下的推荐属性值。
作为本发明的一种优选方案,步骤2所述文本预处理过程包括文本清洗、文本分词、文本表示三个步骤,具体过程如下:
2-1)对商品标题字段进行清洗处理,将传入的源端商品标题数据集和目标端商品标题数据集中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串,其中“^\\x{4e00}-\\x{9fa5}”表示中文字符,“0-9”表示数字字符,“a-z”表示小写英文字母字符,“A-Z”表示大写英文字母字符;
2-2)基于步骤(2-1)文本清洗的结果,再使用分词组件分别对源端商品标题数据集和目标端商品标题数据集进行分词;根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数,为目标端商品标题文本数据生成对应的词查找表;
2-3)基于步骤(2-2)文本分词的结果,使用词袋模型进行文本表示,并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息,用以弥补使用词袋模型的文本表示带来的语义损失,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数。
作为本发明的一种优选方案,步骤3所述使用fastText线性文本分类器对一级类目和所属叶子类目的商品标题文本进行分类,具体过程如下:
3-1)以文本的词查找表作为权重矩阵A输入fastText文本分类器,隐藏层对权重矩阵A做简单的叠加然后求平均向量,该平均向量作为词表示的文本表示送入输出层;
3-2)其中输出层使用基于哈夫曼编码树的分层softmax,在这个哈夫曼编码树中,每一个节点代表一个分类标签;以每个分类标签出现的次数为权重来构建该哈夫曼编码树,分类标签出现的次数越多,该分类标签在哈夫曼编码树中的路径就越短;
设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率,如果一个节点的深度为,它的父节点为,那么它的概率为:
其中表示该节点到根结点的路径长度,的取值范围是正整数;
3-3)fastText模型代价函数为:
其中N为输入文本的个数,是第n个文本的标准化向量,是第n个输入文本的对应标签,B和A是模型的权重矩阵。
作为本发明的一种优选方案,步骤6所述基于LCS算法的属性文本相似度,计算公式如下:
其中Ts为文本相似度,为源端属性文本的长度,为目标端属性文本的长度,为使用Needleman—Wunsch算法得到的LCS字符串的长度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明由于引入了fastText文本分类模型,一定程度上简化了类目属性属性值挖掘过程中商品标题文本分类的模型架构,大大减少了商品分类过程中的训练时间,在大规模数据集上也展现出了优异的分类效果和非常快的训练速度以及分类性能。
2、本发明采用了更高效的基于哈夫曼编码树的分层softmax,简单易行,计算效率更高。
3、本发明采用了基于LCS算法的文本相似度计算,计算属性属性值之间的相似度,大大节省了属性属性值建立映射的时间,高效而又快速。
附图说明
以下将结合附图对本发明作进一步说明:
图1是本发明基于商品分类模型实现的类目属性属性值映射原理图;
图2是本发明基于fastText的商品文本分类方法的模型图;
图3是本发明基于fastText的商品文本分类模型与常用的文本分类模型TextCNN、TextRNN、TextRCNN进行实验的准确率对比图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
电商类目属性挖掘问题的难点在于解决大规模的商品分类问题和类目属性属性值映射问题,一个完备的类目体系能适应不同用户的不同需求,从而提升整个电子商务平台的交易量。基于这一需求,本发明提出一种基于商品文本分类的电商类目属性挖掘方法。
如图1所示,本发明一种基于商品文本分类的电商类目属性挖掘方法,包括以下步骤:
1、首先创建源端商品标题文本数据集为,其中表示源端第i个一级类目所包含的文本数据集合,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
创建目标端商品标题文本数据集,其中表示目标端第j个一级类目所包含的文本数据集合,N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数。
2、对源端商品标题文本数据集和目标端商品标题文本数据集进行文本预处理,包括文本清洗,文本分词和文本表示等步骤;
将文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤2的具体过程如下:
(2-1)对商品标题字段进行清洗处理,将传入的源端商品标题数据集和目标端商品标题数据集中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串,其中“^\\x{4e00}-\\x{9fa5}”表示是中文字符,“0-9”表示数字字符,“a-z”表示小写英文字母字符,“A-Z”表示大写英文字母字符;
(2-2)基于步骤(2-1)文本清洗的结果,再使用分词组件分别对源端商品标题数据集和目标端商品标题数据集进行分词;根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数,为目标端商品标题文本数据生成对应的词查找表;
(2-3)基于(2-2)文本分词的结果,使用词袋模型进行文本表示,并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息,用以弥补使用词袋模型的文本表示带来的语义损失,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数。
3、使用数据集训练具有N个一级类目分类结果的fastText线性文本分类器,得到目标端基于fastText的一级类目商品文本分类模型M-root;对于一级类目j所有对应的数据集训练具有T个叶子类目分类结果的fastText线性文本分类器,得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf[j]。
步骤3的具体过程如下:
(3-1)如图2,以文本的词查找表作为权重矩阵A输入fastText文本分类器,隐藏层对权重矩阵A做简单的叠加然后求平均向量,该平均向量作为词表示的文本表示送入输出层;
(3-2)其中输出层使用基于哈夫曼编码树的分层softmax,在这个哈夫曼编码树中,每一个节点代表一个分类标签;
以每个分类标签出现的次数为权重来构建该哈夫曼编码树,分类标签出现的次数越多,该分类标签在哈夫曼编码树中的路径就越短;
设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率,如果一个节点的深度为,它的父节点为,那么它的概率为:
其中表示该节点到根结点的路径长度, 的取值范围是正整数;
(3-3)fastText模型代价函数为:
其中N为输入文本的个数,是第n个文本的标准化向量,是第n个输入文本的对应标签,B和A是模型的权重矩阵。
4、使用步骤3训练好的模型M-root预测源端一级类目,得到其在目标端对应的一级类目,然后选取出现次数最多的一级类目作为映射结果。
5、基于步骤4的一级类目映射结果,即源端一级类目与目标端一级类目形成映射,使用步骤3训练好的叶子类目分类模型M-leaf[j]预测源端类目i对应的文本数据集合中的每一条文本数据,,得到每条文本数据在目标端一级类目j下对应的叶子类目,然后选取出现次数最多的叶子类目q作为映射结果。
6、基于步骤5的叶子类目映射结果,假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上,则源端一级类目i下的叶子类目p的属性集合与目标端一级类目j下的叶子类目q的属性集合形成映射,其中为源端叶子类目的第a个叶子类目属性,为目标端叶子类目q的第b个叶子类目属性,,设属性映射的文本相似度阈值为Ta。使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性的文本相似度,若文本相似度均低于阈值Ta,说明叶子类目q没有此属性,则将放入集合Att-c,否则取中文本相似度最高的属性(若有多个,则随机取一个)建立映射。产生的集合Att-c即为从源端类目下挖掘的属性,集合Att-c中的属性即为目标端对应叶子类目下的推荐属性。
其中基于LCS算法的属性文本相似度,计算公式如下:
其中Ts为文本相似度,为源端属性文本的长度,为目标端属性文本的长度,为使用Needleman—Wunsch算法得到的LCS字符串的长度。
7、基于步骤6的叶子类目属性映射结果,假设源端叶子类目属性与目标端叶子类目属性形成映射,其中的第u个属性值,的第w个叶子类目属性属性值,,设属性值映射的文本相似度阈值为Tv。使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性值的文本相似度,若文本相似度均低于阈值Tv,说明目标端类目属性没有此属性,则将放入集合Vul-c。产生的集合Vul-c即为从源端类目下挖掘的属性值,集合Vul-c中的属性即为目标端对应叶子类目属性下的推荐属性值。
本发明公开一种基于商品文本分类的电商类目属性挖掘方法,可以根据商品标题对商品进行分类,根据分类结果建立类目属性属性值之间的映射,有效解决电商平台商品分类混乱,用户难以找到自己想要的商品,电子商务平台提供的基于商品分类的搜索和导购功能的准确率低的问题。其中fastText文本分类模型,以其模型架构简单、分类快速高效的优点,在大规模数据集上也展现出了优异的分类效果和良好的分类性能以及非常快的训练速度。如图3所示,从50万的数据集中随机选取 80%作为训练集、10%作为验证集、10%作为测试集,结果显示fastText商品文本分类模型的准确率比TextCNN、TextRNN、TextRCNN文本分类模型的准确率高出很多,并且在训练速度上fastText商品文本分类模型还高出几个数量级。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (4)

1.一种基于商品文本分类的电商类目属性挖掘方法,其特征在于,包括如下步骤:
创建源端商品标题文本数据集为,其中表示源端第i个一级类目所包含的文本数据集合,其中M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的文本数据集合,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
创建目标端商品标题文本数据集,其中表示目标端第j个一级类目所包含的文本数据集合,其中N为目标端一级类目的个数,表示目标端第j个一级类目的第q个叶子类目所包含的文本数据集合,其中T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤2,对源端商品标题文本数据集和目标端商品标题文本数据集进行文本预处理,所述文本预处理包括文本清洗,文本分词和文本表示等步骤;
将经过文本清洗和文本分词步骤处理过的商品标题用词袋模型进行文本表示,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合,其中 ,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
经过文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,其中N为目标端一级类目的个数表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,其中T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数;
步骤3,使用数据集训练具有N个一级类目分类结果的fastText线性文本分类器,得到目标端基于fastText的一级类目商品文本分类模型M-root;对于一级类目j所有对应的数据集训练具有T个叶子类目分类结果的fastText线性文本分类器,得到目标端一级类目j下的叶子类目商品文本分类模型M-leaf [j];
步骤4,使用步骤3训练好的模型M-root预测源端一级类目的文本数据集中的每一条数据,得到每一条数据在目标端对应的一级类目,然后选取出现次数最多的一级类目j作为映射结果;
步骤5,基于步骤4的一级类目映射结果,即源端一级类目与目标端一级类目形成映射,使用步骤3训练好的叶子类目分类模型M-leaf [j]预测源端类目i对应的文本数据中的每一条文本数据,其中S表示源端一级类目下叶子类目的总数,S的取值范围是正整数,得到每条文本数据在目标端一级类目j下对应的叶子类目,然后选取出现次数最多的叶子类目q作为映射结果;
步骤6,基于步骤5的叶子类目映射结果,假设源端一级类目i下的叶子类目p映射到目标端一级类目j的叶子类目q上,则源端一级类目i下的叶子类目p的属性集合与目标端一级类目j下的叶子类目q的属性集合形成映射,其中为源端叶子类目的第a个叶子类目属性,,K表示叶子类目p的属性总数,K的取值范围是正整数,为目标端叶子类目q的第b个叶子类目属性,L表示叶子类目q的属性总数,L是正整数,设属性映射的文本相似度阈值为Ta
使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性的文本相似度,若文本相似度均低于阈值Ta,说明叶子类目q没有此属性,则将放入集合Att-c,否则取中文本相似度最高的属性(若有多个,则随机取一个)建立映射;产生的集合Att-c即为从源端类目下挖掘的属性,集合Att-c中的属性即为目标端对应叶子类目下的推荐属性;
步骤7,基于步骤6的叶子类目属性映射结果,假设源端叶子类目属性与目标端叶子类目属性形成映射,其中的第u个属性值,其中,G表示叶子类目属性的属性值总数,G的取值范围是正整数,的第w个叶子类目属性属性值,H表示叶子类目属性的属性值总数,H的取值范围是正整数,设属性值映射的文本相似度阈值为Tv;
使用基于LCS算法的属性文本相似度模型M-LCS,计算中每个属性值的文本相似度,若文本相似度均低于阈值Tv,说明目标端类目属性没有此属性,则将放入集合Vul-c;产生的集合Vul-c即为从源端类目下挖掘的属性值,集合Vul-c中的属性即为目标端对应叶子类目属性下的推荐属性值。
2.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤2所述文本预处理过程包括文本清洗、文本分词、文本表示三个步骤,具体过程如下:
2-1)对商品标题字段进行清洗处理,将传入的源端商品标题数据集和目标端商品标题数据集中符合正则表达式“[^\\x{4e00}-\\x{9fa5}0-9a-zA-Z]”的部分全部替换为替换字符串,其中“^\\x{4e00}-\\x{9fa5}”表示中文字符,“0-9”表示数字字符,“a-z”表示小写英文字母字符,“A-Z”表示大写英文字母字符;
2-2)基于步骤(2-1)文本清洗的结果,再使用分词组件分别对源端商品标题数据集和目标端商品标题数据集进行分词;根据分词结果统计源端和目标端商品标题数据集中每个词出现的频数,为目标端商品标题文本数据生成对应的词查找表;
2-3)基于步骤(2-2)文本分词的结果,使用词袋模型进行文本表示,并且采用文本的n-grams作为额外特征来获取文本局部顺序的部分信息,用以弥补使用词袋模型的文本表示带来的语义损失,得到源端数据集为,其中表示源端数据经文本表示得到的数据集中第i个一级类目所包含的数据集合,M为源端一级类目的个数,M的取值范围是正整数,表示源端第i个一级类目的第p个叶子类目所包含的数据集合,S表示源端一级类目下叶子类目的总数,S的取值范围是正整数;
文本表示后目标端数据集为,其中表示目标端数据经文本表示得到的数据集中第j个一级类目所包含的数据集合,N为目标端一级类目的个数表示目标端第j个一级类目的第q个叶子类目所包含的数据集合,T表示目标端一级类目下叶子类目的总数,T的取值范围是正整数。
3.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤3所述使用fastText线性文本分类器对一级类目和所属叶子类目的商品标题文本进行分类,具体过程如下:
3-1)以文本的词查找表作为权重矩阵A输入fastText文本分类器,隐藏层对权重矩阵A做简单的叠加然后求平均向量,该平均向量作为词表示的文本表示送入输出层;
3-2)其中输出层使用基于哈夫曼编码树的分层softmax,在这个哈夫曼编码树中,每一个节点代表一个分类标签;以每个分类标签出现的次数为权重来构建该哈夫曼编码树,分类标签出现的次数越多,该分类标签在哈夫曼编码树中的路径就越短;
设该哈夫曼编码树的每个节点都有一个从根节点到该节点的路径概率,如果一个节点的深度为 +1,它的父节点为,...,,那么它的概率为:
其中表示该节点到根结点的路径长度,的取值范围是正整数;
3-3)fastText模型代价函数为:
其中N为输入文本的个数,是第n个文本的标准化向量,是第n个输入文本的对应标签,B和A是模型的权重矩阵。
4.根据权利要求1所述基于商品文本分类的电商类目属性挖掘方法,其特征在于,步骤6所述基于LCS算法的属性文本相似度,计算公式如下:
其中Ts为文本相似度,为源端属性文本的长度,为目标端属性文本的长度,为使用Needleman—Wunsch算法得到的LCS字符串的长度。
CN201910599049.6A 2019-07-04 2019-07-04 一种基于商品文本分类的电商类目属性挖掘方法 Active CN110287329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910599049.6A CN110287329B (zh) 2019-07-04 2019-07-04 一种基于商品文本分类的电商类目属性挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910599049.6A CN110287329B (zh) 2019-07-04 2019-07-04 一种基于商品文本分类的电商类目属性挖掘方法

Publications (2)

Publication Number Publication Date
CN110287329A true CN110287329A (zh) 2019-09-27
CN110287329B CN110287329B (zh) 2021-01-29

Family

ID=68021874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910599049.6A Active CN110287329B (zh) 2019-07-04 2019-07-04 一种基于商品文本分类的电商类目属性挖掘方法

Country Status (1)

Country Link
CN (1) CN110287329B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112632273A (zh) * 2020-10-23 2021-04-09 东南数字经济发展研究院 一种基于社交电商公开文本信息的商品细粒度分类方法
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN112988953A (zh) * 2021-04-26 2021-06-18 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法
CN113570428A (zh) * 2021-07-23 2021-10-29 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统
CN113744006A (zh) * 2020-05-29 2021-12-03 北京达佳互联信息技术有限公司 类目推荐方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296208A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种商品分类方法及装置
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
US20180329999A1 (en) * 2017-05-15 2018-11-15 Ebay Inc. Methods and systems for query segmentation
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296208A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种商品分类方法及装置
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
US20180329999A1 (en) * 2017-05-15 2018-11-15 Ebay Inc. Methods and systems for query segmentation
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
崔永生: "在线评论文本挖掘对电商的影响研究", 《中国商论》 *
张艳辉等: "基于淘宝网评论数据的信息质量对在线评论有用性的影响", 《管理学报》 *
蒋建洪等: "在线商品的潜在语义信息提取及分类研究", 《计算机与数字工程》 *
陈江涛等: "在线商品评论有用性影响因素研究:基于文本语义视角", 《图书情报工作》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744006A (zh) * 2020-05-29 2021-12-03 北京达佳互联信息技术有限公司 类目推荐方法、装置、电子设备及存储介质
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN111753058B (zh) * 2020-06-30 2023-06-02 北京信息科技大学 一种文本观点挖掘方法及系统
CN112632273A (zh) * 2020-10-23 2021-04-09 东南数字经济发展研究院 一种基于社交电商公开文本信息的商品细粒度分类方法
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN112988953A (zh) * 2021-04-26 2021-06-18 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法
CN113570428A (zh) * 2021-07-23 2021-10-29 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统
CN113570428B (zh) * 2021-07-23 2024-02-02 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统

Also Published As

Publication number Publication date
CN110287329B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN102722709B (zh) 一种垃圾图片识别方法和装置
Galassi et al. Argumentative link prediction using residual networks and multi-objective learning
CN110046260A (zh) 一种基于知识图谱的暗网话题发现方法和系统
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN103473283A (zh) 一种文本案例匹配方法
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
Qian et al. Sentiment analysis model on weather related tweets with deep neural network
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
Aulianita et al. Sentiment Analysis Review Of Smartphones With Artificial Intelligent Camera Technology Using Naive Bayes and n-gram Character Selection
Kundana Data Driven Analysis of Borobudur Ticket Sentiment Using Naïve Bayes.
CN109460895A (zh) 构建社会单位画像的方法及系统
Yanti et al. Application of named entity recognition via Twitter on SpaCy in Indonesian (case study: Power failure in the Special Region of Yogyakarta)
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN116467437A (zh) 面向复杂场景描述的自动流程建模方法
CN112784040B (zh) 基于语料库的垂直行业文本分类方法
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network
Wang et al. Sentiment detection and visualization of Chinese micro-blog

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210111

Address after: 211100 No. 8 West Buddha Road, Jiangning District, Jiangsu, Nanjing

Applicant after: HOHAI University

Address before: 211100 No.8, Fucheng West Road, Jiangning District, Nanjing City, Jiangsu Province

Applicant before: Liu Fan

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant