CN114169328A - 一种基于文本的服装流行趋势预测方法 - Google Patents
一种基于文本的服装流行趋势预测方法 Download PDFInfo
- Publication number
- CN114169328A CN114169328A CN202210127184.2A CN202210127184A CN114169328A CN 114169328 A CN114169328 A CN 114169328A CN 202210127184 A CN202210127184 A CN 202210127184A CN 114169328 A CN114169328 A CN 114169328A
- Authority
- CN
- China
- Prior art keywords
- text
- clothing
- neural network
- word
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于文本的服装流行趋势预测方法,其方法主要包括如下步骤:(1)获取服装文本数据;(2)对服装文本数据进行预处理,包括文本分词、停用词去除、文本表示;(3)改进服装文本循环神经网络,预测服装流行趋势。相比现有技术,采用本循环神经网络模型构建服装流行趋势预测模型,通过对服装文本信息,包括服装款式、服装风格、服装材质、场合、特点及评论,有效预测服装流行趋势。
Description
技术领域
本发明属于智能服装技术领域,更具体地,涉及一种基于文本的服装流行趋势预测方法。
背景技术
目前,在线上服装领域,通常会由设计师通过自己的学识经验来设计新的服饰,每次设计一款服饰要消耗大量的时间和精力,设计师也不可能面面俱到的设计出所需的每一种风格的服饰,未来各个地区所流行的服饰并不能被轻易的预测,通常还需要多个熟悉该地区的设计师参与。因此,在服装领域,对服装未来发展趋势的智能预测拥有潜在且巨大的应用场景。
公开号为CN110705755A的中国专利公开了“一种基于深度学习的服装流行趋势预测方法与装置”,从电商服装网站采集历年的流行服装图片和信息,进行特征提取和整合,再根据模型结果输出服装流行度为topk的服装排名的方案,但是这种方案对于服装流行趋势预测不准确,还需进一步优化。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于文本的服装流行趋势预测方法,其目的在于通过收集当下各大网上服装购物网站的服装文本信息,通过深度学习方法预测服装流行趋势,可靠且具有实时性。
为实现上述目的,按照本发明的一个方面,提供了一种基于文本的服装流行趋势预测方法,包括如下步骤:
步骤(1),获取服装文本语句;
步骤(2),对服装文本语句进行预处理,包括文本分词、停用词去除、文本表示;
步骤(3),改进服装文本循环神经网络,将步骤(2)中得到的服装文本表示输入到改进服装文本循环神经网络中,预测服装流行趋势;
所述的改进的服装文本循环神经网络包括:中断循环神经网络模块、注意力机制模块和全连接输出模块,其中中断循环神经网络模块用于获取服装文本表示的上下文表示向量,注意力机制模块用于获得带注意力权重的特征向量,全连接输出模块用于获得最后的预测结果
进一步的,步骤(1)中通过网络爬虫、手工采集方式搜集各大购物网站的服装文本信息,包括服装款式、服装风格、服装材质、场合、特点及评论;其中,购物网站包括亚马逊-网上购物商城、天猫商城、淘宝网以及京东商城。
进一步的,步骤(2)中文本分词包括:对服装文本语句进行切分,识别句子中的标点符号或字词,然后在标点符号或字词的位置上插入分隔符来将一条句子隔开。
进一步的,步骤(2)中停用词去除包括:构建服装文本停用词表,在读取服装文本数据的过程中,去除噪音,即剔除停用词;
其中停用词包括数字、标点符号、特殊符号,特殊符号包括@,%,#以及单个汉字“的”、“和”、“是”。
进一步的,步骤(2)中文本表示,即将服装文本语句数字化,转换成计算机能够正确识别的数据格式,采用基于矩阵的文本表示模型,其目标函数表示如下:
其中,X ij 代表的是单词i和单词j在同一个窗口出现的次数,N代表整个语料库中的词,b i 和b j 代表的是权重矩阵行和列的偏置项,v i 是单词i的词向量,v j 是单词j的词向量,f是一个加权函数,具体计算公式如下:
其中,x表示当前单词出现的次数;x max 表示单词能出现的最大次数。
进一步的,步骤(3)中,中断循环神经网络模块的具体处理过程如下;
将服装数据文本表示作为中断循环神经网络模块的输入,并将句子窗口大小设为k,以步长为1向右移动,划分成等长的n段,在中断循环神经网络中每一时间步的输出只与之前k-1个和当前单词有关,输出看作为有k个单词的短语表示,t时刻的输出表示为:
其中,RNN表示循环神经网络,h t 表示t时刻的输出,x t 表示t时刻的输入,k是一个超参数,表示窗口大小或卷积核的大小。
进一步的,步骤(3)中,注意力机制模块的具体处理过程如下;
在经过中断循环神经网络模块得到每一步的上下文表示,将得到的上下文表示向量首先通过多层感知机提取高级特征,然后将得到的不同高级特征通过注意力机制层来对那些对分类效果有重要作用的全局高级特征赋予更大的权重以此提升进一步分类准确率;注意力机制的计算过程包括两部分:一是注意力权重分布分计算,二是最终的特征向量计算,注意力机制计算如下公式所示:
其中,h t 表示t时刻中断循环神经网络模块的输出,u t 表示特征向量,α t表示注意力权重,W s 和b s 表示可学习的网络参数,u w 是随机初始化的向量,跟着中断循环神经网络模块一起训练,T表示转置,h t '表示最后的带注意力权重的特征向量。
进一步的,步骤(3)中,全连接输出模块包括,将得到的最后的带注意力权重的特征向量h t '经过全连接层后接softmax得到最后的预测结果,即服装流行趋势预测结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的一种基于文本的服装流行趋势预测方法,利用服装文本信息预测服装流行趋势,包括服装款式、材质和风格等,通过深度学习方法预测服装流行趋势,可靠且具有实时性;
(2)本发明提供的一种基于文本的服装流行趋势预测方法,相比于现有技术,本发明可极大减少计算成本和降低系统复杂性,提高了流行预测的效果和质量。
附图说明
图1是本发明实施例提供的一种基于文本的服装流行趋势预测方法流程示意图;
图2是本发明实施例提供的改进的服装文本循环神经网络结构图;
图3为本发明实施例提供的中断循环神经网络模块结构图;
图4是本发明实施例提供的注意力机制模块流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1所示,是实施例提供的一种基于文本的服装流行趋势预测方法流程示意图,包括如下步骤:
步骤(1),获取服装文本语句;
步骤(1)包括通过网络爬虫、手工采集方式搜集各大购物网站的服装文本语句,包括服装款式、服装风格、服装材质、场合、特点及评论。其中,购物网站包括亚马逊-网上购物商城(amazon.com)、天猫商城(tmall.com)、淘宝网(taobao.com)以及京东商城(jd.com)。
步骤(2),对服装文本语句进行预处理得到服装文本表示,包括文本分词、停用词去除、文本表示;
步骤(2)中文本分词包括:对服装文本语句进行切分,识别句子中的标点符号或字词,然后在这些标点符号或是字词的位置上插入分隔符来将一条句子隔开。
其中,文本分词可选基于词典的中文分词方法、基于统计的中文分词方法、基于理解的中文分词方法,分词程序包可选jieba、Snow NLP、THULAC、LTP以及NLPIR 、pkuseg。
其中,步骤(2)中停用词去除包括:构建服装文本停用词表,在读取服装文本数据的过程中,去除噪音,即剔除停用词,节省了数据的内存占用空间,提高了内容搜索的有效性。
其中,停用词主要有数字、标点符号、特殊符号如@,%,# 等以及出现频率特别高但无实际意义的单个汉字如“的 ”、“和”、“是”。
其中,步骤(2)中文本表示,即将服装文本语句数字化,转换成计算机能够正确识别的数据格式,本文采用基于矩阵的文本表示模型将服装文本数据转换为计算机可以识别的服装文本表示,其目标函数表示为:
其中,X ij 代表的是单词i和单词j在同一个窗口出现的次数,同一个窗口是指相同字节个数,N代表整个语料库中的词,b i 和b j 代表的是权重矩阵行和列的偏置项,其中,权重矩阵初始值根据需求设定,后期通过模型训练不断优化,v i 是单词i的词向量,v j 是单词j的词向量,f是一个加权函数,具体计算公式如下:
其中,x表示当前单词出现的次数;x max 表示单词能出现的最大次数。
步骤(3),改进服装文本循环神经网络,利用训练好的网络预测服装流行趋势。
图2所示,是实施例提供的一种改进的服装文本循环神经网络结构图;改进的服装文本循环神经网络包括:中断循环神经网络模块、注意力机制模块和全连接输出模块。
其中,如图3所示,中断循环神经网络模块可以看作是一种特殊的一维卷积神经网络,只是将卷积操作中的卷积过滤器换成了循环单元,循环单元是常规的RNN单元,中断循环神经网络模块包括:将服装文本表示作为中断循环神经网络模块的输入,并将句子窗口大小设为k,以步长为1向右移动,划分成等长的n段。在中断循环神经网络中每一时间步的输出只与之前k-1个和当前单词有关,输出可以看作为有k个单词的短语表示,把k看作是窗口尺寸,具有相同k个词的短语无论所处的位置在哪里都将得到相同的表示,因此t时刻的输出可以表示为:
其中,RNN表示循环神经网络,h t 表示t时刻的输出,x t 表示t时刻的输入,k是一个超参数,表示窗口大小或卷积核的大小。
如图4所示,是本发明实施例提供的注意力机制模块流程图;其中,注意力机制模块包括:在经过中断循环神经网络模块得到每一步的上下文表示向量,将得到的上下文表示向量首先通过多层感知机提取高级特征,然后将得到的不同高级特征通过注意力机制层来对那些对分类效果有重要作用的全局高级特征赋予更大的权重以此提升进一步分类准确率。注意力机制的计算过程主要包括两部分:一是注意力权重分布分计算,二是最终的特征向量计算。注意力机制计算如下公式所示:
其中,h t 表示t时刻中断循环神经网络模块的输出,u t 表示特征向量,α t表示注意力权重,W s 和b s 表示可学习的网络参数,u w 是随机初始化的向量,跟着中断循环神经网络模块一起训练,T表示转置,h t '表示最后的带注意力权重的特征向量。
其中,全连接输出模块包括:将得到最后的带注意力权重的特征向量h t '经过全连接层后接softmax得到最后的预测结果,即服装流行趋势预测结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于文本的服装流行趋势预测方法,其特征在于,包括如下步骤:
步骤(1),获取服装文本语句;
步骤(2),对服装文本语句进行预处理,包括文本分词、停用词去除、文本表示;
步骤(3),改进服装文本循环神经网络,将步骤(2)中得到的服装文本表示输入到改进服装文本循环神经网络中,预测服装流行趋势;
所述的改进服装文本循环神经网络包括:中断循环神经网络模块、注意力机制模块和全连接输出模块,其中中断循环神经网络模块用于获取服装文本表示的上下文表示向量,注意力机制模块用于获得带注意力权重的特征向量,全连接输出模块用于获得最后的预测结果。
2.如权利要求1所述的一种基于文本的服装流行趋势预测方法,其特征在于:
步骤(1)中通过网络爬虫、手工采集方式搜集各大购物网站的服装文本信息,包括服装款式、服装风格、服装材质、场合、特点及评论;其中,购物网站包括亚马逊-网上购物商城、天猫商城、淘宝网以及京东商城。
3.如权利要求1所述的一种基于文本的服装流行趋势预测方法,其特征在于:
步骤(2)中文本分词包括:对服装文本语句进行切分,识别句子中的标点符号或字词,然后在标点符号或字词的位置上插入分隔符来将一条句子隔开。
4.如权利要求1所述的一种基于文本的服装流行趋势预测方法,其特征在于:
步骤(2)中停用词去除包括:构建服装文本停用词表,在读取服装文本数据的过程中,去除噪音,即剔除停用词;
其中停用词包括数字、标点符号、特殊符号,特殊符号包括@,%,#以及单个汉字“的”、“和”、“是”。
7.如权利要求6所述的一种基于文本的服装流行趋势预测方法,其特征在于:
步骤(3)中,注意力机制模块的具体处理过程如下;
在经过中断循环神经网络模块得到每一步的上下文表示,将得到的上下文表示向量首先通过多层感知机提取高级特征,然后将得到的不同高级特征通过注意力机制层来进行权重分布计算;注意力机制的计算过程包括两部分:一是注意力权重分布分计算,二是最终的特征向量计算,注意力机制计算如下公式所示:
其中,h t 表示t时刻中断循环神经网络模块的输出,u t 表示特征向量,α t表示注意力权重,W s 和b s 表示可学习的网络参数,u w 是随机初始化的向量,跟着中断循环神经网络模块一起训练,T表示转置,h t '表示最后的带注意力权重的特征向量。
8.如权利要求7所述的一种基于文本的服装流行趋势预测方法,其特征在于:
步骤(3)中,全连接输出模块包括,将得到的最后的带注意力权重的特征向量h t '经过全连接层后接softmax得到最后的预测结果,即服装流行趋势预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210127184.2A CN114169328A (zh) | 2022-02-11 | 2022-02-11 | 一种基于文本的服装流行趋势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210127184.2A CN114169328A (zh) | 2022-02-11 | 2022-02-11 | 一种基于文本的服装流行趋势预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114169328A true CN114169328A (zh) | 2022-03-11 |
Family
ID=80489693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210127184.2A Pending CN114169328A (zh) | 2022-02-11 | 2022-02-11 | 一种基于文本的服装流行趋势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169328A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960499A (zh) * | 2018-06-27 | 2018-12-07 | 东华大学 | 一种融合视觉和非视觉特征的服装流行趋势预测系统 |
CN109377260A (zh) * | 2018-09-14 | 2019-02-22 | 江阴逐日信息科技有限公司 | 面向服装行业的用户行为分析系统 |
CN110705755A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(广州)科技有限公司 | 一种基于深度学习的服装流行趋势预测方法与装置 |
-
2022
- 2022-02-11 CN CN202210127184.2A patent/CN114169328A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960499A (zh) * | 2018-06-27 | 2018-12-07 | 东华大学 | 一种融合视觉和非视觉特征的服装流行趋势预测系统 |
CN109377260A (zh) * | 2018-09-14 | 2019-02-22 | 江阴逐日信息科技有限公司 | 面向服装行业的用户行为分析系统 |
CN110705755A (zh) * | 2019-09-07 | 2020-01-17 | 创新奇智(广州)科技有限公司 | 一种基于深度学习的服装流行趋势预测方法与装置 |
Non-Patent Citations (1)
Title |
---|
邹瑶: "基于深度学习和注意力机制文本分类模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Facial expression recognition with grid-wise attention and visual transformer | |
Liao et al. | Real-time scene text detection with differentiable binarization and adaptive scale fusion | |
Lai et al. | Fine-grained emotion classification of Chinese microblogs based on graph convolution networks | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
Chen et al. | A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction | |
Li et al. | Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning | |
CN112597366B (zh) | 基于Encoder-Decoder的事件抽取方法 | |
Wang et al. | Detecting hot topics from academic big data | |
Naresh Kumar et al. | Intelligent sentinet-based lexicon for context-aware sentiment analysis: optimized neural network for sentiment classification on social media | |
CN111666752A (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
Das et al. | A deep sign language recognition system for Indian sign language | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
Markewich et al. | Segmentation for document layout analysis: not dead yet | |
Ghosh | Identifying click baits using various machine learning and deep learning techniques | |
AlAjlan et al. | Machine learning approach for threat detection on social media posts containing Arabic text | |
Chao et al. | Variational connectionist temporal classification | |
CN116911286A (zh) | 词典构建方法、情感分析方法、装置、设备及存储介质 | |
CN114169328A (zh) | 一种基于文本的服装流行趋势预测方法 | |
CN112765353B (zh) | 一种基于科研文本的生物医学学科分类方法及装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Cai et al. | Hcadecoder: A hybrid ctc-attention decoder for chinese text recognition | |
CN114528373A (zh) | 一种基于嵌入的新闻多标签分类方法及装置 | |
Li et al. | Multi-level emotion cause analysis by multi-head attention based multi-task learning | |
Huang et al. | Task Grouping for Multilingual Text Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220311 |