CN109614475A - 一种基于深度学习的产品特征确定方法 - Google Patents

一种基于深度学习的产品特征确定方法 Download PDF

Info

Publication number
CN109614475A
CN109614475A CN201811500454.XA CN201811500454A CN109614475A CN 109614475 A CN109614475 A CN 109614475A CN 201811500454 A CN201811500454 A CN 201811500454A CN 109614475 A CN109614475 A CN 109614475A
Authority
CN
China
Prior art keywords
text
result
obtains
product
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811500454.XA
Other languages
English (en)
Inventor
廖文雄
曾碧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811500454.XA priority Critical patent/CN109614475A/zh
Publication of CN109614475A publication Critical patent/CN109614475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的产品特征确定方法,该方法包括以下步骤:获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本;对目标评论文本进行向量化,获得文本向量化结果;将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;利用主题分类结果,确定用户关注的产品特征。该方法可对用户真实评论进行整理、分析,可获得更加切合用户需求或喜欢的产品特征。进而,便可根据用户更为关注的产品特征对产品进行重点改进,或在销售时,重点凸出该特征,以吸引用户消费或使用,带来更好的经济效益。本发明还公开了一种基于深度学习的产品特征确定装置、设备及可读存储介质,具有相应的技术效果。

Description

一种基于深度学习的产品特征确定方法
技术领域
本发明涉及信息处理技术领域,特别是涉及一种基于深度学习的产品特征确定方法、装置、设备及可读存储介质。
背景技术
由于大多数据的产品被生产、制造出之后,须被消费者或用户所购买、租借等消费或使用行为产生之后,才能实现创建该产品的价值,才能带来经济效益。
生产出的产品是否受到消费者喜爱,与生产者的利益息息相关。但是,随着物质文件的日益进步,对于同一产品,消费者产生了不同的需求,且同一产品也处于不同的角度来评价,具有不同的特征、性能。如何使得生产出的成品更受消费者喜爱,这就需要掌握大多数消费者或产品定位人群的对某些商品特征的关注程度。例如,对于电视机,消费者更关注其使用寿命、外观造型、清晰度、节能指标等特征中的哪一个或多个特征。得知用户关注的商品特征之后,便可着重针对该特征进行改进,或在销售过程中进行宣传。
但是,通常了解消费者喜好或关注的特征,通常是凭经验或调查问卷的方式进行。凭经验而定,往往可能会经验不足而导致偏离实际用户喜欢,导致产品滞销等危机;而调查问卷的方式,往往耗费大量的人力和物力,另外,调查数量有限,同样会存在结果不准确的情况。
综上所述,如何有效地解决确定消费者关注的产品特征等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种基于深度学习的产品特征确定方法、装置、设备及可读存储介质,以准确地得知用户或消费者关注的产品特征,以便针对消费者的喜欢,对产品进行改进或销售。
为解决上述技术问题,本发明提供如下技术方案:
一种基于深度学习的产品特征确定方法,包括:
获取目标产品的用户评论文本,并对所述用户评论文本进行预处理,获得目标评论文本;
对所述目标评论文本进行向量化,获得文本向量化结果;
将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;
利用所述主题分类结果,确定用户关注的产品特征。
优选地,包括:
计算所述目标评论文本的TF-IDF值;
利用LSA算法对所述TF-IDF值进行降维,并对降维结果进行向量化,获得所述文本向量化结果。
优选地,对所述用户评论文本进行预处理,获得目标评论文本,包括:
对所述用户评论文本进行格式规范化处理;
对所述用户评论文本进行分词处理,获得分词结果;
过滤所述分词结果中的停止词和无效符号,获得所述目标评论文本。
优选地,将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果,包括:
将所述向量化结果输入所述神经网络模型中;其中,所述神经网络模型包括深度信念网络和分类器,所述深度信念网络中具有多层限制玻尔兹曼机网络,所述分类器包括全卷积网络;
利用所述深度信念网络,对所述向量化结果进行深层次特征提取;
利用所述分类器,对提取到的特征进行主题分类,获得所述主题分类结果。
优选地,还包括:
创建初始神经网络模型;其中,所述初始神经网络模型包括所述深度信念网络和所述分类器;
获取训练文本,并利用所述训练文本对所述初始神经网络模型进行训练,获得所述神经网络模型。
优选地,所述获取训练文本,包括:
利用网络爬虫,获取指定数量的原始评论信息;
获取具有分类标签的标签评论信息;
对所述原始评论信息和所述标签评论信息进行预处理,获得所述训练文本。
优选地,利用所述训练文本对所述初始神经网络模型进行训练,获得所述神经网络模型,包括:
对所述训练文本进行向量化,获得训练文本向量化结果;
利用所述深度信念网络,对所述训练向量化结果进行深层次特征提取,获得训练特征;
将所述训练特征输入至所述分类器中,并利用所述全卷积网络对所述分类器进行训练,获得所述神经网络模型。
一种基于深度学习的产品特征确定装置,包括:
文本预处理模块,用于获取目标产品的用户评论文本,并对所述用户评论文本进行预处理,获得目标评论文本;
向量化处理模块,用于对所述目标评论文本进行向量化,获得文本向量化结果;
主题分类模块,用于将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;
主题分类结果分析模块,用于利用所述主题分类结果,确定用户关注的产品特征。
一种基于深度学习的产品特征确定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述基于深度学习的产品特征确定方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于深度学习的产品特征确定方法的步骤。
应用本发明实施例所提供的方法,获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本;对目标评论文本进行向量化,获得文本向量化结果;将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;利用主题分类结果,确定用户关注的产品特征。
由于电子商务的快速发展,很多产品从网络渠道销售之后,用户(消费者)往往会在销售平台留下对产品评论。而用户往往会对自身较为关注的产品特征进行批判或褒奖,因此产品的用户评论往往隐含了用户关注的产品特征。基于此,在本发明实施例中,获取到目标产品的用户评论文本之后,首先对该用户评论文本进行预处理,获得目标评论文本。对目标评论文本进行向量化,得到文本向量化结果。然后,将文本向量化结果预先设置的神经网络模型中进行主题分类,便可获得主题分类结果,如某一天用户评论文本主要针对产品的那一个特征。进而,对主题分类结果进行分析,便可确定出用户关注的产品特征。相对于凭经验或调查问卷等方式而言,本发明实施例所提供的基于深度学习的产品特征确定方法,能够对用户真实评论进行整理、分析,可获得更加切合用户需求或喜欢的产品特征。进而,便可根据用户更为关注的产品特征对产品进行重点改进,或在销售时,重点凸出该特征,以吸引用户消费或使用,带来更好的经济效益。
相应地,本发明实施例还提供了与上述基于深度学习的产品特征确定方法相对应的基于深度学习的产品特征确定装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于深度学习的产品特征确定方法的实施流程图;
图2为基于奇异值分解的空间构造方法图解示意图;
图3为典型RBM的结构示意图;
图4为典型DBN的结构示意图;
图5为本发明实施例中一种神经网络模型的结构示意图;
图6为本发明实施例中一种CNN结构示意图;
图7为本发明实施例中一种基于深度学习的产品特征确定装置的结构示意图;
图8为本发明实施例中一种基于深度学习的产品特征确定设备的结构示意图;
图9为本发明实施例中一种基于深度学习的产品特征确定设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参考图1,图1为本发明实施例中一种基于深度学习的产品特征确定方法的流程图,该方法包括以下步骤:
S101、获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本。
其中,目标产品具体可以为通信产品(如手机、计算机等)、食品(如大米、零食等)、服饰(衣服、装饰品等)、办公用品、厨房用具、软件产品(如办公软件)等常见的产品(或称为商品)。具体的,可通过从目标产品的线上消费渠道获得目标产品的用户评论文本。例如,可利用爬虫系统,从电子商城中抓取用户的购买或使用后留下的评论文本。
得到用户评论文本之后,可对用户评论文本进行预处理,以获得可用于分析用户关注的产品特征的目标评论文本。具体的,可将评论文本中的停止词和无效符号进行去除,避免因停止词或无效符号对后续处理过程产生干扰。优选地,可通过执行以下步骤对评论文本进行分词的方式,去除停止词和无效符号:
步骤一、对用户评论文本进行格式规范化处理;
步骤二、对用户评论文本进行分词处理,获得分词结果;
步骤三、过滤分词结果中的停止词和无效符号,获得目标评论文本。
为了便于描述,下面将上述三个步骤结合起来进行说明。
由于用户评论文本可以从数据库或csv等存储格式的加载至内存的方式获得,也就是说,所获得的用户评论文本的格式可能在不统一的情况。为了解决这一问题,可在获取目标产品的用户评论文本之后,在对用户评论文本进行分词处理,获得分词结果之前,对用户评论文本进行格式规范化处理。具体的,格式规划化即可采用格式转化工具,将不符预定格式的用户评论文本转化为指定格式。
在对评论文本进行分词处理时,可采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等分词方法中的任意一种方式,对评论文本进行处理。具体的,采用分词方法对用户评论文本进行分词处理的具体过程,可参见具体的分词方法的分词原理和处理步骤,在此不再赘述。得到分词结果之后,便可将分词结果中的停止词和无效符号删除掉。其中,停止词,是由英文单词:stopword翻译过来的,在中文表述中有很多“在”、“里面”、“也”、“的”、“它”、“为”,这些词都是停止词。这些词因为使用频率过高,几乎每个用户评论中都会存在一个以上的停止词,但是这里停止词并不具备实质的特征含义区别,因此需将其忽略掉,以避免因停止词影响后续的主题分类处理过程。另外,无效符号具体可以为文本中的全部标点符号和表情符号。
S102、对目标评论文本进行向量化,获得文本向量化结果。
具体的,可采用常见文本向量化算法对目标评论文本进行向量化,然后,便可获得文本向量化结果。对目标评论文本进行向量化的过程可参见常见的文本向量化算法,在此不再赘述常见向量化过程。
优选地,可结合TF-IDF与LSA的方式对目标评论文本进行向量化,具体过程包括:
步骤一、计算目标评论文本的TF-IDF值;
步骤二、利用LSA算法对TF-IDF值进行降维,并对降维结果进行向量化,获得文本向量化结果。
为了便于描述,下面将上述两个步骤结合起来进行说明。
在对目标评论文本进行向量化时,为了使得文本向量化效果更好,本发明实施例,提出将TF-IDF(Term Frequency-Inverse Document Frequency)和LSA(Latent SemanticAnalysis)结合的方式对目标评论文本进行向量化。其中,TF-IDF是通过统计的方法衡量一个词在语料库的其中一份文件中的重要性,其中TF是某个词语在该文档中出现的频率;IDF是某个词语普遍重要性的度量,可由文档总数除以包含该词语的文档数量,再对商取余数得到。
LSA的出发点是文档中的各个词之间存在着某种关系,并称这种关系为潜在的语义结构。由于语义结构隐含在文档的上下文使用模式中,因此可以通过对大量的文本进行统计计算,找到这种潜在的语义结构。LSA就是通过统计方法,提取并量化这些潜在的语义结构,从而消除同义词、多义词的影响,提高文本表示的准确性。而且LSA仅依赖于上下文中词与词的联系,因此不需要确定的语义编码,通过语义结构来表示词和文本,便可以达到消除词之间的相关性、简化文本的目的。例如,如图2所示,图2为基于奇异值分解的空间构造方法图解示意图,即目前典型的LSA空间的构造方法是基于奇异值分解的空间构造方法。
先对目标评论文本计算TF-IDF值后,再通过LSA算法降维至合适的维度,最终可实现对评论文本的向量化。显然,其中合适的维度可根据具体的情况进设置,在此不进行限定。
S103、将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果。
在本发明实施例中可预先设置一个神经网络模型,该神经网络模型为可对文本向量化结果进行主题分类的模型。
其中,主题分类具体为将向量化结果分类到对应的主题,其中主题包括具体为产品的各个特征。例如,若目标产品为家用冰箱,可预先设置家用冰箱的多干个特征,如外观造型、颜色、节能指标、使用寿命、容量、噪音等特征。其中,该分类对应的规则可预先设置,如一个用户评论文本的向量化结果可对应到一个主题也可对应到多个主题。主题分类结果具体可为,若干个用户评论文本分别对应哪个主题,也可为若干个用户评论文本分别都对应哪些主题。例如,用户评论评论文本为“颜色好看,容量太小”,对该用户评论文本经上述步骤的分析处理之后,该用户评论文本对应的主题可为颜色和容量这两个主题。
优选地,还可将文本向量化结果输入至包括深度信念网络和分类器的深度神经网络中,深度信念网络中具有多层限制玻尔兹曼机网络,分类器包括全卷积网络。
即主题分类过程,包括:
步骤一、将向量化结果输入神经网络模型中;其中,神经网络模型包括深度信念网络和分类器,深度信念网络中具有多层限制玻尔兹曼机网络,分类器包括全卷积网络;
步骤二、利用深度信念网络,对向量化结果进行深层次特征提取;
步骤三、利用分类器,对提取到的特征进行主题分类,获得主题分类结果。
为便于描述,下面将上述三个步骤结合起来进行说明。
其中,请参考图3和图4,图3为典型RBM的结构示意图,图4为典型DBN的结构示意图。即,深度信念网络(DBNs)由多个限制玻尔兹曼机(Restricted Boltzmann Machines,RBM)层组成。这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。即,深度信念网络是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和P(Label|Observation)都做了评估,而判别模型仅仅而已评估了后者,也就是P(Label|Observation)。即利用深度信念网络可对向量化结果进行深层次特征提取。
然后,利用分类器,对提取到的特征进行主题分类,获得主题分类结果。也就是说,将常见分类器CNN后的全连接层用卷积层进行替换,因此,参数更少:由于FCN通过感受眼共享参数,因此所需的参数比全连接层少得多;训练速度更快:由于参数少,在反向传播时,需要调整的参数也会变少,有利于提升训练速度;根据卷积网络的原理可以知道,卷积神经网络有利于降低过拟合风险;根据卷积网络的实践可以证明,卷积神经网络有利于学习深层特征。
S104、利用主题分类结果,确定用户关注的产品特征。
由于用户往往会在评论时,重点描述较为关注的产品特征,因此得到分类结果之后,便可对分类结果进行分析统计,确定出用户关注的产品特征。具体的,可通过统计各个主题对应的用户评论的数量的方式,统计出用户评论最多的主题,便可直接将该主题确定为用户关注的产品特征。当然,也可以排序的方式,将用户评论量较多的若干个主题确定出来,并将这些主题全部确定为用户关注的产品特征。在本发明实施例中主题分类结果中的主题可与产品特征一一匹配,即预先将产品特征划分为几个类别,主题的类别可与这些产品特征类别一一对应。
得到用户关注的产品特征之后,便可在后续改进目标产品或设计生产与目标产品的同类产品时,着重改进用户关注的产品特征。或在对目标产品进行销售时,着重凸出用户关注的产品特征。以此,来吸引消费者进行消费,吸引用户使用产品。
应用本发明实施例所提供的方法,获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本;对目标评论文本进行向量化,获得文本向量化结果;将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;利用主题分类结果,确定用户关注的产品特征。
由于电子商务的快速发展,很多产品从网络渠道销售之后,用户(消费者)往往会在销售平台留下对产品评论。而用户往往会对自身较为关注的产品特征进行批判或褒奖,因此产品的用户评论往往隐含了用户关注的产品特征。基于此,在本发明实施例中,获取到目标产品的用户评论文本之后,首先对该用户评论文本进行预处理,获得目标评论文本。对目标评论文本进行向量化,得到文本向量化结果。然后,将文本向量化结果预先设置的神经网络模型中进行主题分类,便可获得主题分类结果,如某一天用户评论文本主要针对产品的那一个特征。进而,对主题分类结果进行分析,便可确定出用户关注的产品特征。相对于凭经验或调查问卷等方式而言,本发明实施例所提供的基于深度学习的产品特征确定方法,能够对用户真实评论进行整理、分析,可获得更加切合用户需求或喜欢的产品特征。进而,便可根据用户更为关注的产品特征对产品进行重点改进,或在销售时,重点凸出该特征,以吸引用户消费或使用,带来更好的经济效益。
实施例二:
为了便于本领域技术人员更好地理解本发明实施例所提供的技术方案,下面对上文所描述的神经网络模型的预设过程为例,对本发明实施例所提供的技术方案进行详细说明。
神经网络模型的设置过程包括:
步骤一、创建初始神经网络模型;其中,初始神经网络模型包括深度信念网络和分类器:
步骤二、获取训练文本,并利用训练文本对初始神经网络模型进行训练,获得神经网络模型。
为便于描述,下面将上述两个步骤结合起来进行说明。
创建如图5所示初始神经网络模型,其中,图5为本发明实施例中一种神经网络模型的结构示意图。即,采用DBN结构,在多层RBM后接一层全卷积层(FCN)。其中,CNN的结构可参照图6所示,其中图6为本发明实施例中一种CNN结构示意图。
创建了初始神经网络模型之后,便可获取训练数据。具体的,获取训练文本,具体为:利用网络爬虫,获取指定数量的原始评论信息;获取具有分类标签的标签评论信息;对原始评论信息和标签评论信息进行预处理,获得训练文本。其中,预处理过程可参照上文描述的对用户评论文本进行预处理的过程,在此不再赘述。
得到训练数据之后,便可利用训练数据对初始神经网络模型进行训练。训练过程具体包括:
步骤一、结合TF-IDF与LSA,对训练文本进行向量化,获得训练文本向量化结果:
步骤二、利用深度信念网络,对训练向量化结果进行深层次特征提取,获得训练特征;
步骤三、将训练特征输入至分类器中,并利用全卷积网络对分类器进行训练,获得神经网络模型。
为便于描述,下面将上述三个步骤结合起来进行说明。
先对训练文本计算TF-IDF值后,再通过LSA算法进行降维至合适的维度,最终可实现对训练文本的向量化,得到训练文本向量化结果。
然后,利用深度信念网络对训练文本向量结果进行深层次特征提取。具体的,对于RBM定义能量函数其中:θ={Wij,vi,hj},bj表示可见层的偏差,aj表示隐层的偏差,E表示系统的能量总量。
关于隐层节点h和v的积分,有同理可知:其中θ={Wij,vi,hj},定义优化函数:其中T表示总样本数量,函数取得最大值,即可见层的能量比重尽可能大,从而使隐层的能量尽可能小。当在网络内传输数据时,数据流的方向也是能量衰减的方向,这样就能够实现RBM在多次迭代之后,网络能量呈现衰减趋势。通过借助多层RBM强大的特征提取能力,有利于提升文本主题分类的性能。
然后,分别单独无监督地训练每一层RBM网络,确保文本的特征向量映射到不同特征空间时,都尽可能多地保留文本特征信息。在DBN的最后一层设置FCN网络,接收RBM的输出文本特征向量作为它的输入特征向量,有监督地训练实体关系分类器。而且每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个DBN的特征向量映射达到最优,所以反向传播网络还将错误信息自顶向下传播至每一层RBM,微调整个DBN网络。RBM网络训练模型的过程可以看作对一个深层FCN网络权值参数的初始化,使DBN克服了FCN网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。
CNN(Convolution neural network,文本主题分类器)训练主要包括卷积层和下采样层。卷积层也叫做特征提取层,对输入数据应用若干个过滤器(Filter),一个输入参数被用来做多个类型的特征提取。卷积层的主要作用是提取输入数据的特征。每个不同的卷积核提取出来的数据特征也会有所不同,卷积核数量越多,提取出来的数据特征也就越多。在网络训练过程中,如果只通过卷积层提取文本的特征,当遇到尺寸较大的文本时运算量会十分庞大,网络训练的速度也较慢。为了减少运算量,减少网络训练时间,卷积神经网络在卷积层后面连接了一层下采样层(Subsample Layer)来减少数据量。
通过TF-IDF与LSA结合的方法,TF-IDF可以对文本的关键词进行分析,LSA通过语义分析可以捕捉近义词关系,最终实现性能更好的文本向量化。通过由多层RBM组成的DBN,有利于提取文本的深层特征,确保文本的特征向量映射到不同特征空间时,都尽可能多地保留文本特征信息,有利于提升分类器的性能。通过FCN训练来自多层RBM组成的DBN特征数据的分类器,有利于提升训练速度和提升分类器性能。如此,便可快速获得主题分类效果更为显著的神经网络模型。
实施例三:
相应于上面的方法实施例,本发明实施例还提供了一种基于深度学习的产品特征确定装置,下文描述的基于深度学习的产品特征确定装置与上文描述的基于深度学习的产品特征确定方法可相互对应参照。
参见图7所示,该装置包括以下模块:
文本预处理模块101,用于获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本;
向量化处理模块102,用于对目标评论文本进行向量化,获得文本向量化结果;
主题分类模块103,用于将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;
主题分类结果分析模块104,用于利用主题分类结果,确定用户关注的产品特征。
应用本发明实施例所提供的装置,获取目标产品的用户评论文本,并对用户评论文本进行预处理,获得目标评论文本;对目标评论文本进行向量化,获得文本向量化结果;将文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;利用主题分类结果,确定用户关注的产品特征。
由于电子商务的快速发展,很多产品从网络渠道销售之后,用户(消费者)往往会在销售平台留下对产品评论。而用户往往会对自身较为关注的产品特征进行批判或褒奖,因此产品的用户评论往往隐含了用户关注的产品特征。基于此,在本发明实施例中,获取到目标产品的用户评论文本之后,首先对该用户评论文本进行预处理,获得目标评论文本。对目标评论文本进行向量化,得到文本向量化结果。然后,将文本向量化结果预先设置的神经网络模型中进行主题分类,便可获得主题分类结果,如某一天用户评论文本主要针对产品的那一个特征。进而,对主题分类结果进行分析,便可确定出用户关注的产品特征。相对于凭经验或调查问卷等方式而言,本发明实施例所提供的基于深度学习的产品特征确定装置,能够对用户真实评论进行整理、分析,可获得更加切合用户需求或喜欢的产品特征。进而,便可根据用户更为关注的产品特征对产品进行重点改进,或在销售时,重点凸出该特征,以吸引用户消费或使用,带来更好的经济效益。
在本发明的一种具体实施方式中,向量化处理模块102,具体用于计算目标评论文本的TF-IDF值;利用LSA算法对TF-IDF值进行降维,并对降维结果进行向量化,获得文本向量化结果。
在本发明的一种具体实施方式中,文本预处理模块101,具体用于对用户评论文本进行格式规范化处理;对用户评论文本进行分词处理,获得分词结果;过滤分词结果中的停止词和无效符号,获得目标评论文本。
在本发明的一种具体实施方式中,主题分类模块103,具体用于将向量化结果输入神经网络模型中;其中,神经网络模型包括深度信念网络和分类器,深度信念网络中具有多层限制玻尔兹曼机网络,分类器包括全卷积网络;利用深度信念网络,对向量化结果进行深层次特征提取;利用分类器,对提取到的特征进行主题分类,获得主题分类结果。
在本发明的一种具体实施方式中,还包括:
神经网络模型设置模块,用于创建初始神经网络模型;其中,初始神经网络模型包括深度信念网络和分类器;获取训练文本,并利用训练文本对初始神经网络模型进行训练,获得神经网络模型。
在本发明的一种具体实施方式中,神经网络模型设置模块,具体用于利用网络爬虫,获取指定数量的原始评论信息;获取具有分类标签的标签评论信息;对原始评论信息和标签评论信息进行预处理,获得训练文本。
在本发明的一种具体实施方式中,神经网络模型设置模块,具体用于对训练文本进行向量化,获得训练文本向量化结果;利用深度信念网络,对训练向量化结果进行深层次特征提取,获得训练特征;将训练特征输入至分类器中,并利用全卷积网络对分类器进行训练,获得神经网络模型。
实施例四:
相应于上面的方法实施例,本发明实施例还提供了一种基于深度学习的产品特征确定设备,下文描述的一种基于深度学习的产品特征确定设备与上文描述的一种基于深度学习的产品特征确定方法可相互对应参照。
参见图8所示,该基于深度学习的产品特征确定设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的基于深度学习的产品特征确定方法的步骤。
具体的,请参考图9,图9为本实施例提供的一种基于深度学习的产品特征确定设备的具体结构示意图,该基于深度学习的产品特征确定设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在基于深度学习的产品特征确定设备301上执行存储介质330中的一系列指令操作。
基于深度学习的产品特征确定设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
上文所描述的基于深度学习的产品特征确定方法中的步骤可以由基于深度学习的产品特征确定设备的结构实现。
实施例五:
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种基于深度学习的产品特征确定方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的基于深度学习的产品特征确定方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种基于深度学习的产品特征确定方法,其特征在于,包括:
获取目标产品的用户评论文本,并对所述用户评论文本进行预处理,获得目标评论文本;
对所述目标评论文本进行向量化,获得文本向量化结果;
将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;
利用所述主题分类结果,确定用户关注的产品特征。
2.根据权利要求1所述的基于深度学习的产品特征确定方法,其特征在于,对所述目标评论文本进行向量化,获得文本向量化结果,包括:
计算所述目标评论文本的TF-IDF值;
利用LSA算法对所述TF-IDF值进行降维,并对降维结果进行向量化,获得所述文本向量化结果。
3.根据权利要求1所述的基于深度学习的产品特征确定方法,其特征在于,对所述用户评论文本进行预处理,获得目标评论文本,包括:
对所述用户评论文本进行格式规范化处理;
对所述用户评论文本进行分词处理,获得分词结果;
过滤所述分词结果中的停止词和无效符号,获得所述目标评论文本。
4.根据权利要求1至3任一项所述的基于深度学习的产品特征确定方法,其特征在于,将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果,包括:
将所述向量化结果输入所述神经网络模型中;其中,所述神经网络模型包括深度信念网络和分类器,所述深度信念网络中具有多层限制玻尔兹曼机网络,所述分类器包括全卷积网络;
利用所述深度信念网络,对所述向量化结果进行深层次特征提取;
利用所述分类器,对提取到的特征进行主题分类,获得所述主题分类结果。
5.根据权利要求4所述的基于深度学习的产品特征确定方法,其特征在于,还包括:
创建初始神经网络模型;其中,所述初始神经网络模型包括所述深度信念网络和所述分类器;
获取训练文本,并利用所述训练文本对所述初始神经网络模型进行训练,获得所述神经网络模型。
6.根据权利要求5所述的基于深度学习的产品特征确定方法,其特征在于,所述获取训练文本,包括:
利用网络爬虫,获取指定数量的原始评论信息;
获取具有分类标签的标签评论信息;
对所述原始评论信息和所述标签评论信息进行预处理,获得所述训练文本。
7.根据权利要求5所述的基于深度学习的产品特征确定方法,其特征在于,利用所述训练文本对所述初始神经网络模型进行训练,获得所述神经网络模型,包括:
对所述训练文本进行向量化,获得训练文本向量化结果;
利用所述深度信念网络,对所述训练向量化结果进行深层次特征提取,获得训练特征;
将所述训练特征输入至所述分类器中,并利用所述全卷积网络对所述分类器进行训练,获得所述神经网络模型。
8.一种基于深度学习的产品特征确定装置,其特征在于,包括:
文本预处理模块,用于获取目标产品的用户评论文本,并对所述用户评论文本进行预处理,获得目标评论文本;
向量化处理模块,用于对所述目标评论文本进行向量化,获得文本向量化结果;
主题分类模块,用于将所述文本向量化结果输入预设的神经网络模型中进行主题分类,获得主题分类结果;
主题分类结果分析模块,用于利用所述主题分类结果,确定用户关注的产品特征。
9.一种基于深度学习的产品特征确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述基于深度学习的产品特征确定方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的产品特征确定方法的步骤。
CN201811500454.XA 2018-12-07 2018-12-07 一种基于深度学习的产品特征确定方法 Pending CN109614475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500454.XA CN109614475A (zh) 2018-12-07 2018-12-07 一种基于深度学习的产品特征确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500454.XA CN109614475A (zh) 2018-12-07 2018-12-07 一种基于深度学习的产品特征确定方法

Publications (1)

Publication Number Publication Date
CN109614475A true CN109614475A (zh) 2019-04-12

Family

ID=66007662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500454.XA Pending CN109614475A (zh) 2018-12-07 2018-12-07 一种基于深度学习的产品特征确定方法

Country Status (1)

Country Link
CN (1) CN109614475A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN110287492A (zh) * 2019-06-26 2019-09-27 拉扎斯网络科技(上海)有限公司 数据处理及主类别识别方法、装置、电子设备及存储介质
CN110297906A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110399486A (zh) * 2019-07-02 2019-11-01 精硕科技(北京)股份有限公司 一种分类方法、装置和设备、存储介质
CN112712224A (zh) * 2019-10-25 2021-04-27 华晨宝马汽车有限公司 顾客为导向的产品质量管理方法、系统、设备和介质
CN113506084A (zh) * 2021-06-23 2021-10-15 上海师范大学 一种基于深度学习的虚假招聘职位检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN106355455A (zh) * 2016-11-18 2017-01-25 北京信息科技大学 一种从网购用户评论中抽取产品特征信息的方法
CN106934553A (zh) * 2017-03-17 2017-07-07 重庆市个人信用管理有限责任公司 一种农户信用评估方法及装置
CN108629370A (zh) * 2018-04-28 2018-10-09 广东工业大学 一种基于深度置信网络的分类识别算法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN106355455A (zh) * 2016-11-18 2017-01-25 北京信息科技大学 一种从网购用户评论中抽取产品特征信息的方法
CN106934553A (zh) * 2017-03-17 2017-07-07 重庆市个人信用管理有限责任公司 一种农户信用评估方法及装置
CN108629370A (zh) * 2018-04-28 2018-10-09 广东工业大学 一种基于深度置信网络的分类识别算法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN110287492A (zh) * 2019-06-26 2019-09-27 拉扎斯网络科技(上海)有限公司 数据处理及主类别识别方法、装置、电子设备及存储介质
CN110297906A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110297906B (zh) * 2019-06-28 2021-10-08 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110399486A (zh) * 2019-07-02 2019-11-01 精硕科技(北京)股份有限公司 一种分类方法、装置和设备、存储介质
CN112712224A (zh) * 2019-10-25 2021-04-27 华晨宝马汽车有限公司 顾客为导向的产品质量管理方法、系统、设备和介质
CN113506084A (zh) * 2021-06-23 2021-10-15 上海师范大学 一种基于深度学习的虚假招聘职位检测方法

Similar Documents

Publication Publication Date Title
CN109614475A (zh) 一种基于深度学习的产品特征确定方法
Zheng et al. Content-aware generative modeling of graphic design layouts
CN108491377B (zh) 一种基于多维度信息融合的电商产品综合评分方法
CN105760507B (zh) 基于深度学习的跨模态主题相关性建模方法
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN106529503B (zh) 一种集成卷积神经网络人脸情感识别方法
Baral et al. Reel: Review aware explanation of location recommendation
CN106547742B (zh) 基于人工智能的语义解析结果处理方法和装置
CN103207914B (zh) 基于用户反馈评价的偏好向量生成方法和系统
Shi et al. A simple and effective self-supervised contrastive learning framework for aspect detection
CN110287325A (zh) 一种基于智能语音分析的电网客服业务推荐方法及装置
CN104239512B (zh) 一种文本推荐方法
CN109145193A (zh) 一种信息推送方法及系统
CN107730346A (zh) 物品聚类的方法和装置
CN108182176B (zh) 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN107357793A (zh) 信息推荐方法和装置
CN108733748A (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
Rashid et al. Towards zero-shot knowledge distillation for natural language processing
CN110348919A (zh) 物品推荐方法、装置和计算机可读存储介质
CN109800275A (zh) 模型构建方法和系统
Deng et al. Regavae: A retrieval-augmented gaussian mixture variational auto-encoder for language modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412