CN113377960A - 用于平台商品评论的分析方法、处理器及装置 - Google Patents
用于平台商品评论的分析方法、处理器及装置 Download PDFInfo
- Publication number
- CN113377960A CN113377960A CN202110822100.2A CN202110822100A CN113377960A CN 113377960 A CN113377960 A CN 113377960A CN 202110822100 A CN202110822100 A CN 202110822100A CN 113377960 A CN113377960 A CN 113377960A
- Authority
- CN
- China
- Prior art keywords
- platform
- text
- clustering
- commodity
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000012552 review Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims abstract description 18
- 238000003860 storage Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 14
- 238000012423 maintenance Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 7
- 230000008094 contradictory effect Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000000691 measurement method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003670 easy-to-clean Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种用于平台商品评论的分析方法、处理器、装置、存储介质及计算机程序产品。方法包括:获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews that mention中的文本;通过分类器对文本内容进行聚类;根据聚类结果确定商品的特性。通过确定评论信息确定文本内容;通过分类器对平台内商品的文本内容进行聚类,从而确定商品的特性。对这些评论的内容文本进行观点提取和语义分析,为每条评论文本定义标签,从而对大量的评论内容进行分类、筛选,不仅能提升用户体验,而且能帮助跨境电商企业直观了解商品的特性,包括商品口碑和优缺点,利于产品的优化并为制定营销决策提供数据基础,提升了经济效益。
Description
技术领域
本申请涉及内容提取和语义分析领域,具体地涉及一种用于平台商品评论的分析方法、处理器、装置、存储介质及计算机程序产品。
背景技术
随着现代商业数字化的发展,提取商业平台上的商品评论对卖家和卖家而言都是非常重要的,而在现有技术中,基于机器学习的文本分析的技术主要有两类:一类是基于监督的学习模型,它需要大量人力来构建训练集,而且构建出的训练集可能不能满足用户需求,导致效果不理想。当类别非常多或者类别与类别之间差异很小时,文本分类就开始变得困难。此外,有时需要考虑额外特征才能分类正确,例如常常需要根据说话者语气,才能准确判断真实的语义。这些难度增加了基于监督学习模型的文本分类方法在产品的评论分析中的局限性;另一类是基于无监督学习模型的文本分类,如LDA模型(隐含狄利克雷分布)、TextRank算法等。这类模型不需要大量人力来构建训练集,但是分析结果更偏向于评论情感提取,而不是评论观点提取,不符合售卖者的需求。
发明内容
本申请实施例的目的是提供一种用于平台商品评论的分析方法、装置、处理器、存储介质及计算机程序产品为了实现上述目的,本申请第一方面提供一种用于平台商品评论的分析方法方法,包括:获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews that mention中的文本;通过分类器对Byfeature中的文本和Read reviews that mention中的文本进行聚类;根据聚类结果确定商品的特性。
在本发明实施例中,根据评论信息确定文本内容包括:通过分类器对By feature中的文本和Read reviews that mention中的文本进行无监督聚类;确定聚类后的不同标签语义簇;根据不同的标签语义簇确定标签内容。
在本发明实施例中,对比学习模型包括神经网络特征提取层、线性映射层和举例对比层。
在本发明实施例中,通过分类器对平台内商品的文本内容进行聚类包括:确定语料库;通过所述语料库训练自然语言推理模型。
在本发明实施例中,根据对应关系对文本内容进行聚类包括:通过自然语言推理模型确定文本内容和标签内容的推理关系;根据标签对文本内容进行聚类。
在本发明实施例中,标签包括:矛盾标签、中性标签和包含标签中的至少一者。
本申请第二方面提供一种处理器,被配置成执行上述的用于平台商品评论的分析方法。
本申请第三方面提供一种用于平台商品评论的分析装置,包括:
文本获取模块,获取商品评论信息;
分类器,用于对平台内商品的文本内容进行聚类;以及
被配置成执行上述的用于平台商品评论的分析方法的处理器。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的用于平台商品评论的分析方法。
本申请第五方面提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述的用于平台商品评论的分析方法。
上述技术方案,获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews that mention中的文本;通过分类器对平台内商品的By feature中的文本和Read reviews that mention中的文本进行聚类,从而确定商品的特性。对这些评论的内容文本进行观点提取和语义分析,为每条评论文本定义标签,从而对大量的评论内容进行分类、筛选,不仅能提升用户体验,而且能帮助跨境电商企业直观了解商品的特性,包括商品口碑和优缺点,利于产品的优化并为制定营销决策提供数据基础,提升了经济效益。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的用于平台商品评论的分析方法的流程示意图;
图2示意性示出了根据本申请实施例的用于平台商品评论的分析装置的结构框图;
图3示意性示出了根据本申请实施例的计算机设备的内部结构图。
具体实施方式
以下结合附图对本申请实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。
图1示意性示出了根据本申请实施例的用于平台商品评论的分析方法的流程示意图。如图1所示,在本申请一实施例中,提供了一种用于平台商品评论的分析方法,包括以下步骤:
步骤101,获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews that mention中的文本。
步骤102,通过分类器对By feature中的文本和Read reviews that mention中的文本进行聚类。
步骤103,根据聚类结果确定所述商品的特性。
亚马逊平台中的商品的评论信息通常包括By feature(根据产品特征)的文本和Read reviews that mention(评论所涉及的主题)的文本,通过获取商品的评论信息,确定评论信息中的文本内容,并通过分类器对平台内全部的商品的文本内容进行聚类,通过简洁明了的文本内容确定商品特性,例如,平台中一个切菜器的特性包括:Easy to assemble(容易组装),Easy to clean(容易清洗),Easy to use(容易使用),Suction power(吸入功率值),Sturdiness(坚固),Durability(耐用新)等,因此能够更准确地概括商品评论观点,更能满足卖家或买家进行选品和市场分析以及优化listing(商品列表)的需求。
在一个实施例中,通过分类器对文本内容进行聚类包括:通过分类器对所述商品评论进行无监督聚类;确定聚类后的不同标签语义簇;根据不同的标签语义簇确定所述标签内容。具体来说,在本申请另一个实施例中,通过构建对比学习模型对评论信息进行无监督聚类,并通过预设相似度量方法确定聚类后的不同标签语义簇。
通过SCCL(Supporting Clustering with Contrastive Learning)对比学习模型对商品的评论信息包括By feature(根据产品特征)的文本和Read reviews that mention(评论所涉及的主题)的文本进行无监督聚类,通常来说,无监督聚类任务是在表征空间内通过特定的相似度量方法区分不同的标签语义簇,SCCL(对比学习模型)结合了bottom-up(由下至上)的实例对比学习和top-down(由上至下)的聚类,使得无监督聚类结果准确率更高。SCCL(对比学习)是自监督学习的一种,该类方法不依赖标注数据,而是从无标注数据中学习知识。对比学习的核心思想是通过构造相似实例和不相似实例,从而习得一个表示学习模型,通过这个模型,相似的实例在表示空间中比较接近,而不相似的实例在表示空间中距离较远。在CV(计算机视觉)领域的自监督可以分为两种类型:生成式和判别式自监督学习。VAE(变分自编码器)和GAN(生成对抗网络)是生成式自监督学习的典型代表,这类方法要求模型重建图像或者图像的一部分,任务难度相对比较高,要求像素级的重建,中间的图像编码必须包含很多细节信息。对比学习则是典型的判别式自监督学习,相对生成式自监督学习,对比学习的任务难度要低一些。与有监督学习相比,无监督学习的样本没有任何标记。无监督学习的算法需要自动找到这些没有标记的数据里面的数据结构和特征。这里介绍一下聚类算法和降维。聚类方法包括K-Means算法,首先将观察值重复划分为一个固定的数字k(不重叠的类)。类的数量k是一个模型超参数,它的值由研究人员在学习开始之前设置。每个类由它的形心(centroid,即中心)定义,每个观测值都由算法分配到与该观测值最接近的形心的类中。
K-Means算法遵循迭代过程,算法将观测数据按以下步骤进行分类:首先确定k(可以设定为3)个初始随机形心的位置;算法分析每个观测值的特征。基于使用的距离度量,K-Means将每个观测值分配给最近的形心(类由形心定义);借助每个类中的观测值,K-Means算法在计算每个类新的(k个)形心(形心是观测值的平均值);然后将观测结果重新分配到新的形心,根据观测结果对类重新定义;再次进行新的(k个)形心及类的确定过程。
K-Means算法将继续迭代,直到没有观察结果被重新分配到另一个新的类(即不需要重新计算新的形心)。该算法最终收敛并得到最后的K个类及类内的观察值。在k=3的约束下,K-Means算法最小化了类内的距离(内聚最大化),最大化了类间距离(分离最大化)。
聚类方法还包括高斯混合模型,斯混合模型GMM(Gaussian Mixture Model)。GMM和K-means很相似,区别仅在于GMM中,我们采用的是概率模型P(Y|X),也就是我们通过未知数据X可以获得Y取值的一个概率分布,我们训练后模型得到的输出不是一个具体的值,而是一系列值的概率。然后我们可以选取概率最大的那个类作为判决对象,属于软分类softassignment(对比与非概率模型Y=f(X)的硬分类hard assignment)。
GMM学习的过程就是训练出几个概率分布,所谓混合高斯模型就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个cluster。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。
在一个实施例中,对比学习模型包括神经网络特征提取层、线性映射层和举例对比层。SCCL(Supporting Clustering with Contrastive Learning)对比学习模型由3部分组成:神经网络特征抽取层、clustering head(线性映射层)和Instance-CL head(举例对比学习层)。特征抽取层将输入映射到向量表示空间,SCCL是使用Sentence Transformer发布的distilbert-base-nli-stsb-mean-tokens预训练模型。Instance-CL head和clustering head中分别使用contrastive loss和clustering loss。Instance-CL head由单层MLP组成,其激活函数使用的是ReLU,线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。其中输入维度是768,输出维度是128。至于clustering head则是一个线性映射层,维度是768*K,其中K是聚类的类别数量。
在一个实施例中,通过分类器对平台内商品的文本内容进行聚类包括:确定语料库;通过语料库训练自然语言推理模型。具体来说,在一个实施例中,根据对应关系对文本内容进行聚类还包括:通过自然语言推理模型确定文本内容和标签内容的推理关系;根据标签对文本内容进行聚类。
聚类结果作为亚马逊商品评论的标签,我们将亚马逊商品评论和标签嵌入到可以测量其距离的同一潜在空间,从而得到一些关于两个不同序列的关系。在自然语言推理(natural language inference,以下简称NLI)任务上,当使用像BERT这样的transformer架构时,通常是通过序列对分类来建模的。也就是说,我们将前提和假设作为不同的片段一起送入模型,并学习一个预测[矛盾、中性、包含]之一的分类器。自然语言推理主要是判断两个句子(Premise,Hypothesis)或者两个词之间的语义关系,为了保证模型能够集中在语义理解上,该任务最终退化为一个分类任务,目前类别主要是三分类(Entailment,Contradiction,Neutral)。目前对这三类有各种各样的定义,但是这三类的分类方法是通过语义关系来确定类别。
当自然语言推理模型涉及词推理时,词具有不同方面的语义信息,例如book在名词角度可以表示为:书,但在动词角度可以表示为:预定;因此使用单一的向量可能无法有效区分这些内容,因此作者提出利用不同的上下文来获取词在不同角度的语义信息,例如:选取中心词周围的名词来表示它的topic信息,选取中心词周围的动词来表示它的function信息。这样对每个词就都有不同的语义向量表示,然后通过网络结构对相关信息进行拼接,最后考虑到不同的推理关系可能需要的信息时不同的,例如:上下位关系:狗-动物,可能需要的是topic相关的信息,因果关系:攻击-受伤,可能需要的更多的是function的信息,因此作者通过一个门结构计算出每种语义表示对推理关系的影响程度,然后进行加权求和,最后进行分类。并且该方法的可扩展性非常好,从网络结构上看,我们可以增加不同的语义表示,模型的结构和参数规模并不会有太大的提升,这也可以认为是模型的一个优点;当自然语言推理模型涉及句推理时,首先通过不同的方法得到每个句子的语义向量表示;在此基础上,对两个向量作拼接,相减,点乘来得到两个语义向量之间的关系,最后通过一个MLP进行分类,右图就是句子编码部分可以采用的方法,例如:通过双向LSTM,得到隐层状态,对隐层状态做max-pooling或者做attention,得到的加权表示就只句子的语义向量表示,最右边的图示利用了CNN的结构,CNN是建立输入之间的局部关系,那么作者使用了多层的CNN,通过多层卷积,底层获取的是local部分的信息,那么越往上就可以得到更长范围内的信息,从而对句子语义进行建模。
自然语言处理(Natural language processing,以下简称NLP)领域已经开始找出一些相当有效的方法,能够从互联网上的大量无标签数据中学习。从无监督模型中转移学习的成功,使我们在下游监督学习任务上几乎超越了所有现有的基准。NLI也被称为Recognizing Textual Entailment(RTE),是确定两个(简短、有序)文本之间的推理关系的任务:包含、矛盾或中性NLI。多类型自然语言推理(Multi-Genre Natural LanguageInference,以下简称MultiNLI)语料库是一个由多个来源组成的数据集,其中有433k个句子对,这些句子对都有文本尾随信息注释。该语料库以SNLI语料库为模型,但不同之处在于它涵盖了一系列口语和书面文本的体裁,并支持独特的跨类型泛化评估。该语料库是哥本哈根EMNLP的RepEval 2017Workshop的共享任务的基础。文本内容和语料库的对应关系如下表1所示:
表1
我们使用DeBERTa(Decoding-enhanced BERT with DisentangledAttention)在MultiNLI预先训练好,作为零样本学习(Zero-Shot Leaming,以下简称ZSL)文本分类器,把亚马逊商品评论作为″前提″,并把每个候选标签变成一个″假设″。如果NLI模型预测前提″包含″假设,我们就认为这个标签是合适的。DeBERTa模型相比BERT模型包括以下改进:首先,与BERT不同的是DeBERTa使用一种分离的注意机制来进行自我注意。在BERT中,输入层中的每个单词都是用一个向量表示的,这个向量是单词(内容)嵌入和位置嵌入的总和,而DeBERTa中的每个单词都是用两个向量表示的,这两个向量分别对其内容和位置进行编码,并且单词之间的注意力权重是根据单词的位置和内容来计算的内容和相对位置。这是因为观察到一对词的注意力权重不仅取决于它们的内容,而且取决于它们的相对位置。例如,当单词“deep”和“learning”相邻出现时,它们之间的依赖性要比出现在不同句子中时强得多;其次,DeBERTa在预训练时增强了BERT的输出层。在模型预训练过程中,将BERT的输出Softmax层替换为一个增强的掩码解码器(EMD)来预测被屏蔽的令牌。这是为了缓解训练前和微调之间的不匹配。在微调时,我们使用一个任务特定的解码器,它将BERT输出作为输入并生成任务标签。然而,在预训练时,我们不使用任何特定任务的解码器,而只是通过Softmax归一化BERT输出(logits)。因此,我们将掩码语言模型(MLM)视为任何微调任务,并添加一个任务特定解码器,该解码器被实现为两层Transformer解码器和Softmax输出层,用于预训练。
DeBERTa模型注意力解耦机制(disentangled attention mechanism)。每个word的embedding由content embedding和position embedding组成。值得注意的是,在本申请实施例中并不是BERT中的content embedding和position embedding直接向量相加。word之间的注意力权重用word的content和相对位置的解耦矩阵表示。用增强mask decoder替换原始输出的softmax层,以预测模型预训练时被mask掉的token。如此解决BERT的预训练和微调阶段不一致问题,以增强预测模型预训练准确度,提高分类效率。
上述方法通过确定评论信息确定文本内容;通过分类器对平台内商品的文本内容进行聚类,从而确定商品的特性。对这些评论的内容文本进行观点提取和语义分析,为每条评论文本定义标签,从而对大量的评论内容进行分类、筛选,不仅能提升用户体验,而且能帮助跨境电商企业直观了解商品的特性,包括商品口碑和优缺点,利于产品的优化并为制定营销决策提供数据基础,提升了经济效益。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述用于平台商品评论的分析方法。
在一个实施例中,如图2所示,提供了一种用于平台商品评论的分析装置200,包括:
文本获取模块201,用于获取商品评论信息。
分类器202,用于对平台内商品的文本内容进行聚类。
处理器203,被配置成执行上述的用于平台商品评论的分析方法。
所述用于平台商品评论的分析装置包括处理器和存储器,上述模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对用于平台商品评论的分析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述用于平台商品评论的分析方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种用于平台商品评论的分析方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews thatmention中的文本;通过分类器对文本内容进行聚类;根据聚类结果确定商品的特性。
在一个实施例中,通过分类器对文本内容进行聚类包括:通过分类器对Byfeature中的文本和Read reviews that mention中的文本进行无监督聚类;确定聚类后的不同标签语义簇;根据不同的标签语义簇确定标签内容。
在一个实施例中,通过构建对比学习模型对评论信息进行无监督聚类,并通过预设相似度量方法确定聚类后的不同标签语义簇。
在一个实施例中,对比学习模型包括神经网络特征提取层、线性映射层和举例对比层。
在一个实施例中,通过分类器对平台内商品的文本内容进行聚类包括:确定语料库;通过语料库训练自然语言推理模型。
在一个实施例中,根据对应关系对文本内容进行聚类包括:通过自然语言推理模型确定文本内容和标签内容的推理关系;根据标签对文本内容进行聚类。
在一个实施例中,标签包括:矛盾标签、中性标签和包含标签。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取亚马逊平台内商品评论的文本内容,文本内容包括亚马逊平台商品的By feature中的文本和Read reviews that mention中的文本;通过分类器对By feature中的文本和Read reviews that mention中的文本进行聚类;根据聚类结果确定商品的特性。
在一个实施例中,通过分类器对文本内容进行聚类包括:通过分类器对Byfeature中的文本和Read reviews that mention中的文本进行无监督聚类;确定聚类后的不同标签语义簇;根据不同的标签语义簇确定标签内容。
在一个实施例中,通过构建对比学习模型对评论信息进行无监督聚类,并通过预设相似度量方法确定聚类后的不同标签语义簇。
在一个实施例中,对比学习模型包括神经网络特征提取层、线性映射层和举例对比层。
在一个实施例中,通过分类器对平台内商品的文本内容进行聚类包括:确定语料库;通过语料库训练自然语言推理模型。
在一个实施例中,根据对应关系对文本内容进行聚类包括:通过自然语言推理模型确定文本内容和标签内容的推理关系;根据标签对文本内容进行聚类。
在一个实施例中,标签包括:矛盾标签、中性标签和包含标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种用于平台商品评论的分析方法,其特征在于,所述方法包括:
获取亚马逊平台内商品评论的文本内容,所述文本内容包括亚马逊平台商品的Byfeature中的文本和Read reviews that mention中的文本;
通过分类器对所述By feature中的文本和Read reviews that mention中的文本进行聚类;
根据聚类结果确定所述商品的特性。
2.根据权利要求1所述的方法,其特征在于,所述通过分类器对所述文本内容进行聚类包括:
通过所述分类器对所述By feature中的文本和所述Read reviews that mention中的文本进行无监督聚类;
确定所述聚类后的不同标签语义簇;
根据所述不同的标签语义簇确定标签内容。
3.根据权利要求1所述的方法,其特征在于,所述分类器包括特征提取层、线性映射层和举例对比层。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定语料库;
通过所述语料库训练自然语言推理模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述对应关系对文本内容进行聚类包括:
通过所述自然语言推理模型确定所述文本内容和所述标签内容的推理关系;
根据所述标签对所述文本内容进行聚类。
6.根据权利要求5所述的方法,其特征在于,所述标签包括:矛盾标签、中性标签和包含标签中的至少一者。
7.一种处理器,其特征在于,被配置成执行根据权利要求1至6中任意一项所述的用于平台商品评论的分析方法。
8.一种用于平台商品评论的分析装置,其特征在于,所述装置包括:
文本获取模块,获取商品评论信息;
分类器,用于对平台内商品的文本内容进行聚类;以及
如权利要求7所述的处理器。
9.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至6中任一项所述的用于平台商品评论的分析方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1至6中任一项所述的用于平台商品评论的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822100.2A CN113377960A (zh) | 2021-07-20 | 2021-07-20 | 用于平台商品评论的分析方法、处理器及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822100.2A CN113377960A (zh) | 2021-07-20 | 2021-07-20 | 用于平台商品评论的分析方法、处理器及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113377960A true CN113377960A (zh) | 2021-09-10 |
Family
ID=77582508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110822100.2A Pending CN113377960A (zh) | 2021-07-20 | 2021-07-20 | 用于平台商品评论的分析方法、处理器及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377960A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN116862293A (zh) * | 2023-06-26 | 2023-10-10 | 广州淘通科技股份有限公司 | 一种运营数据的分析方法、系统、设备和存储介质 |
CN117743451A (zh) * | 2023-12-22 | 2024-03-22 | 杭州旺客元科技有限公司 | 一种基于大数据的热点活动监控方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
-
2021
- 2021-07-20 CN CN202110822100.2A patent/CN113377960A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080741A (zh) * | 2022-06-24 | 2022-09-20 | 平安银行股份有限公司 | 一种问卷调查分析方法、装置、存储介质及设备 |
CN116862293A (zh) * | 2023-06-26 | 2023-10-10 | 广州淘通科技股份有限公司 | 一种运营数据的分析方法、系统、设备和存储介质 |
CN117743451A (zh) * | 2023-12-22 | 2024-03-22 | 杭州旺客元科技有限公司 | 一种基于大数据的热点活动监控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kiela et al. | Dynamic meta-embeddings for improved sentence representations | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
US20210286989A1 (en) | Multi-model, multi-task trained neural network for analyzing unstructured and semi-structured electronic documents | |
US11227108B2 (en) | Convolutional neural network architecture with adaptive filters | |
Yoshihara et al. | Predicting stock market trends by recurrent deep neural networks | |
US11734519B2 (en) | Systems and methods for slot relation extraction for machine learning task-oriented dialogue systems | |
CN113377960A (zh) | 用于平台商品评论的分析方法、处理器及装置 | |
AU2016256764A1 (en) | Semantic natural language vector space for image captioning | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN113254610A (zh) | 面向专利咨询的多轮对话生成方法 | |
US20230376546A1 (en) | Apparatus and method of performance matching | |
US11854537B2 (en) | Systems and methods for parsing and correlating solicitation video content | |
US20230289396A1 (en) | Apparatuses and methods for linking posting data | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
Somogyi | The Application of Artificial Intelligence | |
US20230351121A1 (en) | Method and system for generating conversation flows | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN117725211A (zh) | 一种基于自构建提示模板的文本分类方法和系统 | |
CN116431813A (zh) | 智能客服问题分类方法、装置、电子设备及存储介质 | |
CN116468096A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
WO2023224672A1 (en) | Deep learning system for navigating feedback | |
Vasquez-Correa et al. | One system to rule them all: A universal intent recognition system for customer service chatbots | |
Kangwantrakool et al. | Software development effort estimation from unstructured software project description by sequence models | |
Venkatesan et al. | Sentimental Analysis of Industry 4.0 Perspectives Using a Graph‐Based Bi‐LSTM CNN Model | |
Kreyssig | Deep learning for user simulation in a dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |