CN111563384B

CN111563384B - 面向电商产品的评价对象识别方法、装置及存储介质

Info

Publication number: CN111563384B
Application number: CN202010323083.3A
Authority: CN
Inventors: 王振宇; 简文军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-10-25
Anticipated expiration: 2040-04-22
Also published as: CN111563384A; WO2021212801A1

Abstract

本发明公开了一种面向电商产品的评价对象识别方法、装置及存储介质，其中方法包括以下步骤：将同一句子中的候选评价对象和候选评价词两两组成词对；采用词对关联度模型对词对进行关联度计算，根据计算结果获得词对集合；对词对集合进行迭代识别，获得候选评价对象集合和候选评价词集合；根据词频对候选评价对象集合内的候选评价对象进行划分，获得第一候选评价对象集合和第二候选评价对象集合；从第二候选评价对象集合获取准确评价对象，结合第一候选评价对象集合和准确评价对象获得准确评价对象集合。本发明在对评价对象召回策略中，使用字词混合向量的相似度衡量评价对象间的语义相似度，提高了评价对象召回率和准确率，可应用于意见挖掘领域。

Description

面向电商产品的评价对象识别方法、装置及存储介质

技术领域

本发明涉及意见挖掘领域，尤其涉及一种面向电商产品的评价对象识别方法、装置及存储介质。

背景技术

随着互联网的快速兴起，电商产品平台也迎来了快速发展，目前被大众所知电商产品平台有淘宝、京东、拼多多和当当等等。电商平台的快速发展这意味着电商产品也变得更加多样化，且电商产品的内容也更为丰富。面对多样化、丰富化的电商产品，作为消费者，往往希望从平台侧面去了解相应的电商产品，而侧面信息最为突出的便是电商产品的在线评论，他们可以通过其他消费者的评论信息客观地得到产品的各维度信息。作为平台使用的商家，他们可以根据客户反馈的评论信息改进产品或制定销售策略。因此，对于电商平台的产品评论的信息处理是一个很热门的研究领域。

电商平台的产品评论信息具有数量庞大和数据格式标准不一的特点，传统处理的方法有人工审阅方法，这种方法需要耗费大量的人力和时间，且取得的效果不佳。也有使用依存句法关系的定制性规则的方法，这种方法没有考虑到文本语义信息和词序的词性特征信息。此时就需要通过结合一些深度学习的算法来帮助人类处理这些庞大的产品评论信息，快速地整理成人类可理解的结构化信息，这也是意见挖掘技术的目的。

意见挖掘技术主要以自然语言处理、信息抽取、数据挖掘等为手段，从大量的文本信息中识别和抽取出有价值的观点信息。其中一个重要的任务就是面向电商产品的评价对象的抽取。目前的评价对象抽取方法还缺乏一种高准确率和高召回率的方法。

发明内容

为了解决上述技术问题之一，本发明的目的是提供一种面向电商产品的评价对象识别方法、装置及存储介质。

本发明所采用的一技术方案是：

一种面向电商产品的评价对象识别方法，包括以下步骤：

获取第一评论语料，根据预设的词性从第一评论语料的句子中提取候选评价对象和候选评价词，将同一句子中的候选评价对象和候选评价词两两组成词对；

采用训练后的词对关联度模型对词对进行关联度计算，根据计算结果获得词对集合；

采用预设识别算法对词对集合进行迭代识别，获得候选评价对象集合和候选评价词集合；

根据词频对候选评价对象集合内的候选评价对象进行划分，获得第一候选评价对象集合和第二候选评价对象集合，所述词频为候选评价对象或候选评价词在词对集合中出现的次数；

结合字词混合向量和第一候选评价对象集合，从第二候选评价对象集合获取准确评价对象，结合第一候选评价对象集合和准确评价对象获得准确评价对象集合，所述字词混合向量为词向量和字向量的组合。

进一步，还包括对词对关联度模型进行训练的步骤，具体为：

获取第二评论语料，对第二评论语料进行文本预处理及标注，获得训练数据集；

构建词对关联度模型，采用训练数据集对词对关联度模型进行训练。

进一步，所述获取第二评论语料，对第二评论语料进行文本预处理及标注，获得训练数据集，包括：

获取第二评论语料，对第二评论语料进行预处理，获得多个评论语句，所述预处理包括对第二评论语料中语句进行分词和词性标注；

采用人工方式标注出评论语句中的评价对象和评价词，将评价对象和评价词两两组合作为词对；

构建<原句子，词对>的句子对，对词对是否存有评价搭配关系进行标注，若存有评价搭配关系，类标为第一类型；反之，类标为第二类型；

将标注后评论语句组成训练数据集，所述标注后评论语句的格式为<原句子，评价词对，原句子分词后对应的词性序列，类别>。

进一步，所述词对关联度模型为基于BERT-CNN的词对关联度模型，所述词对关联度模型包括输入层、嵌入层、编码层和分类解码层，所述采用训练数据集对词对关联度模型进行训练，包括：

采用训练数据集对编码层的参数进行微调；

采用交叉熵函数作为目标函数对词对关联度模型进行训练，获得最终的词对关联度模型。

进一步，所述预设识别算法包括第一公式和第二公式，所述采用预设识别算法对词对集合进行迭代识别，获得候选评价对象集合和候选评价词集合，包括：

初始化候选评价对象集合和候选评价词集合为空；

从词对集合获取评价词，确定检测到评价词属于种子情感词，将评价词输入候选评价词集合；

从词对集合获取候选评价对象，结合候选评价对象、候选评价词集合和第一公式计算第一关联度，确定检测到第一关联度大于第一阈值，将候选评价对象输入候选评价对象集合；

从词对集合获取候选评价词，结合候选评价词、候选评价对象集合和第二公式计算第二关联度，确定检测到第二关联度大于第二阈值，将候选评价词输入候选评价词集合。

进一步，所述第一公式为：

其中，rel_i为候选评价对象o_i与整个候选评价词集合的关联度，<o_i,s_j>为候选词对，#<o_i,s_j>为候选词对出现的频数，sim(<o_i,s_j>)为关联度模型计算的关联度；

所述第二公式为：

其中，rel_j为候选评价词s_j与整个候选评价对象集合的关联度，<o_i,s_j>为候选词对，#<o_i,s_j>为候选词对出现的频数，sim(<o_i,s_j>)为关联度模型计算的关联度。

进一步，所述结合字词混合向量和第一候选评价对象集合，从第二候选评价对象集合获取准确评价对象，结合第一候选评价对象集合和准确评价对象获得准确评价对象集合，包括：

将第一候选评价对象集合内所有的候选评价对象作为准确评价对象，并输入准确评价对象集合；

计算准确评价对象和第二候选评价对象集合的候选评价对象之间的字词混合向量的相似度；

确定检测到相似度大于第三阈值，将第二候选评价对象集合的候选评价对象作为准确评价对象，并输入准确评价对象集合。

进一步，还包括以下步骤：

从词对集合获取剩余候选评价对象，将剩余候选评价对象与准确评价对象集合进行关联规则挖掘，获得评价关系的关联集合对，根据关联集合对将不处于准确评价对象集合的候选评价对象输入准确评价对象集合；

根据词频从候选评价词集合获取准确候选评价词，根据词频从词对集合获取低频候选评价对象；

计算低频候选评价对象与准确候选评价词的PMI-IR值，确定检测到PMI-IR值大于第四阈值，将低频候选评价对象输入准确评价对象集合。

本发明所采用的另一技术方案是：

一种面向电商产品的评价对象识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明在对评价对象召回策略中，使用字词混合向量的相似度衡量评价对象间的语义相似度，提高了评价对象召回率和准确率；另外，字词混合向量的相似度能够衡量评价对象间的语义相似度。

附图说明

图1是本发明实施例的一种面向电商产品的评价对象识别方法的步骤流程图；

图2是本发明实施例的基于BERT-CNN的词对关联度模型结构图；

图3是本发明实施例的评价要素迭代识别算法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供了一种面向电商产品的评价对象识别方法，包括但不限于以下步骤：

S1、获取第二评论语料，对第二评论语料进行文本预处理及标注，获得训练数据集D。

所述第二评论语料为一类电商产品的评论语料，比如化妆领域产品的评论语料或者电器的评论语料，由于需要对二评论语料进行人工标注，因此获取的量相对较少。在本实施例中，标注的训练数据集D大小为5000，具体地，标准的步骤如步骤S11-S14：

S11、对获取的评论语句进行预处理工作，所述预处理工作包括：去除指定无用的字符、对语句进行分词和词性标注工作、去除分词后的无用停用词。初始的单个评论语句为P＝c_1c_2…c_i…c_n，其中c_i表示评论语句中第i个字符，经文本预处理后为评论语句表示为P＝[(w_1),(w_2),…(w_i),…,(w_m)]，其中分词和词性标注工具可使用开源工具jieba。

S12、对于文本预处理后的每个句子，人工标注出其中的评价对象和评价词，进行两两组合，组成词对。

S13、基于评论句子的核心语义在于评价搭配的假设，构建<原句子，评价词对>的句子对，人工对词对是否存有评价搭配关系进行标注，若存有评价搭配关系，则类标为1，否则，类标为0。

S14、标注后组成的数据集D的单个样本为<原句子，评价词对，原句子分词后对应的词性序列，类别>。

S2、构建词对关联度模型，采用训练数据集D对词对关联度模型进行训练。

在本实施例中，所述词对关联度模型为基于BERT-CNN(BERT卷积网络)的词对关联度模型，所述BERT为Bidirectional Encoder Representations from Transformers的缩写。该基于BERT-CNN的词对关联度模型的结构如图2所示，具体包括：

输入层；输入层的数据包括评论语句文本系列，评论中词对系列和评论分词后的词性序列。文本系列为[c₁,c₂,…,c_i,…,c_m]，其中c_i表示第i个字符对应的数值id。评论中词对系列为[p₁,p₂,…,p_i,…,p_o]，其中p_i表示词对系列中的第i个字符对应的数值id。评论分词后的词性序列为[pos₁,pos₁,…,pos_i,…,pos_n]，其中pos_i表示词对系列中的第i个字符对应的数值id。

嵌入层；包括：基于google的中文BERT-Base的自带嵌入层BERT Embedding(位置嵌入、字符嵌入和类别嵌入)和可调参数嵌入层POS Embedding。

编码层；包括：基于google的中文BERT-Base的自带编程层BERT Encoder Layer(12层Transformer编码层)和针对词性序列的基于CNN的编码层。

分类解码层；它由BERT的编码层输出向量CLS和词性序列CNN编码层输出向量经Average Pooling得到的Pooling向量进行Concat组合输入到Softmax进行分类。

通过步骤S1获得训练数据集D，该训练数据集D可用于训练词对关联度模型。对基于BERT-CNN的词对关联度模型进行训练，训练过程中对于BERT编码层的参数使用训练数据集D进行微调，对于词性序列编码层CNN的参数使用训练数据集D进行同步训练，最后使用交叉熵函数作为模型的目标函数，训练完成后得到所需的词对关联度模型。

S3、获取第一评论语料，根据预设的词性从第一评论语料的句子中提取候选评价对象和候选评价词，将同一句子中的候选评价对象和候选评价词两两组成词对，采用训练后的词对关联度模型对词对进行关联度计算，根据计算结果获得词对集合CP。

另获取该类电商产品的大量评论语料(即第一评论语料)，该评论语料无需经过标注，可大量获取。对语料中每个句子根据词性v(动词词性)和n(名词词性)提取出候选评价对象，根据词性a(形容词词性)和n提取出候选评价词，两两组成词对。使用BERT-CNN关联度模型对词对关联度计算，提取大于阈值α₁的词对组成词对集合CP；本实施例中α₁＝0.35。

S4、采用预设识别算法对词对集合进行迭代识别，获得候选评价对象集合CO和候选评价词集合CS。

该预设识别算法为评价要素迭代识别算法，参见图3，具体包括以下步骤S41-S45：

S41、初始化候选评价对象集合CO为空，候选评价词集合CS为空；

S42、对于词对集合CP中的每个评价词进行检测，若属于种子情感词，则加入到候选评价词集合CS中。所述种子情感词来源于种子情感词典，可使用的是Hownet公布的数据。

S43、对于每个与候选评价词集合CS中评价词有关联的候选评价对象，计算候选评价对象与候选评价词集合CS的关联度，计算公式为：

其中，<o_i,s_j>为候选词对，#<o_i,s_j>为候选词对出现的频数，sim(<o_i,s_j>)为关联度模型计算的关联度。

取关联度大于阈值α₂的评价对象加入到候选评价对象集合CO中。此处α₂＝0.7。

S44、对于每个与候选评价对象集合CO中评价对象有关联的候选评价词，计算候选评价词与候选评价对象集合CO的关联度，计算公式为：

取关联度大于阈值α₂的评价词加入到候选评价词集合CS中。此处α₂＝0.7。

S45、重复步骤S43和步骤S44，直到候选评价对象集合CO和候选评价词集合CS不再改变。

S5、根据词频对候选评价对象集合内的候选评价对象进行划分，获得第一候选评价对象集合和第二候选评价对象集合。从候选评价对象集合CO中提取词频大于阈值λ₁的词语作为准确评价对象(第一候选评价对象集合内的所有候选评价对象为准确评价对象)，从候选评价词集合CS中提取词频大于阈值λ₁的词语作为准确评价词。其中，所述词频为候选评价对象或候选评价词在词对集合CP中出现的次数。

S6、利用按照基于字词混合向量的相似度计算、关联规则和PMI的顺序组合方式对步骤S5中剩余的候选评价对象进行抽取，得到最后的准确评价对象集合O。

所述步骤S6具体包括步骤S61-S65：

S61、对步骤S3获得的大量评论语料分别进行分词和分字符处理，并使用开源gensim工具分别进行word2vec训练，分别得到每个词语的词向量和每个字符向量，其中词向量的形式为[w_i1,w_i2,…,w_ik,…,w_im]，其中w_ik为第i个词语的词向量第k维的值，m为词向量的维数；字向量的形式为[c_i1,c_i2,…,c_ik,…,c_im]，其中c_ik为第i个字的字向量第k维的值，m为词向量的维数。此处m＝50。

S62、基于步骤S71训练得到的词向量，字向量进行组合成字词混合向量，组合方式为：

其中o表示评价对象，c表示组成o的字，w′₀表示字词混合向量，w_o表示词向量，c_i表示字向量。

S63、遍历步骤S5中剩余的候选评价对象，基于步骤S62的字词混合向量组合方式，将与准确评价对象的字词混合向量相似度大于阈值λ₂的评价对象加入到准确评价对象集合O中。所述阈值λ₂的取值范围为：λ₂∈(0,1]，此处取λ₂＝0.7。

S64、将剩余候选评价对象与步骤S63得到的准确评价对象集合O，进行关联规则发现，得到评价关系的关联集合对，将其中不在集合O的词语加入到准确评价对象集合O中。

所述剩余候选评价对象为步骤S3中得到的词对集合CP，在经过步骤S63抽取候选评价对象后，剩余的候选评价对象。

S65、利用搜索引擎对包含低频候选评价对象和准确评价词的词对计算PMI-IR值，将PMI-IR值大于阈值λ₃的词对中的评价对象加入到准确评价对象集合O中。

所述阈值λ₃的取值范围为：λ₃∈(-∞,0]，此处取λ₃＝-6。所述低频候选评价对象为步骤S3中得到的词对集合CP，在经过步骤S63-S64抽取候选评价对象后，剩余的候选评价对象。

所述PMI-IR的公式为：

其中，hit(x)为搜索词x在搜索引擎中的命中数，ε为常数项。

综上所述，本实施例的一种面向电商产品的评价对象识别方法，与现有技术相比，具有如下优点和有益效果：

1、本实施例采用了基于BERT-CNN的深度学习模型再结合双向传播的评价对象识别的技术方案，具体通过抽取每个句子中存在评价关系的候选词对，从情感词出发，对评价对象和评价词进行迭代识别的手段，相对以往使用依存句法关系来抽取句中存在评价关系的候选词对，本发明使用基于BERT-CNN的词对关联度抽取模型进行抽取，不仅考虑句子的句式关系还考虑到句子的语义层面，从而达到了提高评价对象识别准确率和召回率的效果。

2、本实施例训练了基于BERT-CNN的词对关联度抽取模型，其利用了大规模的预训练模型进行模型微调，只需少量标注语料即可达到很好的效果，节约了标注成本，更考虑到评论语句的语义信息和语句词序的词性信息。

3、本实施例在评价对象召回策略中，使用字词混合向量相似度衡量评价对象间的语义相似度，相对只使用词向量相似度计算评价对象间的语义相似度减少了分词工具错分的误差延续，提高了评价对象召回率和准确率。

4、本实施例采用了按照基于字词混合向量的相似度计算、关联规则和PMI的顺序组合方式的多种评价对象召回策略，其中字词混合向量相似度衡量了评价对象间的语义相似度，关联规则衡量了评价对象在语料中的关联度，PMI-IR则基于搜索引擎衡量了评价对象与评价词之间的关联程度，缓解了由于语料不足导致的长尾词统计失效的问题。

本实施例还提供了一种面向电商产品的评价对象识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种面向电商产品的评价对象识别装置，可执行本发明方法实施例所提供的一种面向电商产品的评价对象识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本实施例的一种存储介质，可执行本发明方法实施例所提供的一种面向电商产品的评价对象识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种面向电商产品的评价对象识别方法，其特征在于，包括以下步骤：

结合字词混合向量和第一候选评价对象集合，从第二候选评价对象集合获取准确评价对象，结合第一候选评价对象集合和准确评价对象获得准确评价对象集合，所述字词混合向量为词向量和字向量的组合；

所述预设识别算法包括第一公式和第二公式，所述采用预设识别算法对词对集合进行迭代识别，获得候选评价对象集合和候选评价词集合，包括：

初始化候选评价对象集合和候选评价词集合为空；

从词对集合获取候选评价词，结合候选评价词、候选评价对象集合和第二公式计算第二关联度，确定检测到第二关联度大于第二阈值，将候选评价词输入候选评价词集合；

所述第一公式为：

其中，rel_i为候选评价对象o_i与整个候选评价词集合的关联度，＜o_i，s_j＞为候选词对，#＜o_i，s_j＞为候选词对出现的频数，sim(＜o_i，s_j＞)为关联度模型计算的关联度；

所述第二公式为：

其中，rel_j为候选评价词s_j与整个候选评价对象集合的关联度，＜o_i，s_j＞为候选词对，#＜o_i，s_j＞为候选词对出现的频数，sim(＜o_i，s_j＞)为关联度模型计算的关联度。

2.根据权利要求1所述的一种面向电商产品的评价对象识别方法，其特征在于，还包括对词对关联度模型进行训练的步骤，具体为：

3.根据权利要求2所述的一种面向电商产品的评价对象识别方法，其特征在于，所述获取第二评论语料，对第二评论语料进行文本预处理及标注，获得训练数据集，包括：

构建＜原句子，词对＞的句子对，对词对是否存有评价搭配关系进行标注，若存有评价搭配关系，类标为第一类型；反之，类标为第二类型；

将标注后评论语句组成训练数据集，所述标注后评论语句的格式为＜原句子，评价词对，原句子分词后对应的词性序列，类别＞。

4.根据权利要求3所述的一种面向电商产品的评价对象识别方法，其特征在于，所述词对关联度模型为基于BERT-CNN的词对关联度模型，所述词对关联度模型包括输入层、嵌入层、编码层和分类解码层，所述采用训练数据集对词对关联度模型进行训练，包括：

采用训练数据集对编码层的参数进行微调；

5.根据权利要求1所述的一种面向电商产品的评价对象识别方法，其特征在于，所述结合字词混合向量和第一候选评价对象集合，从第二候选评价对象集合获取准确评价对象，结合第一候选评价对象集合和准确评价对象获得准确评价对象集合，包括：

6.根据权利要求5所述的一种面向电商产品的评价对象识别方法，其特征在于，还包括以下步骤：

7.一种面向电商产品的评价对象识别装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述的一种面向电商产品的评价对象识别方法。

8.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6任一项所述方法。